【論文紹介】You Only Look Once: Unified, Real-Time Object Detection

論文と公式サイトは以下から。

概要

どんな画像からでも学習でき、分類結果の損失関数を使い学習します。Fast YOLO（ネットワークが小さい版）は最速の物体検出が可能なため、リアルタイムでの物体検出が可能。

YOLOの物体検出はbounding boxとclassの確率の回帰問題と設定しています。1つのニューラルネットワークを使ってbounding boxとclassの確率を予測できます。

具体的には1秒間に45フレームを処理できます。Fast YOLOは1秒間に155フレーム処理できます。

window slidingやregion proposal-based techniquesではなく、画像全体をみて分類します。

画像で学習して、絵で検出する能力が他の手法より精度が高いです。

inputする画像をS x Sのグリッドで区切ります。

それぞれのグリッドからbouding boxと物体である可能性を検出します。
fig2でいうところのBounding boxes + confidenceのことで、confidenceはPr(Object) ∗ IOUtruthpredで表されます。IOUはintersection over unionの略です。全てのbouding boxは、中心を表すx, y、縦横を表すw, h、そしてconfidenceで構成されます。
それぞれのグリッドの物体であり、分類の種類の確率（何に分類されるか。犬など。）
fig2でいうところのClass probability mapで、bouding boxがgridの上にいくつかあったとしても、1つの分類の可能性しか推測しません。

1と2はまとめると式1のようになります。