:::info
:::
概要 Abstrct
在這篇論文中,作者推出了一個嶄新的物件偵測方式 -- YOLO。原本的物件偵測任務是利用分類器來進行,但在 YOLO 中,作者們將物件偵測視為一個回歸任務,來從空間中分割出邊界框 ( Bounding Box )並且計算出類別機率。僅利用一個神經網路進行一次計算來直接預測邊界框及類別機率,也因為整個偵測過程只有使用單一個神經網路,因此可以視為是一個 End-to-End 的優化過程。
這樣統一的架構的執行速度十分快速,YOLO 執行圖像任務上可以達到即時每秒 45 幀。而另外一個較小型的版本 Fast YOLO 不僅可以達到每秒 155 幀的執行速度,mAP ( Mean Average Precision ) 也是其他即時物件偵測系統的兩倍。
跟其他的物件偵測系統相比,YOLO 雖然有較高的定位誤差,但在背景的預測上不太可能出現 False Positive 的狀況。最後,YOLO 不論在自然圖像或是藝術圖像等領域上,相較於其他的偵測法,如 DPM 及 R-CNN, 可以學習到泛化性更好的物體表示法。