心得 - HackMD

# 心得 F110154105陳信銓負責部分本篇在教學One Stage Detection 有別於Two Stage Detection先分出物體與背景要經過較多小網路且較複雜，耗時也較長，進而產生的解決方法就是One Stage Detection，有別於Two Stage Detection，One Stage Detection將物體與背景同時處理，用單一個網路處理較容易最佳化耗時也較短。 YOLO做法: YOLO(You only look once)是一種One Stage Detection的做法，YOLO的做法是將輸入影像經由CNN網路處理後得到一張劃分SxS的新影像，若影像的中心落在其中一個方格內，則此方格就是負責檢測此影像，每個方格預測2個Boundind box，對這些Boundind box進行regression則可得知Boundind box確切定位，定位完成後還需要處理分類問題，將物體分為SxS、B個Boundind box的影像後，每個方格要預測C種物體，每個方格內的物體都用條件機率來表示，例如人或是車的機率，不管Boundind box有幾個都只預測每個物體的條件機率，YOLO將物體分為S=7，B=2，C=20，最後將是不是物體的機率與物體種類的條件機率相乘後，就有物體定位和物體分類的功能，但這樣會得到太多重複的部分，很多都是同個物體不同部位而已，所以還要使用非極大值抑制的方法，去除重疊太多的Boundind box，最後的結果就是物件偵測的結果。 F110154110王崑祥負責部分 loss值: YOLO的LOSS值包含了三項，座標預測誤差、分類預測誤差(物體或是背景預測誤差)與類別預測誤差。結果: 與傳統方法(computer vision)相比，YOLO速度更快且更準，YOLO與Fast R-CNN相比，雖然準確率較低但速度快3倍。與Fast R-CNN相比，YOLO在背景的誤判率低很多，這是因為YOLO是將整張圖像下去做處理，可以看到整體的資訊背景就不容易判斷錯誤，但YOLO的定位準確率較差，這也說明了YOLO把偵測轉換為回歸有較好的準確率，但Boundind box的定位方法則有需要再進一步的改善，定位誤差主要來源自方格中只能預測2個Box以及1個類別，這限制了YOLO對於相鄰物體的檢測能力，還有因為訓練資料的關係，對於較小物體和不常見的長寬比物體時，YOLO的效果較差。