Scalable Object Detection using Deep Neural Networks 論文閱讀

# Scalable Object Detection using Deep Neural Networks 論文閱讀此篇論文提出的bounding box detector為目前許多Object Detection論文對於bounding box 預測的先驅。原文：https://arxiv.org/pdf/1312.2249.pdf ## Introduction 論文中提出一由單個DNN為架構的檢測器並命名為DeepMultiBox，本論文最重要的貢獻有以下三點： * 將object detection定義為多個bounding box座標的迴歸問題，此外對於每個預測框，模型會輸出一個信心值(confidence score)代表對於此預測框包含某物件的可能性。 * 將bounding box的檢測器做為網路的一部分進行訓練 * 在無類別的條件下訓練bounding box檢測器，使計算不受到物件類別的影響，因此可適用於大規模物件檢測，此方法也可以擴展至未知的類別。 ## Proposed approach 論文目標在於預測一組代表潛在物件的bounding boxes以實現無類別標籤且可擴展的物件檢測方法。更準確地說，本文使用一Deep Neural Network(DNN)模型以輸出固定數量的bounding boxes座標及是否含有物件的信心值 ### Bounding box 由物件框左上角及右下角四個座標編碼而成，其中又會根據影像大小進行正規化。 ### Confidence 值∈[0,1]，代表此物件框是否包含物件。文中使用linear layer作為預測物件框的輸出，而信心值的輸出則是使用sigmoid layer，兩層均連接DNN的最後一層。在Inference時，在實驗裡文中使用K=100及K=200兩種不同數量的物件框(K為物件框數量)，並採用NMS篩選物件框，最後再額外使用一DNN的分類器以分類不同的物件類別。 ### Objective function 因為有label的bounding box少於K，因此文中嘗試優化與真實資料最匹配的子集，提升這些子集的座標及信心值，並降低其餘子集的信心值 #### How? * Final objective function為： ![](https://i.imgur.com/Sm1btgA.jpg) 其中 $Fmatch$為bounding box的objective function; $Fconf$為confidence的objective function * Objective function of bounding box: ![](https://i.imgur.com/UURNj7r.jpg) 預測框與真資料的L2 distance。其中 $xij$ ∈ {0, 1}，舉例而言，若 $xij = 1$ 則代表第$i$個預測框被指定為第$j$個物件；$li$為第$i$個預測框的座標值；$gj$為第$j$個物件的座標值 * Objective function of confidence: ![](https://i.imgur.com/pfjryDb.jpg) 預測信心值的conditional entropy，為了最大化信心值($ci$)。其中$ci$為第$i$個預測框的信心值。 * Optimization 最小化Final objective function ![](https://i.imgur.com/XVn3Yot.jpg) * Training details 提出Prior Matching的概念，其中包含三個修正： 1. 先對真資料進行聚類，並找到K個這樣的聚類／中心點，並將他們最為每個預測框的先驗資料，因此演算法會鼓勵預測框先學習降低與先驗資料的殘差。 2. 在matching過程中，使用K個先驗資料與K個真實資料進行最佳匹配，並且也會計算信心值。 3. 位置預測的損失並不會改變，對於匹配的位置對(目標、預測)，損失的定義為真資料與先驗資料的差值。 ## Experimental results ### 超參數 * Optimizer: AdaGrad * Batch size: 128 * Cluster: K-means * α in eq. 3: 0.3 * NMS threshold: 0.5 ### VOC 2007 使用VOC2012訓練一100個框的localizer並在VOC2007測試，可達到mPA=0.29，其餘結果如下： ![](https://i.imgur.com/SwH5YEB.jpg) ![](https://i.imgur.com/wrBd7R3.jpg) ## Conclusion & Discussion 本文提出一新方法可以在一張影像中同時預測多個bounding box，且DeepMultiBox是可以伸縮的，即多增加類別不需要再額外訓練一個Detector。 ## Comment 與2013年之前的方法不同，本文提出一個非常重要的概念－將bounding box的預測定義成一個迴歸問題，這個概念也一直延用至目前的許多方法中，而提取最後一層的feature並加入linear及softmax的架構也是目前許多方法的先驅。