# Scalable Object Detection using Deep Neural Networks 論文閱讀 此篇論文提出的bounding box detector為目前許多Object Detection論文對於bounding box 預測的先驅。 原文:https://arxiv.org/pdf/1312.2249.pdf ## Introduction 論文中提出一由單個DNN為架構的檢測器並命名為DeepMultiBox,本論文最重要的貢獻有以下三點: * 將object detection定義為多個bounding box座標的迴歸問題,此外對於每個預測框,模型會輸出一個信心值(confidence score)代表對於此預測框包含某物件的可能性。 * 將bounding box的檢測器做為網路的一部分進行訓練 * 在無類別的條件下訓練bounding box檢測器,使計算不受到物件類別的影響,因此可適用於大規模物件檢測,此方法也可以擴展至未知的類別。 ## Proposed approach 論文目標在於預測一組代表潛在物件的bounding boxes以實現無類別標籤且可擴展的物件檢測方法。更準確地說,本文使用一Deep Neural Network(DNN)模型以輸出固定數量的bounding boxes座標及是否含有物件的信心值 ### Bounding box 由物件框左上角及右下角四個座標編碼而成,其中又會根據影像大小進行正規化。 ### Confidence 值∈[0,1],代表此物件框是否包含物件。 文中使用linear layer作為預測物件框的輸出,而信心值的輸出則是使用sigmoid layer,兩層均連接DNN的最後一層。 在Inference時,在實驗裡文中使用K=100及K=200兩種不同數量的物件框(K為物件框數量),並採用NMS篩選物件框,最後再額外使用一DNN的分類器以分類不同的物件類別。 ### Objective function 因為有label的bounding box少於K,因此文中嘗試優化與真實資料最匹配的子集,提升這些子集的座標及信心值,並降低其餘子集的信心值 #### How? * Final objective function為: ![](https://i.imgur.com/Sm1btgA.jpg) 其中 $Fmatch$為bounding box的objective function; $Fconf$為confidence的objective function * Objective function of bounding box: ![](https://i.imgur.com/UURNj7r.jpg) 預測框與真資料的L2 distance。其中 $xij$ ∈ {0, 1},舉例而言,若 $xij = 1$ 則代表第$i$個預測框被指定為第$j$個物件;$li$為第$i$個預測框的座標值;$gj$為第$j$個物件的座標值 * Objective function of confidence: ![](https://i.imgur.com/pfjryDb.jpg) 預測信心值的conditional entropy,為了最大化信心值($ci$)。其中$ci$為第$i$個預測框的信心值。 * Optimization 最小化Final objective function ![](https://i.imgur.com/XVn3Yot.jpg) * Training details 提出Prior Matching的概念,其中包含三個修正: 1. 先對真資料進行聚類,並找到K個這樣的聚類/中心點,並將他們最為每個預測框的先驗資料,因此演算法會鼓勵預測框先學習降低與先驗資料的殘差。 2. 在matching過程中,使用K個先驗資料與K個真實資料進行最佳匹配,並且也會計算信心值。 3. 位置預測的損失並不會改變,對於匹配的位置對(目標、預測),損失的定義為真資料與先驗資料的差值。 ## Experimental results ### 超參數 * Optimizer: AdaGrad * Batch size: 128 * Cluster: K-means * α in eq. 3: 0.3 * NMS threshold: 0.5 ### VOC 2007 使用VOC2012訓練一100個框的localizer並在VOC2007測試,可達到mPA=0.29,其餘結果如下: ![](https://i.imgur.com/SwH5YEB.jpg) ![](https://i.imgur.com/wrBd7R3.jpg) ## Conclusion & Discussion 本文提出一新方法可以在一張影像中同時預測多個bounding box,且DeepMultiBox是可以伸縮的,即多增加類別不需要再額外訓練一個Detector。 ## Comment 與2013年之前的方法不同,本文提出一個非常重要的概念-將bounding box的預測定義成一個迴歸問題,這個概念也一直延用至目前的許多方法中,而提取最後一層的feature並加入linear及softmax的架構也是目前許多方法的先驅。