Fisheye - Top-View & Person Detection

# Fisheye - Top-View & Person Detection > [name=謝朋諺(Adam Hsieh)] > [time=Tue, Aug 27, 2019 11:28 AM] ###### tags: `paper` `IVA` --- # People Detection in Fish-eye Top-views [論文連結](https://www.scitepress.org/papers/2017/60947/60947.pdf) {%pdf https://www.scitepress.org/papers/2017/60947/60947.pdf %} ## 主要貢獻 ![](https://i.imgur.com/FmJGxMc.jpg) * 證明魚眼的使用進一步使 Person Detection 變得更複雜，因為人的視野範圍從圖像周邊的類正面到圖像中心的完美俯視圖，其中只有頭部和肩部頂部輪廓可見。 * 結果表明資料豐富度對模型複雜度的重要性。 ## The ACF Model * ACF 模型採用 **multi-scale multi-channel** 特徵與 **Boosted Tree Classifier** 相結合。 * 通道指的是 LUV 顏色空間中的 1. the gradient magnitude, 2. histograms of gradients 3. the image itself ## The Image Symmetry and Coordinate System * 定義一個圓形對稱座標系，在徑向距離增加了 7 個圓環區域，和他們的扇形極坐標系 (24 個扇區，基於垂直軸的角坐標 $\theta$，每個尺寸為 15°)。 ![](https://i.imgur.com/NR0SK9J.jpg) * 7 個環定義在距離中心越來越遠的位置。 * 原點在正中心的垂直軸上。 * 只有站在黑色粗線上的人是垂直的（頭在北方，腳在南方）。 ## Setup and Fish-eye Imaging Model ![](https://i.imgur.com/3cid1ds.png) * 世界座標 $X$ 在底層定義，攝影機座標 $X_c$ 與會與攝影機平面一致，而 $\alpha$ 則是攝影機傾斜角度，公式為：$u=KG(\theta)[R|t]X$ ⋯⋯(1) * $K$ 是相機校正矩陣。 * $R$ 世界到相機的旋轉。 * $t$ 世界到相機的平移， * $u$ 是像素座標。 * 公式 (1) 不同於針孔的公式 $G(\theta)$ 描述了入射光與出射光之間的角度關係如上圖 (b)，公式為： $G(\theta)=\left(\begin{array}{cccc}(tan\circ g)(\theta)&0&0\\0&(tan\circ g)(\theta)&0\\0&0&tan\theta\end{array}\right)$⋯⋯(2) 函式 $g$ 模擬魚眼鏡頭的 radial distortion。 ## Quasi-circular Symmetry ![](https://i.imgur.com/8kJkLKh.png) * 我們將站立的人員畫到地平面上如上圖 (a)，並利用公式 (1) 將他們以不同的攝影機傾斜角 $\alpha$ 將他們投影到影像上如 (b)、$c$、(d)。 * 對稱的近似中心點 $O$ (圖上綠色點，相機重心投射到地面的投影)，他隨著攝影機傾斜 $\alpha$ 而移動。 * 對於小傾斜 $\alpha$ 的點 $O'$ (紅色點，攝影機主軸的投影) 非常接近點 $O$。 ## Result and Discussion ### Training Sample Alignment by Rotation ![](https://i.imgur.com/6T3j2kU.png) * 當前的邊界框（BB）是以軸為對齊的，而影像描繪了 360° 旋轉的人。因此，我們需要將樣本旋轉到使新的 BB 適合人的參考角度。 * 一開始我們只考慮環 6.(前面圓環圖)，我們根據 BB 的中心將所有樣本對其到垂直北軸 (前面第二張圖的黑線)，我們將 model 的長寬比固定為參考垂直軸上所有樣本的平均值。 * 另外有兩種做法可以將新的 BB 安裝到旋轉的 BB 上： 1. **通過外接 BB 校正**。偏離垂直軸旋轉的 BB 會為菱形。生成新 BB 的最簡單方法是外接一個矩形。 2. **根據主要特定 BB 進行校正**。我們在垂直軸上測量主要特定的 BB 並將它們與旋轉的菱形相匹配。（不包含主要目標沒有穿過第 6 環的垂直線訓練的影片） * 另一個重要的參數是關於 Padding/Stretching 用來預估 BB 的長寬比，最常見的是通過採樣更多的背景像素（內容物）來 Padding 最短寬度/高度，但是也使用 Stretching。 * 在上表中我們分析了增加人的旋轉角度從在 ring 6. sector 的區域開始 $-7.5°<\theta<7.5°$ 到 $-57.5°<\theta<57.5°$，越大的 $\theta$ 範圍，意味著有更多資料和更好的效能，但出乎意料的使用 Subject-specific 並沒有幫助。 ### ACF Vs. Grid ACF ![](https://i.imgur.com/uoGokTN.png) * 接下來，我們實驗人與中心的距離外觀變化，逐漸將任務從 ring 6. 延伸到整個影像。 1. **Single ACF**。從所有數據中學習一個模型，即從所有選定的環中學習。這會使一個分類器看到高度多形式的資料分佈，就像是人們的觀點; 2. **Grid ACF**。針對單獨的環學習單獨的模型。這簡化了分類器任務，但增加了 model 複雜性，因此需要更多資料。 * 如上表所示，兩種 BB 比對都具有相似的性能。更有趣的是，單個 ACF 總是優於 Grid ACF，這表明資料豐富度更重要。 * 所選環 {6,5,4} 會有最佳的 Performance（62.79％），代表在有限測試區域內其實包含了大多數的正向訓練樣本。 ### Effects of Geometric Modelling ![](https://i.imgur.com/JXa549W.png) * 本文還實驗用前面提到的正確對稱中心點 $O$ 而不是影像的中心是否會提高效能。 * 由於 $O$ 不可用（需要每次安裝時計算相機傾斜度），因此先分析能否用 $O'$ 來取代他。 * 如上圖所示，若 $O'$ 傾斜 $O$ 為 4°，則非常近似。 * 當使用 $O'$ 取代並再用 subject-specific 的方法大概可以改進 2% 左右，結果為 67.99%。 * 當使用 $O'$ 取代並再用 circumscribed 的方法性能則降低到 71.74%。 * 如下圖綠色 BB 為真實答案，紅色為預設框，LAMR 則是左上最好右下最差。 ![](https://i.imgur.com/V7P2g8i.jpg)