# Fisheye - Top-View & Person Detection > [name=謝朋諺(Adam Hsieh)] > [time=Tue, Aug 27, 2019 11:28 AM] ###### tags: `paper` `IVA` --- # People Detection in Fish-eye Top-views [論文連結](https://www.scitepress.org/papers/2017/60947/60947.pdf) {%pdf https://www.scitepress.org/papers/2017/60947/60947.pdf %} ## 主要貢獻  * 證明魚眼的使用進一步使 Person Detection 變得更複雜,因為人的視野範圍從圖像周邊的類正面到圖像中心的完美俯視圖,其中只有頭部和肩部頂部輪廓可見。 * 結果表明資料豐富度對模型複雜度的重要性。 ## The ACF Model * ACF 模型採用 **multi-scale multi-channel** 特徵與 **Boosted Tree Classifier** 相結合。 * 通道指的是 LUV 顏色空間中的 1. the gradient magnitude, 2. histograms of gradients 3. the image itself ## The Image Symmetry and Coordinate System * 定義一個圓形對稱座標系,在徑向距離增加了 7 個圓環區域,和他們的扇形極坐標系 (24 個扇區,基於垂直軸的角坐標 $\theta$,每個尺寸為 15°)。  * 7 個環定義在距離中心越來越遠的位置。 * 原點在正中心的垂直軸上。 * 只有站在黑色粗線上的人是垂直的(頭在北方,腳在南方)。 ## Setup and Fish-eye Imaging Model  * 世界座標 $X$ 在底層定義,攝影機座標 $X_c$ 與會與攝影機平面一致,而 $\alpha$ 則是攝影機傾斜角度,公式為:$u=KG(\theta)[R|t]X$ ⋯⋯(1) * $K$ 是相機校正矩陣。 * $R$ 世界到相機的旋轉。 * $t$ 世界到相機的平移, * $u$ 是像素座標。 * 公式 (1) 不同於針孔的公式 $G(\theta)$ 描述了入射光與出射光之間的角度關係如上圖 (b),公式為: $G(\theta)=\left(\begin{array}{cccc}(tan\circ g)(\theta)&0&0\\0&(tan\circ g)(\theta)&0\\0&0&tan\theta\end{array}\right)$⋯⋯(2) 函式 $g$ 模擬魚眼鏡頭的 radial distortion。 ## Quasi-circular Symmetry  * 我們將站立的人員畫到地平面上如上圖 (a),並利用公式 (1) 將他們以不同的攝影機傾斜角 $\alpha$ 將他們投影到影像上如 (b)、\(c\)、(d)。 * 對稱的近似中心點 $O$ (圖上綠色點,相機重心投射到地面的投影),他隨著攝影機傾斜 $\alpha$ 而移動。 * 對於小傾斜 $\alpha$ 的點 $O'$ (紅色點,攝影機主軸的投影) 非常接近點 $O$。 ## Result and Discussion ### Training Sample Alignment by Rotation  * 當前的邊界框(BB)是以軸為對齊的,而影像描繪了 360° 旋轉的人。因此,我們需要將樣本旋轉到使新的 BB 適合人的參考角度。 * 一開始我們只考慮環 6.(前面圓環圖),我們根據 BB 的中心將所有樣本對其到垂直北軸 (前面第二張圖的黑線),我們將 model 的長寬比固定為參考垂直軸上所有樣本的平均值。 * 另外有兩種做法可以將新的 BB 安裝到旋轉的 BB 上: 1. **通過外接 BB 校正**。偏離垂直軸旋轉的 BB 會為菱形。生成新 BB 的最簡單方法是外接一個矩形。 2. **根據主要特定 BB 進行校正**。我們在垂直軸上測量主要特定的 BB 並將它們與旋轉的菱形相匹配。(不包含主要目標沒有穿過第 6 環的垂直線訓練的影片) * 另一個重要的參數是關於 Padding/Stretching 用來預估 BB 的長寬比,最常見的是通過採樣更多的背景像素(內容物)來 Padding 最短寬度/高度,但是也使用 Stretching。 * 在上表中我們分析了增加人的旋轉角度從在 ring 6. sector 的區域開始 $-7.5°<\theta<7.5°$ 到 $-57.5°<\theta<57.5°$,越大的 $\theta$ 範圍,意味著有更多資料和更好的效能,但出乎意料的使用 Subject-specific 並沒有幫助。 ### ACF Vs. Grid ACF  * 接下來,我們實驗人與中心的距離外觀變化,逐漸將任務從 ring 6. 延伸到整個影像。 1. **Single ACF**。 從所有數據中學習一個模型,即從所有選定的環中學習。這會使一個分類器看到高度多形式的資料分佈,就像是人們的觀點; 2. **Grid ACF**。 針對單獨的環學習單獨的模型。這簡化了分類器任務,但增加了 model 複雜性,因此需要更多資料。 * 如上表所示,兩種 BB 比對都具有相似的性能。更有趣的是,單個 ACF 總是優於 Grid ACF,這表明資料豐富度更重要。 * 所選環 {6,5,4} 會有最佳的 Performance(62.79%),代表在有限測試區域內其實包含了大多數的正向訓練樣本。 ### Effects of Geometric Modelling  * 本文還實驗用前面提到的正確對稱中心點 $O$ 而不是影像的中心是否會提高效能。 * 由於 $O$ 不可用(需要每次安裝時計算相機傾斜度),因此先分析能否用 $O'$ 來取代他。 * 如上圖所示,若 $O'$ 傾斜 $O$ 為 4°,則非常近似。 * 當使用 $O'$ 取代並再用 subject-specific 的方法大概可以改進 2% 左右,結果為 67.99%。 * 當使用 $O'$ 取代並再用 circumscribed 的方法性能則降低到 71.74%。 * 如下圖綠色 BB 為真實答案,紅色為預設框,LAMR 則是左上最好右下最差。 
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up