Learning Rich Features from RGB-D Images for Object Detection and Segmentation

# Learning Rich Features from RGB-D Images for Object Detection and Segmentation (カンファレンスを入れる) {%hackmd theme-dark %} ###### tags: `paper` ###### description: 論文読んだまとめ記事 --- - Title Learning Rich Features from RGB-D Images for Object Detection and Segmentation - Conference ECCV2014 R-CNNがSOTAだった時代の論文 - Authors Saurabh Gupta, Ross Girshick, Pablo Arbel ́aez, and Jitendra Malik - URL https://arxiv.org/abs/1407.5736 --- ## どんなもの? デプス画像に幾何学的な情報として以下の情報を埋め込む手法(==HHAコーディング==)を提案した。 - ==地面からの高さ(height above ground)== - ==視差もしくは深度(horizontal disparity)== - ==ピクセルごとの角度(angle with gravity)== これによって深度画像を単体で使うよりも頑強になる。デモンストレーションでは、RGBだけの時はmAP 19.7だったが、RGBに加えてHHAコーディングした画像を入力とするとmAP 32.5になることが確認された。セマンティックセグメンテーションについてはSOTAを24%更新した。処理の全体像は、Fast R-CNNと似ている。 ![](https://i.imgur.com/odsMMpk.png) ## 先行研究と比べて何がすごい？ - R-CNNが脚光を浴びていたため、入力をRGB−Dにしてみようという試みた論文がいくつかあった。 **これらの手法はそれぞれ長所があったが短所もあったため、それらを統合してしまおうというのが注目するべき点の１つとなっている。** - 今までの手法は整備された環境で試されていたものが多かったので、この論文では雑然とした環境で評価するよ。 ## 技術の手法や肝は？ ### ■ HHAコーディング - horizontal disparity - height above ground - angle with gravity HHAコーディングされた画像のエッジは物体のエッジと一致しているので、RGB画像のようにCNN対して領域を得ることができる。 ==HHAコーディング画像は、例えば「床面のエッジは他のエッジよりも重要ではない」ことなどが分かる==。 ### ■ Angle with gravityを求めるアルゴリズム筆者曰く、椅子は面が上になっているし、ドアは面が横になっていることに着目した。 #### ▲Step 0 以下の2ステップを繰り返すことで求めていく. 重力方向$g$の初期値はY軸方向にする. 最初の5回のイテレーションではd=45、次の5回のイテレーションではd=15. #### ▲Step 1 入力点群を、==重力ベクトル$g_{i-1}$に平行な点群の集合$N_{||}$== 、==垂直な点群の集合$N_{⊥}$== 、それ以外に分ける。 $$ N_{||} = \{n: \theta(n,g_{i−1})< d\ \ or\ \ \theta(n,g_{i−1})>180^◦−d\} \\ N_{⊥} = \{n: 90^◦−d < \theta(n,g_{i−1})<90^◦+d\} \\ \theta(a,b)=angle\ between\ a\ and\ b $$ これによって通常、 ==$N_{||}$には地面と平行なテーブル上面や床の点群==が所属し、 ==$N_{⊥}$には壁などの点群==が所属することになる。 #### ▲Step 2 重力ベクトル$g_i$を更新する。 $$ min_{g:||g||_2=1} \sum_{n∈N_⊥}cos^2(θ(n,g)) + \sum_{n∈N_{||}}sin^2(θ(n,g)) $$ ## どうやって有効だと検証したか - 検証したいこと HHAコーディングを従来のRGB画像のように既存ネットワークの入力とした時に、CNNが表現を獲得できるかどうかデプスデータをどう表現すれば効率的にCNNが学習するのか - Dataset PASCAL VOC, NYUD2 - 指標 mean average precision - 結果 - Height, Disparity, Angleのそれぞれのみ mAP 20.1 - HHA mAP 25.2 - RGB mAP 19.7 - HHA & RGB mAP 32.5 - 考察 ## 議論重力方向の決定のために点法線推定ベクトル使うから、リアルタイムにはできない ## 次に読むべき論文は？ SEモジュール https://qiita.com/koshian2/items/6742c469e9775d672072?fbclid=IwAR1MyjJBB7ZiAmKMISJmfRqOKGomBHsnmoBPNbwPbExsI9yiApHJYADFpko ## 参考文献 https://arxiv.org/abs/1407.5736 Gupta, S., Arbel ́aez, P., Malik, J.: Perceptual organization and recognition of in-door scenes from RGB-D images. In: CVPR (2013) http://saurabhg.web.illinois.edu/pdfs/gupta2013perceptual.pdf