###### tags: `文獻閱讀` `專題討論` `onlyFirst` # Learning of 3D Graph Convolution Networks for Point Cloud Analysis ref: https://ieeexplore.ieee.org/document/9355025 ### First time #### 解決問題 3D視覺任務中,Point Cloud表示的處理和理解具有挑戰性,因為無序資料點的特性。過去相關工作雖說表現良好,但在面對偏移(shift)和比例變化(scale change)時,效能會顯著減低。 #### 採用方法 此篇提出了一種稱為3D圖像卷積網路(3D-GCN),學習有著graph max-pooling的3D kernel,萃取point cloud中不同尺度的幾何特徵。 #### 成果 實驗表明3D-GCN可以同時實現平移和尺度不變,可以用於point cloud的分類以及分割任務。 ### Second ### Third #### Introduction整理 3D視覺任務中,現存的資料包含voxel、mesh或point cloud特徵。(1)voxel以網格形式描述3D物件,有解析度不足和耗內存的問題。(2)Mesh多用於棟,但這種表示與3D偵測器不直接相關。(3)point cloud則專注在形狀資訊,容易被偵測器捕捉,但產生無序點集合對後續分析不利。 2維視覺,影像多以像素等網格呈現,故CNN運算可行。類似概念的kernel因為不規則和非結構化,無法部屬在3D point cloud上。過去PointNet用多個FC layer編碼point cloud,再進行全局max-pool,有很好的結果。但因為全局max-pool,無法正確觀察局部資訊。部分研究希望利用mesh資料和相關的圖結構(節點、邊等)提取資訊。 由於現有方法都考慮3D point cloud的全局座標,因此若座標沒有正確normalize或存在異資料,平移縮放等剛性變換(rigid transformation)會降低效能。但對point cloud或具有噪聲/outlier的normalization相當困難。 基於過去的工作,作者提出3D-GCN,用於處理和學習3D point cloud結構資訊,目標是像CNN的可變型3D核(deformable 3D kernels),其形狀、權重在訓練階段可學習。此外,3D-GCN中執行獨特的max-pool,用於總結不同尺度的特徵。3D-GCN可以觀察、提取任意形狀、大小的無序3D point cloud的結構資訊。又因為使用結構的方向資訊而非全局座標學習3D kernel,不需要任何形式的normalization,對移動或縮放不變。也可以實現令人滿意的旋轉不變性。實驗證明在3D point cloud資料有很好的強健性。 作者總結其貢獻為 1. 提出用於3D point cloud分析3D-GCN,在分類、分割任務展現了不變性 2. 學習3D空間的可變型核,推導directional structural features,可以對輸入的平移、縮放、旋轉變化有不變性。 3. 3D圖max-pool允許跨解析度提取特徵,增強描述能力。