# Deep High-Resolution Representation Learning for Human Pose Estimation 論文作者:Ke Sun, Bin Xiao,Dong Liu, Jingdong Wang University of Science and Technology of China Microsoft Research Asia 發表:CVPR 2019 [[paper link]](<https://arxiv.org/abs/1902.09212>) 整理by: YXChen - - - - - ## 簡介 ![截圖 2024-03-06 下午11.58.34](https://hackmd.io/_uploads/SyShzMI6a.png) - 論文提出一個輸出High Resolution Representation的架構 (HRNet) 來解決人體姿態辨識的問題。 - HRNet屬於Top-down的方法,針對單人的keypint進行預測。 - 為了使整個過程維持高解析度,HRNet的架構是以並聯的方式連接不同解析度的Subnetwork,再透過Repeat Multi-scale fusions來加強不同解析度的特徵。 - - - - - ## 背景介紹 ### Pose Estimation 人體姿態辨識是指透過定位人體keypoint,例如:頭部、手肘、膝蓋等位置來辨識人體的姿勢。 ### Representation Learning 目前常見的電腦視覺領域任務: - Image Classification: 僅需要辨識圖像中物體的主要特徵,並將其分類 $\rightarrow$ **Position-insensitive** 。 - Objection Detection, Semantic Segmentation, Pose Estimation: 除了辨識圖像中的物體,還需要準確的定位和標記物體的位置 $\rightarrow$ **Position-sensitive**。 對於Position-sensitive的問題,我們需要高解析的特徵,來學習圖片中的空間訊息。 ### Previous Method 過去學習高解析度特徵的方式大多都是透過串連High-to-low Resolution的Subnetwork,再透過Up-sampling將特徵從Low-resolution恢復到High-resolution。 ![SimpleBaselineNewV3](https://hackmd.io/_uploads/HyHN9jHaT.png) 這類做法得到的High-resolution特徵基本上還是來自Low-resolution,代表圖片的細節在前面的過程已經丟失掉了。 為了避免這種狀況,作者認為應該要讓**整個過程維持High-resolution**。 - - - - - ## HRNet ### Parallel Multi-resolution Subnetworks - HRNet的主體架構從High-resolution開始,逐漸增加Low-resolution的Subnetwork,透過並連的方式將其連接。 ![截圖 2024-03-06 下午11.56.36](https://hackmd.io/_uploads/rkNHzfLTT.png) $\mathcal{N}_{sr}$ : Subnetwork, $s$: sth stage, $r$: the resolution index. 每增加一層Subnetwork的解析度第一層的$\frac{1}{2^{r-1}}$。 ### Repeated Multi-scale Fusion - Multi-scale Fusion的目的是透過Up-samling或是Down-sampling將不同解析度的特徵圖進行融合。 ![截圖 2024-03-06 下午11.26.47](https://hackmd.io/_uploads/S1IBo-8T6.png) 藍色:Up-Sampling,使用Nearest Neighbor插值法。綠色:Down-Sampling,使用3x3 Stride=2的卷積。 輸入為 $s$ 個response maps: $\{\mathbf{X}_{1}, \mathbf{X}_{2}, \dots, \mathbf{X}_{s}\}$,輸出為 $s$ 個response maps:$\{\mathbf{Y}_{1}, \mathbf{Y}_{2}, \dots, \mathbf{Y}_{s}\}$. $a(\mathbf{X}_{i}, k)$: 將圖片 $\mathbf{X}_{i}$ 從 resolution $i$ 恢復到 resolution $k$. 最後輸出融合後的 $\mathbf{Y}_{k} = \sum_{i=1}^s a(\mathbf{X}_{i}, k)$. 基本上就是透過上下採樣將特徵圖提升到相同的解析度後進行相加。 ### Heatmap estimation 經過實驗,僅使用High-resolution輸出的特徵圖進行Heatmap預測的效果最好。 ### Network instantiation. 最後生成兩個網路HRNet-W32和HRNet-W48,其中32和48分別代表High-resolution Subnetwork的Channel數。 - - - - - ## Experiments ### COCO Keypoint Detection - 17 Keypoints - 200K images and 250K person instances ![截圖 2024-03-07 下午4.50.56](https://hackmd.io/_uploads/By6xlbDpp.png) ![image](https://hackmd.io/_uploads/rJMuCzU6a.png) ### MPII Human Pose Dataset - 16 key points - 25K images with 40K subjects ![截圖 2024-03-07 下午4.52.11](https://hackmd.io/_uploads/BkvHlbD6T.png) ![截圖 2024-03-07 下午4.51.51](https://hackmd.io/_uploads/B1QVl-w6T.png) - - - - - ## Conclusion - 提出了生成High-resolution特徵的網路架構。 - 結構亮點: 1. 透過並聯的方式連接High-to-low Resolution的Subnetwork 2. 整個過程維持High-resolution 3. 重複融合不同解析度的特徵 - 以Pose Estimation為出發點,未來希望可以廣泛用於其他任務。