# Deep High-Resolution Representation Learning for Human Pose Estimation
論文作者:Ke Sun, Bin Xiao,Dong Liu, Jingdong Wang
University of Science and Technology of China Microsoft Research Asia
發表:CVPR 2019 [[paper link]](<https://arxiv.org/abs/1902.09212>)
整理by: YXChen
- - - - -
## 簡介

- 論文提出一個輸出High Resolution Representation的架構 (HRNet) 來解決人體姿態辨識的問題。
- HRNet屬於Top-down的方法,針對單人的keypint進行預測。
- 為了使整個過程維持高解析度,HRNet的架構是以並聯的方式連接不同解析度的Subnetwork,再透過Repeat Multi-scale fusions來加強不同解析度的特徵。
- - - - -
## 背景介紹
### Pose Estimation
人體姿態辨識是指透過定位人體keypoint,例如:頭部、手肘、膝蓋等位置來辨識人體的姿勢。
### Representation Learning
目前常見的電腦視覺領域任務:
- Image Classification: 僅需要辨識圖像中物體的主要特徵,並將其分類 $\rightarrow$ **Position-insensitive** 。
- Objection Detection, Semantic Segmentation, Pose Estimation: 除了辨識圖像中的物體,還需要準確的定位和標記物體的位置 $\rightarrow$ **Position-sensitive**。
對於Position-sensitive的問題,我們需要高解析的特徵,來學習圖片中的空間訊息。
### Previous Method
過去學習高解析度特徵的方式大多都是透過串連High-to-low Resolution的Subnetwork,再透過Up-sampling將特徵從Low-resolution恢復到High-resolution。

這類做法得到的High-resolution特徵基本上還是來自Low-resolution,代表圖片的細節在前面的過程已經丟失掉了。
為了避免這種狀況,作者認為應該要讓**整個過程維持High-resolution**。
- - - - -
## HRNet
### Parallel Multi-resolution Subnetworks
- HRNet的主體架構從High-resolution開始,逐漸增加Low-resolution的Subnetwork,透過並連的方式將其連接。

$\mathcal{N}_{sr}$ : Subnetwork, $s$: sth stage, $r$: the resolution index.
每增加一層Subnetwork的解析度第一層的$\frac{1}{2^{r-1}}$。
### Repeated Multi-scale Fusion
- Multi-scale Fusion的目的是透過Up-samling或是Down-sampling將不同解析度的特徵圖進行融合。

藍色:Up-Sampling,使用Nearest Neighbor插值法。綠色:Down-Sampling,使用3x3 Stride=2的卷積。
輸入為 $s$ 個response maps: $\{\mathbf{X}_{1}, \mathbf{X}_{2}, \dots, \mathbf{X}_{s}\}$,輸出為 $s$ 個response maps:$\{\mathbf{Y}_{1}, \mathbf{Y}_{2}, \dots, \mathbf{Y}_{s}\}$.
$a(\mathbf{X}_{i}, k)$: 將圖片 $\mathbf{X}_{i}$ 從 resolution $i$ 恢復到 resolution $k$.
最後輸出融合後的 $\mathbf{Y}_{k}
= \sum_{i=1}^s a(\mathbf{X}_{i}, k)$.
基本上就是透過上下採樣將特徵圖提升到相同的解析度後進行相加。
### Heatmap estimation
經過實驗,僅使用High-resolution輸出的特徵圖進行Heatmap預測的效果最好。
### Network instantiation.
最後生成兩個網路HRNet-W32和HRNet-W48,其中32和48分別代表High-resolution Subnetwork的Channel數。
- - - - -
## Experiments
### COCO Keypoint Detection
- 17 Keypoints
- 200K images and 250K person instances


### MPII Human Pose Dataset
- 16 key points
- 25K images with 40K subjects


- - - - -
## Conclusion
- 提出了生成High-resolution特徵的網路架構。
- 結構亮點:
1. 透過並聯的方式連接High-to-low Resolution的Subnetwork
2. 整個過程維持High-resolution
3. 重複融合不同解析度的特徵
- 以Pose Estimation為出發點,未來希望可以廣泛用於其他任務。