1. 程式人生 > >Learning Feature Pyramids for Human Pose Estimation(理解)

Learning Feature Pyramids for Human Pose Estimation(理解)

 0 - 背景

  人體姿態識別是計算機視覺的基礎的具有挑戰性的任務,其中對於身體部位的尺度變化性是存在的一個顯著挑戰。雖然金字塔方法廣泛應用於解決此類問題,但該方法還是沒有很好的被探索,我們設計了一個Pyramid Residual Module(PRMs)來提高DCNNs的尺度不變性。

  並且我們發現現存的初始化方法並不使用multi-branch的網路,我們在當前的權重初始化方法上提出了新的方法並給出了理論證明。

1 - 貢獻

  • 提出Pyramid Residual Module來提高深度模型的尺度不變性問題,而只是比DCNNs多一點點複雜性
  • 分析了DCNNs多輸入或者多輸出層的初始化問題(當前MSR和Xavier初始化方法不適用multi-branch網路),提出了新的權重初始化策略(可以用於許多網路架構,包括inception models和ResNets)
  • 我們發現在一些場景中啟用變化累積是由identity mapping造成的,運用一種簡單的有效解決方案

2 - 整體思路

  

 

2.1 - 尺度不變性

  

  如上圖,(a)和(b)由於透視關係,(a)中的上半身身體部位顯得很大,而相反(b)中的上半身部位顯得小,如果對於不同尺度的身體部位運用相同檢測器,則尺度的變化將嚴重影響檢測器的效果,因此在檢測的時候需要在影象多變的情況下保證尺度不變性。論文用瞭如下大致架構:

2.2 - Pyramid Residual Modules (PRMs)

  PRM被形式化描述為:

$$x^{(l+1)}=x^{(l)}+P(x^{(l)};W^{(l)})$$

  其中$P(x^{(l)};W^{(l)})$是特徵金字塔,可以被展開為:

$$P(x^{(l)};W^{(l)})=g\begin{pmatrix}\sum_{c=1}^{C}f_c(x^{(l)};w_{f_c}^{(l)});w_g^{(l)}\end{pmatrix}+f_0(x^{(l)};w_{f_o}^{(l)})$$

  其中$C$為金字塔的層數,$f_c(\cdot)$為對於c-th層金字塔的轉換,$W^{(l)}=\{w_{f_c}^{(l)},w_g^{(l)}\}_{c=0}^C$是引數集合。 通過轉換$f_c(\cdot)$的輸出將通過求和進行合併,並且通過卷積核為$g(\cdot)$的卷積。pyramid residual module圖解如下,為了減少計算以及空間的複雜度,每一個$f_c(\cdot)$被組織成bottleneck架構(有點像ResNet,例如通過$1 \times 1$卷積核降低空間維度,而後新的特徵通過將$3 \times 3$卷積核應用到一個下采樣的輸入特徵集合上,最後所有新的特徵上取樣到同一個維度而後合併)。

 

  通過比較,PRM-B的引數更少,需要更少的計算資源但是與其它結構有可比的效能。

2.3 - fractional max-pooling

  由於傳統的pooling操作對於畫素的減少太快以至於太過於粗糙,因此論文提出了一種新的fractional max-pooling方式,使得下采樣的尺度平滑,金字塔的c-th層的下采樣率定義為:

$$s_c=2^{-M\frac{c}{C}},\ c=0,...,C,M\geq 1$$

  其中$s_c\in [2^{-M},1]$表示了與輸入特徵解析度的關係。在實驗中,作者的設定為$M=1$以及$C=4$,使得最低的層剛好是輸入解析度的一半。

2.4 - 評估策略

  通過高斯方法來表示關鍵點,對於每一個關鍵點需要一個評分地圖(score map)。例如,對於真實標籤落在$z_k=(x_k,y_k)$的第$k$個關鍵點,其評分地圖定義為:

$$S_k(p)\sim N(z_k,\Sigma )$$

  其中$p\in R^2$表示了座標,$\Sigma$是identity matrix $I$的經驗集合,每一個沙漏網路預測$K$個評分地圖,有$\hat{S}_k=\{\hat{S}_k\}_{k=1}^K$,損失函式定義如下:

$$L=\frac{1}{2}\sum_{n=1}^N\sum_{k=1}^{K}\begin{Vmatrix}S_k-\hat{S}_k\end{Vmatrix}^2$$

  最後預測時候通過如下公式得到精確關鍵點座標:

$$\hat{z}_k=arg\mathop{max}_p\hat{S}_k(p),k=1,...,K$$