1. 程式人生 > >論文閱讀 Multi-Scale Structure-Aware Network for Human Pose Estimation

論文閱讀 Multi-Scale Structure-Aware Network for Human Pose Estimation

1、
文章在hourglass的網路基礎上做了四點改進
1)多尺度監督來加強語義特徵學習來融合多尺度的特徵
2)多尺度的迴歸網路來優化整體的人體結構
3)structure-aware損失(在多尺度監督和迴歸中都有用到)來提升關鍵點的匹配度和鄰近關鍵點的關係從而推測一個高階的配置(就是刻畫臨近關鍵點的關係)
4)keypoint masking作為資料擴增的方式

2、傳統網路的缺陷
1)大部分方法在某一個尺度上過度擬合,使得某一個尺度的結果佔據主導的地位,引起了尺度的不穩定,通常的方法是不斷的前傳各個尺度的圖片進行測試,選取分數最高的結果。
2)沒有足夠的結構先驗,所以文章中的structure-aware,迴歸網路和keypoint masking的樣本擴充都能夠對結構先驗有益處。

3、
1) MSS-net
初衷:設計MSS-net初衷是解決尺度間的不連續
MSS-net是一個多尺度監督的網路,就是在原來的hourglass網路的deconv層的不同的解析度的輸出設定不同解析度的監督,1/2,1/4,1/8的尺度下各進行監督,因為這些尺度下的輸出的channel數量不是等於關鍵點的數量,所以需要通過1x1的卷積將map的通道數量變為關鍵點的個數,例如coco是17。對於各級監督來講的話,將標籤按照1/2,1/4,1/8進行下采樣即可獲得,這樣的多尺度的監督網路類似於用在傳統的解析度金字塔中的attention模型。低解析度的監督對高解析度的監督有著引導作用。
網路結構

2)MSR-net
初衷:對多尺度的heatmap圖做一個refine的調整來提升人體的各個關節的全域性一致性
MSR-net以上一層的輸出作為自己的輸入。多尺度的迴歸網路學習到了尺度不變性和基於attention機制的模型,所以會有更好的表現效能。具體作用可以參考下圖
這裡寫圖片描述

3)structure-aware的損失
普通的損失計算僅僅會計算每個關鍵點的損失,然後把損失加在一起,但是structure-aware的損失不僅僅會加起來各個關鍵點的損失,還會把胳膊肘對應的關鍵點(肘+腕=2個,肘+肩=2個,肩+肘+腕=3個)這樣集體性的損失加在一起,形成最後的損失,作者認為這樣可以構建出他們需要的high-order associations,具體的損失計算考慮哪些關係可以參考下圖
這裡寫圖片描述
structure-aware損失在MSS-net和MSR-net中都有用到

4)Keypoint Masking Training
簡單來說就是資料中遮擋等困難情況太少,作者做了個數據擴充,人為建立遮擋和以及人為構建歧義部點陣圖像
這裡寫圖片描述