1. 程式人生 > >Stacked Hourglass Networks for Human Pose Estimation

Stacked Hourglass Networks for Human Pose Estimation

介紹

這是一篇2016年做單人姿態估計的文章

實驗用的是MPII sigle 和 FLIC ,指標PCKh

通過堆疊沙漏結構的網路進行人體姿態估計

沙漏結構指通過pooling得到低解析度的特徵,然後通過上取樣得到高解析度特徵的網路結構

論文指出該網路可以捕獲並控制影象所有尺度上的資訊。

另一方面,沙漏網路區別於先前的設計,主要在其更對稱的拓撲結構。

通過連續堆放這樣的沙漏網路,可以實現重複的bottom-up,top-down的推理

論文所提結構成功的原因有兩點:

  1. 上述的重複雙向推理
  2. 訓練過程中使用了中間監督

這個單沙漏網路的特點在於在推導heatmap時,既使用到高層的語義,也結合了底層的紋理資訊,這樣使得定位更加準確

然後通過多個沙漏網路堆疊方式,讓後面的網路學習前面網路學習不到的東西,即更難的骨骼關鍵點檢測,finetune再finetune,取得更好的結果下面左邊的圖展示了,第二層hourglass輸出和最後一層(第八層)的結果對比,從例子看明顯第八層的finetune後結果比第二層要好不少

上面右邊的圖是為了說明效能提升究竟是加深網路導致的,還是本文所提的堆疊多個finetune沙漏結構所取得的

中間的圖是PCKh結果,上面的點是各網路各子沙漏的結果,同意網路,越往後的層效果越好,網路深度相同的情況下,分越多的子沙漏會比分的少網路,最終輸出的結果會高那麼一點點

感覺這裡缺了一個單層的結果,即沒有finetune時的效果,當然也可以把總網路的一半當作是單層效果,分別看分兩層和4層的效果如何(0.846,0.865,0.871)