1. 程式人生 > >Person Re-identification:SPReID

Person Re-identification:SPReID

Human Semantic Parsing for Person Re-identification

Kalayeh M M, Basaran E, Gokmen M, et al. Human Semantic Parsing for Person Re-identification[J]. 2018.

  這篇是截止發文時在Market-1501上效能最高的論文。主要思想可以歸結到軟劃分的範疇,

藉助精確分割的資訊去提取部件特徵,再輔以其他tricks(大規模的backbone,較大的網路輸入解析度,合併多個公開資料集做fine-tune等) 。

  效能是最高的,但拋開backbone引數規模和輸入影象解析度的計算量,只談效能,是CV界的耍流氓。所以大家還是客觀看待這個最高的效能,更多的關注可借鑑的創新點。

contributions

  為了解決行人重識別裡的姿態、對齊、角度等問題,引入人體語義分割去精確提取local feature,即SPReID。

 

pipeline

  輸入目標圖,傳統的過程是經過backbone,提取GAP後的特徵進行檢索,如圖中中間分支。

SPReID,是上分支和下分支的結合。上分支最終提取較大的特徵圖,下分支是人體語義分割網路,

提取5個語義資訊的特徵概率圖(前景,頭,上肢,下肢,鞋子)。將上分支的全部特徵和下分支的概率圖進行加權求和

(2048個通道和1個通道特徵概率圖的prod)。考慮到特徵維度爆炸(2048*5),將頭、上肢、下肢和鞋的特徵進行max

操作,然後和前景特徵concact,作為網路最終的輸出。

  注意下SPReID,不是一個end-to-end的網路,上下分支單獨訓練,後續改進是可以做成end-to-end的。

還有最後的部件特徵max操作有些粗暴,可以在2048維特徵上做降維操作,然後將各部件concact一起。

experiments

解析度和backbone實驗結果

最終的效能比較