1. 程式人生 > >Person Re-identification 系列論文筆記(八):SPReID

Person Re-identification 系列論文筆記(八):SPReID

最終 數據集 pipeline 論文筆記 cat cati 對齊 技術分享 通道

Human Semantic Parsing for Person Re-identification

Kalayeh M M, Basaran E, Gokmen M, et al. Human Semantic Parsing for Person Re-identification[J]. 2018.

  這篇是截止發文時在Market-1501上性能最高的論文。主要思想可以歸結到軟劃分的範疇,

借助精確分割的信息去提取部件特征,再輔以其他tricks(大規模的backbone,較大的網絡輸入分辨率,合並多個公開數據集做fine-tune等) 。

  性能是最高的,但拋開backbone參數規模和輸入圖像分辨率的計算量,只談性能,是CV界的耍流氓。所以大家還是客觀看待這個最高的性能,更多的關註可借鑒的創新點。

contributions

  為了解決行人重識別裏的姿態、對齊、角度等問題,引入人體語義分割去精確提取local feature,即SPReID。

pipeline

  輸入目標圖,傳統的過程是經過backbone,提取GAP後的特征進行檢索,如圖中中間分支。

SPReID,是上分支和下分支的結合。上分支最終提取較大的特征圖,下分支是人體語義分割網絡,

提取5個語義信息的特征概率圖(前景,頭,上肢,下肢,鞋子)。將上分支的全部特征和下分支的概率圖進行加權求和

(2048個通道和1個通道特征概率圖的prod)。考慮到特征維度爆炸(2048*5),將頭、上肢、下肢和鞋的特征進行max

操作,然後和前景特征concact,作為網絡最終的輸出。

  註意下SPReID,不是一個end-to-end的網絡,上下分支單獨訓練,後續改進是可以做成end-to-end的。

還有最後的部件特征max操作有些粗暴,可以在2048維特征上做降維操作,然後將各部件concact一起。

技術分享圖片

experiments

分辨率和backbone實驗結果

技術分享圖片技術分享圖片

最終的性能比較

技術分享圖片

Person Re-identification 系列論文筆記(八):SPReID