1. 程式人生 > >【Person Re-ID】GLAD: Global-Local-Alignment Descriptor for Pedestrian Retrieval

【Person Re-ID】GLAD: Global-Local-Alignment Descriptor for Pedestrian Retrieval

paper下載地址:https://arxiv.org/abs/1709.04329

 

 

 

Introduction

 

Person Re-ID任務是為了從gallery集中找到與query集中同一個人的影象。應用場景主要集中在視訊監控、公共安全等領域,因此一個人的外表可能被攝像頭的視角,人體姿態,模糊,遮擋等因素所影響,給此項任務帶來挑戰。大多數Re-ID工作都可以分為兩步,即描述子學習和距離度量學習。

 

描述子學習:通過學習具有判別性的描述子來表徵不同人的外表。

 距離度量學習:使得屬於同一個人的影象的描述子之間的距離更近。

 

傳統的描述子學習方法通常提取剛性的區域性不變特徵,因此人體姿態的改變,攝像頭視角的改變都能影響其效能,導致不能很好的識別一個人。而大多數基於CNN的方法通過學習全域性特徵取得了明顯的改善,而最近工作將行人影象分成固定長度的塊,通過學習更加精細的區域性特徵,這些方法要比全域性描述子效能更加優秀。然而固定長度的塊對人體姿態的變化非常敏感,為了解決這個問題,文章提出了Global-Local-Alignment Descriptor (GLAD)。

 

Approach

 

GLAD包含兩個模組:

 

 

部件提取:通過Deeper Cut演算法估計人體的4個關鍵點,提取人體的頭部、上半身體、下半身體。

描述子學習:由四個子網路組成一個CNN,並共享卷積層,分別學習三個部件資訊和全域性資訊。

 

 

在training階段,通過multi-task學習不同身體部件。在inference階段,分別將全域性影象和三個部件影象送到網路中得到四個描述子,然後concat起來得到GLAD。

 

整個過程主要分為兩步,首先估計輸入影象的各個部件,然後從全域性影象和部件影象中學習描述子。

https://csdnimg.cn/release/phoenix/outside_default.png

 

 

Part Extraction

 

採用Deeper Cut演算法估計行人的4個關鍵點(upper-head, neck, right-hip, left-hip),依據這4個關鍵點將輸入影象分成3個部件(head, upper-body, and lower-body)。

 

https://csdnimg.cn/release/phoenix/outside_default.png

 

由於下半身體的估計不是很準,加上資料集中部分資料的下半身體不可見,因此作者直接將影象的下邊緣作為下半身體的邊界。

 

Descriptor Learning

 

整個CNN網路包含一個學習全域性資訊的子網路和三個學習區域性資訊的子網路。這些子網路採用同樣的網路結構並且共享卷積層。作者採用Google-Net,將最後的全連線層替換為兩個卷積層作為分類器(常用技倆),第一個卷計層作為feature map用來提特徵,第二個卷積層作為confidence map,在這層之後加上global pooling層用作softmax分類。替換掉全連線層的好處:

 

 

引數量變少,舉個例子,假如全連線層之前的卷積層輸出為2048*7*7(Resnet-50),總共有1000類的話,則全連線層的引數量為1000*2048*7*7,是非常巨大的。換成3*3的卷積層之後,引數量變為1000*2048*3*3,是原來的3*3/(7*7)=9/49。

全連線層對輸入影象的尺寸沒有限制。

 

 

在測試階段,用新加的feature map作為描述子,假設這層有M個通道,加上global pooling後,輸出為M維的特徵。全域性影象加上區域性影象總共得到4*M維的特徵向量。

 

通過這種比較粗糙的部件檢測方式,GLAD取得了部件檢測的準確性與魯棒性之間的平衡。

 

 

 

Experiment

 

https://csdnimg.cn/release/phoenix/outside_default.png

 

其中WO/S表示訓練時沒有共享引數,W/S表示訓練時是共享引數的,“Global”表示提取全域性影象特徵,”Head+Upper+Lower body(W)” 表示對3個部件描述子加上權重之後的描述子。

 

 

共享引數訓練的模型比沒有共享引數訓練的模型效能要好。

全域性影象訓練模型比區域性影象訓練的模型效能要好。原因可能是全域性影象包含更多的視覺資訊,因此能帶來更好的判別性。而頭部的判別性較差,導致的結果是加入頭部(“Head+Upper+Lower body“)訓練的模型效能反倒比沒加頭部(“Upper+Lower body”)訓練的模型要差。

對各個部件加上權重之後的效能是最好的,說明頭部的判別性對Re-ID任務還是有幫助的。

 

 

點評:本文是最近看的文章中做法比較流暢的,而且所有的訓練只是在某一特定的資料集上進行,並沒有合併所有的資料集,能取得這樣的精度是值得稱讚的。