1. 程式人生 > >Beyond Part Models: Person Retrieval with Refined Part Pooling (and A Strong Convolutional Baseline)

Beyond Part Models: Person Retrieval with Refined Part Pooling (and A Strong Convolutional Baseline)

一、介紹

提取part-level的特徵進行行人重識別提供了細粒度資訊,最近的研究表明對提升行人重識別準確度非常有效。其中提取part-level特徵發揮作用的關鍵是每個部分被準確的定位。現有一些利用外部提示的方法如姿態估計等等來定位每個部分,作者提出了一種根據每部分內容上的一致性進行定位的方法。

具體地說,作者目標是學習判別能力強地part-informed features來進行行人重識別,主要做了以下貢獻:

  1. 提出了一個叫做Part-based Convolutional Baseline(PCB)的網路。輸入一張圖片,能夠輸出若干個part-level features。通過一個平均分片策略,PCB達到了state of the art。
  2. 提出了一個“部分精煉池化”策略(refined part pooling (RPP))。考慮到均勻分片不可避免地會導致每片(part)中包含極端值,這些極端值實際上和其他片更相似。RPP重新分配這些極端值到它相似地片段,使得每片的內容一致性更好。實驗證明,PCB + RPP的效果很好。

二、作者的方法

PCB可以使用任何用於影象分類、沒有隱藏全連線層的分類網路作為基礎網路(backbone)。為了兼顧performance和網路簡潔性,作者使用了ResNet50網路。作者移除了ResNet50 global avg pool層及其以後的部分作為backbone網路。輸入一張384x128x3的圖片,經過backbone後得到三維張量T : 24x8xc 。將張量T從通道這一維度,看成24x8個列向量。將T從上往下分成p片(p=6),對每片內的列向量在空間上進行avg pool,得到p個c維度的列向量(用g_i表示)。然後通過1x1,kernls=256的卷積層降低g_i的維度,得到p個256維的列向量(用h_i表示)。訓練階段,每個h經過一個分類層產生分類結果,每個分類層的權重不同,各自用softmax loss優化。測試階段,p個g或者p個h連線在一起作為向量特徵,p個g連線略好於p個h,但是運算複雜度更高。

三、實施細節

四、實驗結果