1. 程式人生 > >part-aligned系列論文:1707.Deep Representation Learning with Part Loss for Person ReID 論文閱讀筆記

part-aligned系列論文:1707.Deep Representation Learning with Part Loss for Person ReID 論文閱讀筆記

Deep Representation Learning with Part Loss for Person ReID

本論文為了更好的提升reid模型在未見過的行人影象判別能力,正對現有大部分只有全域性特徵表達(轉化為分類,一般minimize the empirical classification risk即loss)且容易過擬合而不考慮parts 區域性特徵表達(the representation learning risk)的的方法做了改進,設計了Part Loss Networks (PL-Net),該網路通過引入part loss 影響全域性特徵的表達,使其更注意重點parts,同時對應的part network被無監督訓練可用於自動檢測人體部件(parts),進行parts的軟分類來產生具有更好的soft parts(而不是產生grid parts),最後,part loss增加了模型在unseen persons上的判別性。
作者在Market1501, CUHK03, VIPeR驗證了模型的優秀效能。

這篇論文和1711.Beyond Part Models- Person Retrieval with Refined Part Pooling聯絡較大,一塊學習比較好!

論文資訊
這裡寫圖片描述

這裡寫圖片描述

傳統的只考慮全域性特徵表達分類網路和考慮part loss的網路顯著性區域的視覺化:

這裡寫圖片描述

文中的Zero-shot learning :
Zero-shot learning 指的是我們之前沒有這個類別的訓練樣本。但是我們可以學習到一個對映X->Y。如果這個對映足夠好的話,我們就可以處理沒有看到的類了。 比如,我們在訓練時沒有看見過獅子的影象,但是我們可以用這個對映得到獅子的特徵。一個好的獅子特徵,可能就和貓,老虎等等比較接近,和汽車,飛機比較遠離。感性認識的話,雖然我們不知道這東西叫獅子,但是我們可以說出他和誰誰誰像。(生物學家第一次看到鴨嘴獸的感覺。)

Person ReID can be regarded as a challenging zero-shot learning problem, 即測試的probe ID不包括在訓練集中,because the training and test sets do not share any person in common. Therefore, person ReID requires discriminative representations to depict unseen person images.

當僅用全域性表達時,為了減少分類損失,網路趨向於聚焦主要身體,然而the other
body parts like head, lower-body, and foot are potential to be meaningful for depicting other unseen persons。所以忽視part 注意機制會增加特徵表達的風險對於未見資料的應用。

作者提出的part loss會自動生成K個parts對於一張影象,計算各自的行人分類loss,最小化各自的part loss來指導網路學習面向不同body parts的判別性特徵表達。

PL-Net 結構:
這裡寫圖片描述

part loss networks is composed of a baseline network and an extension to compute the person part loss.同時須訓練兩個loss,PL-Net只比baseline多了一個引數,因為是無監督訓練,即(分K個parts的K值)
part loss networks (PL-Net) automatically detects human parts and does not need extra annotation or detectors, thus is more efficient and easier to implement.

Part Loss Networks和Person Part Loss Computation
作者採用的baseline network is modified from second version of GoogLeNet,並應用了Faster R-CNN的ROI pooling來統一轉化響應圖的bbox到同一size的空間特徵圖

基框架average pooling all feature maps產生的CNN 不同part響應:
Although the responses on different parts are seriously imbalanced, they still provide cues of different part locations.
這裡寫圖片描述

無監督訓練過程:

這裡寫圖片描述

During this procedure, the part generation and representation learning can be jointly optimized.

這裡寫圖片描述

For the case with K=4, the generated four parts coarsely cover the head, upper body, lower body, and legs, respectively. For the case that K=8, most of generated parts
distribute on the human and cover more detailed parts.無特殊說明,作者一般設定K=8.

實驗
Accuracy of Part Generation Generated parts是part loss監督和無監督訓練得到的part(基於注意力機制),而Grid Parts則是嚴格的手工條紋等間隔parts分割,如圖所示:
這裡寫圖片描述

這裡寫圖片描述

Validity of Part Loss
這裡寫圖片描述

這裡寫圖片描述

Performance of Global Representation
這裡寫圖片描述

Performance of Final Representation
這裡寫圖片描述

Comparison with State-of-the-art
這裡寫圖片描述
這裡寫圖片描述

總結:
From the above comparisons, we summarize : 1) part loss improves the baseline network and results in more discriminative global and part representations, and 2) the combined final representation is learned only with person ID annotations but outperforms most of existing works on the three datasets.

Conclusions
這裡寫圖片描述