1. 程式人生 > >【Person Re-ID】Margin Sample Mining Loss: A Deep Learning Based Method for Person Re-identification

【Person Re-ID】Margin Sample Mining Loss: A Deep Learning Based Method for Person Re-identification

Introduction

Person Re-ID目前依然是一項十分具有挑戰的任務。姿勢,視角,光照,背景和遮擋都給這項任務帶來困難。

傳統的方法通過學習low-level特徵,比如顏色、外形、區域性描述子等來描述一個人。而CNN通過學習high-level特徵能夠提升效能。目前的監督性學習方法能夠分為兩類,一類是表示學習,一類是度量學習。

  • 表示學習:把ReID看為分類與識別任務。直接受益於常用的分類方法,比如softmax,因此很容易訓練出來,效能也還不錯。但是這類方法主要關心的是類與類之間的不相似性,忽略了pair之間的相似性,導致很難將同一個人的pairs和不同人的pairs區分開。
  • 度量學習:直接評估兩張影象embedding features的相似性。比如contrastive loss,triplet loss,improved triplet loss, quadruplet loss。儘管這些度量距離的loss對image pairs很敏感,也很難訓練,但是效能卻比表示學習要好。

本文中,作者提出了一種新的度量學習方法,稱之為margin smaple mining loss(MSML)。在一個batch中,隨機選取P個人的K張影象,總共N=P*K張,計算特徵空間的N*N距離矩陣,選擇距離最大的positive pairs和距離最小的negative pairs來計算最終的loss。

Method

Triplet loss

老生常談的話題,直接上公式。

公式第一項表示要使得同類之間pairs越來越近,第二項表示不同類之間的pairs越來越遠。這兩項共用同一張positive image,即anchor,因此triplet loss更加關注同類image(same probe image)。

Quadruplet loss

quadruplet loss是triplet loss的擴充套件,包含4個元組(影象)。上式中第一項與triplet loss一樣關注同類影象,第二項則關注不同類影象。有了第二項的限制,內間距離應該比內類距離大。將fC設為與f

A相等或不等,作者將上式擴充套件為下式。

Margin sample mining loss

直接用上式訓練是沒法獲得比較好的效能的,因為隨著資料集的增大,quadruplets的數量也會猛增,而絕大多數的quadruplets是很easy的,特別是上式中的第二項,導致“寶貴的”hard samples沒有被選上,從而效能大打折扣。作者用對triplet loss的改進方法(參考我的上一篇部落格In Defense of the Triplet Loss for Person Re-Identification)來改進quadruplet loss。

改進的目的就是hard-mining,上式第一項是選擇距離最大的同類image,即hard positive pair,第二項是選擇距離最小的不同類image,即hard negative pair。在一個batch中,只需要考慮最難的positive pair和最難的negative pair,因此它的連線是十分稀疏的。

特點:

  • 不僅考慮了三元組中的相對距離,也考慮了四元組中的絕對距離。
  • hard-mining的優勢使得效能突出。

Experiments

作者做了兩組實驗,一組是比較不同的網路在ReID任務上的效能;一組是評估不同loss的效能。

  • mAP和rank-1,Triplet loss(Tri)比分類loss(Cls)提升了將近10%。
  • TriHard (triplet loss with hard sample mining) and Quad (quadruplet loss)比triplet loss效能好。
  • MSML在大多數資料集上獲得了最好的表現。

看法與評價:

  • 在resnet-50上,我只用market-1501資料集訓的結果比作者用了4個數據集訓的結果還要好。
  • 訓練的trick較多且耗時。
  • triplet loss中為了快速訓練,考慮一個batch中所有的最難的難例是幾乎訓不出來的,一般是考慮semi-hard。
  • TriHard和MSML中只選擇最難的positive pair和negative pair保證了稀疏性,效能有所提升,但epoch會大大增加。