1. 程式人生 > >[論文閱讀] Person Re-identification: Past, Present and Future

[論文閱讀] Person Re-identification: Past, Present and Future

廣泛 proto ssm 矩陣 obi 添加 的區別 多級 prot

這是一篇行人重識別的綜述文章,作為我該方向入門的基礎讀物


Title: Person Re-identification: Past, Present and Future [PDF]

Authors: Liang Zheng, Yi Yang, Alexander G. Hauptmann

Affiliation: the Centre for Quantum Computation and Intelligent Systems, University of Technology at Sydney, NSW, Australia.

Date: Oct 2016


摘要

過去的行人重識別算法主要是手工設計特征+小規模的評價,現今是大規模數據+深度學習。這篇文章將行人重識別分成了基於圖像和基於視頻兩類,每類分別按照手工設計(hand-craft)和深度學習方法進行介紹。除此之外還將介紹兩個與現實更緊密的任務:端到端的重識別和大的gallery下的快速重識別。論文的安排:1)介紹行人重識別的歷史,以及其與分類和檢索的關系;2)廣泛調查關於人工設計和大規模數據集的方法,包括基於圖像和基於視頻的重識別;3)介紹了關鍵的未來方向,包括端到端和大規模gallery下的快速檢索;4)簡要總結一些重要但尚未發展的問題。


1. 介紹

定義: “In video surveillance, when being presented with a person-of-interest (query), person re-ID tells whether this person has been observed in another place (time) by another camera.”

技術上講,一個可用的行人重識別系統分為三個部分:person detection, person tracking, and person retrieval. 前兩個又被看作是單獨的計算機視覺任務,所以一般把行人重識別問題看作是person retrieval模塊。這篇文章如果不額外說明也是這樣。

1.2 行人重識別的簡短歷史回顧

行人重識別起源於多攝像頭追蹤問題。這篇文章(15年)之前的裏程碑式的成果如下圖:

技術分享圖片

  多攝像頭追蹤(1997)。最開始行人重識別是和多攝像頭追蹤一並處理的。

針對專門的“行人重識別”的多攝像頭追蹤(2005)

基於圖像(實際上是視頻幀)的、作為獨立任務的行人重識別(2006)

基於視頻的行人重識別(2010)

基於深度學習的行人重識別(2014,兩篇文章)(兩篇都用Siamese network)

端到端的基於圖像的行人重識別(2014)

1.3 行人重識別和分類、檢索的關系

技術分享圖片


2. 基於圖像的行人重識別

  行人重識別問題多數被視為單張圖像的檢索問題。定義 技術分享圖片是包含了N章圖像的gallery (database),表示為 。這些圖像屬於N個不同的identities(每個identity僅有一張圖像?)。給定一張查詢(query)圖像 ,則:

技術分享圖片

其中,技術分享圖片是q的identity, 技術分享圖片表示相似性。

2.1 人工設計的系統

很明顯上述公式有兩個不可缺少的部分,即圖像描述(image description)和距離度量(distance metrics)。

2.1.1 行人描述(翻譯為主

在行人描述中,最常用的特征是顏色,而紋理特征則沒那麽常見。在[13]中,行人前景從背景中分割出來,並為每個身體部位計算出對稱軸。根據人體結構,計算出加權顏色直方圖(WH)、最大穩定顏色區域(MSCR)和反復出現的高結構圖像塊(the recurrent high-structured patches,RHSP)。WH為對稱軸附近的像素指定較大的權重,並在每個部分生成顏色直方圖。MSCR檢測穩定的顏色區域並提取顏色、區域和形心等特征。RHSP則是一種紋理特征,它捕獲反復出現的紋理圖斑。Gheissari等人[11]提出了一種檢測穩定前景區域的時空分割方法。對於局部區域,計算HS直方圖和邊緣直方圖。後者編碼主要的局部邊界方向和邊緣兩側的RGB比率。Gray和Tao[24]在亮度通道上使用8個顏色通道(RGB、HS和YCBCR)和21個紋理過濾器,並將行人劃分為水平條紋。許多後來的文章[25]、[26]、[27]使用了與[24]相同的特征集。類似地,Mignon等人[28]根據RGB、YUV和HSV通道以及水平條紋中的LBP紋理柱狀圖構建特征向量。

與上面描述的早期工作相比,人工設計的特征在近幾年的文章中或多或少類似[20]、[29]、[30]、[31]、[32]。在趙等人的一系列工作中 ([30]、[33]、[34]),從每個10×10圖像塊樣本中提取出32維LAB顏色直方圖和128維SIFT描述向量,每個樣本的步長為5個像素;該特征也用在[35]中。對於一張查詢圖像(query),采用鄰接約束搜索的方法來搜索gallery圖像中緯度相近的水平條帶。DAS等[36]根據[12]中提出的輪廓,在頭部、軀幹和腿部應用HSV柱狀圖。李等 [31]還從圖像塊中提取局部顏色描述符,但使用高斯變化?[37]對其進行聚合以捕獲空間信息,後續工作有[38]。Pedagadi等人[39]在使用PCA進行降維之前從hsv和yuv空間中提取了顏色直方圖和圖像力矩(moment)。劉等人 [40]提取每個局部圖塊的hsv柱狀圖、梯度柱狀圖和lbp柱狀圖。為了提高RGB值對光度變化的魯棒性,Yang等人[41]yinru用於全局行人顏色描述的基於突出顏色名稱的顏色描述符(the salient color names based color descriptor , SCNCD),還分析了背景和不同顏色空間的影響。在[20]中,Liao等人提出了局部最大發生率(LOMO)描述符,包括顏色和SILTP直方圖。在同一水平條中的bins經過最大池化,並且在對數變換之前建立三尺度金字塔模型。LOMO後來被[42 ],[43 ]所采用,陳等人〔32〕使用了類似的特征集。在[44]中,Zheng等人提出了提取每個局部圖塊的11維顏色名稱描述符[45]並通過詞袋庫(bow)模型將其聚合成全局向量的方法。在[46]中提出了一種層次高斯特征來描述顏色和紋理線索,該特征通過多個高斯分布對每個區域進行建模。每個分布表示區域內的一個圖像塊。

除了直接使用low-level的顏色和紋理特征之外,另一個不錯的選擇是基於屬性的特征,可以將其視為low-level的表達。與低層描述符相比,屬性對圖像翻譯更加魯棒。在[47]中,Layne等人在Viper數據集上註釋15個與服裝和soft biometrics特征相關的二進制屬性。low-level的顏色和紋理特征用於訓練屬性分類器。屬性加權後,生成的向量被集成到SDALF [13]框架中,與其他視覺特征融合。Liu等人[48]改進潛在的Dirichlet分配(LDA)模型,使用帶註釋的屬性過濾掉帶噪聲的LDA topics。Liu等人 [49]提出無監督地發現一些具有共同屬性的行人prototypes,並根據prototypes自適應地確定不同查詢人的特征權重。最近的一些作品借用外部數據進行屬性學習。在[50]中,Su等人將同一人不同攝像機的二元語義屬性嵌入到連續的低階屬性空間中,使得屬性向量對匹配的識別性更強。Shi等 [51]建議從現有的樣式攝影術數據集中(fashion photography datasets)學習一些屬性,包括顏色、紋理和類別標簽。這些屬性在監視視頻中直接用於行人重識別,並獲得不錯的結果。最近,Li等人[52]收集了一個具有豐富註釋的行人屬性大規模數據集,以便於屬性化的Re-ID方法。

2.1.2 距離度量學習(Distance Metric Learning)

  手工設計的行人重識別系統裏,距離度量是成功的關鍵,因為高維視覺特征通常不捕獲樣本方差下的不變因素。文獻[53]對距離尺度學習有詳細的介紹,這些尺度學習方法可以分類成監督學習對比非監督學習、全局學習對比局部學習等等。通常情況下,行人重識別問題大部分的工作落在監督、全局的距離度量學習範圍內。

  全局度量學習的基本思想是將同一類的向量更靠使不同類的距離變大。最常用的是馬氏距離(Mahalanobis distance functions):

技術分享圖片

其中, M是半正定矩陣(半正定矩陣是正定矩陣的推廣。實對稱矩陣A稱為半正定的,如果二次型X‘AX半正定,即對於任意不為0的實列向量X,都有X‘AX≥0.)。

  在行人重識別問題中,目前最流行的度量學習方法,即KISSME[55]就是基於上式。在該方法[55]中,對 是否相似的決定被表述為似然比檢驗(likelihood ratio test)。向量對的差異為技術分享圖片並且差值空間被假設成服從0均值的高斯分布。[55]表明,Mahalanobis距離度量可以從對數似然比檢驗中自然推導出來,在實踐中,將主成分分析(PCA)應用於數據點,以消除尺寸相關性。

  並且差值空間被假設成服從0均值的高斯分布。[55]表明,Mahalanobis距離度量可以從對數似然比檢驗中自然推導出來,在實踐中,將主成分分析(PCA)應用於數據點,以消除尺寸相關性。

  近年來,Hirzer等人[58]建議放寬正性約束,該約束為矩陣m提供了足夠的近似值,計算成本更低。chen等人 [38]在馬哈拉諾比距離之外添加一個雙線性相似性,這樣就可以對跨圖塊相似性(cross-patch similarities)進行建模。在[31 ]中,全局距離度量與局部自適應閾值規則相耦合,該局部自適應閾值規則另外包含 的正交信息。在[59]中,Liao等人建議用一個正半定約束進行保持,並建議對正樣本和負樣本進行不同的加權。Yang等人 [60]同時考慮圖像對之間的差異性和共性,表明不同對的協方差矩陣可以從相似對的協方差矩陣中推斷出來,這使得學習過程可擴展到大型數據集。

  除了學習距離度量之外,一些工作還關註學習判別子空間(discriminative subspaces)。Liao等[20]提出學習投影到低維子空間的映射w,並以類似於線性判別分析(LDA)的方式解決交叉視圖數據,

技術分享圖片

其中,sb和sw分別是類間散射矩陣和類內散射矩陣。然後,使用KISSME在生成的子空間中學習距離函數。為了學習W,Zhang等人[42]進一步使用空Foley-Sammon轉換來學習一個判別性的空空間,它滿足類內零散射和類間正散射。對於降維,Pedagadi等人[39]依次結合無監督PCA(主成分分析)和監督的局部Fisher判別分析,保留了局部鄰域結構。在[28]中,提出了成對約束分量分析(PCCA),它學習線性映射函數,以便能夠直接處理高維數據,而ITML和KISSME應先進行降維。在[62]中,熊等人進一步提出了現有兩種子空間投影方法的改進版本,即正則化PCCA[28]和內核LFDA[39]。

  除了使用馬哈拉諾比距離(公式2)的方法外,一些方法還使用其他學習工具,如支持向量機(SVM)或boosting。Prosser等人[25]建議學習一組弱Ranksvms,然後將其組裝成更強的Ranker。在[63]中,采用結構支持向量機在決策層組合不同的顏色描述符。在[43]中,張等人學習每個訓練標識的特定SVM,並將每個測試圖像映射到從其視覺特征推斷出的權重向量。Gray和Tao[24]提出使用Adabost算法來選擇並將許多不同類型的簡單特征組合成一個單一的相似函數。

2.2 基於圖像的深度學習系統

  基於CNN的深度與學習模型用於行人重識別的開篇之作是[15],[16]。一般來說,在這個community裏兩類CNN模型最常用:一類是用於圖像分類和圖像檢測的分類模型;另一類是使用圖像對(image pairs)[65]或三張圖像(triplet)[66]作為輸入的siamese模型。深度學習方法的主要瓶頸在於缺乏訓練數據。大多數的re-ID數據集都是每個indentity只有2張圖像,比如VIPeR[24],因此當前的CNN方法都集中在siamese模型。[15]將輸入圖像劃分成三張帶有重疊區的水平子圖像,後者經過兩個卷積層和一個融合它們的全連接層,然後輸出輸入圖像的一個特征矢量。兩個特征矢量之間的相似性用余弦距離計算。[16]的結構設計有所不同,其增加了一個塊匹配層(patch matching layer),它通過對兩張圖像不同水平條帶卷積響應進行相乘得到,本質上類似於ACS[30]。隨後,Ahmed等人[69]通過計算交叉輸入鄰域差分特征(cross-input neighborhood difference features)改進了siamese模型,他們將一個輸入圖像的特征與另一個圖像相鄰位置的特征進行了比較。[16]用同緯度(水平高度)的子圖像的乘積來計算相似性,Ahmed等人[69]則使用差來計算。Wu等人[70]使用小尺寸的卷積核來加深網絡,稱之為”PersonNet”。 Varior等人[71]將LSTM融進了siamese模型中,使得圖像塊能被序列化處理從而空間連接可以被記憶,提升了深度特征的判別能力。Varior等人在[72]中提出當一對測試圖像被送入網絡後,在每一個卷積層之後插入門函數(gating function)來捕捉有效地、細微的模式。該方法在多個benchmarks上都達到了state-of-the-art accuracy,但是缺點也很明顯,即輸入網絡前必須在gallery上先配對圖像,在大數據集上顯然是time inefficient。同[72]類似,Liu等人在[73]中合並了一個soft attention based model和siamese模型,使得網絡能夠自適應地註意輸入圖像對的重要的局部區域。然而這種方法依然受限於計算效率。上述文獻都使用圖像對,Cheng等人在[74]中設計了一個可以輸入三張圖像的triplet loss:經過第一卷積層之後,對每個圖像分割四個重疊的主體部分,並在fc層中與全局部分融合。Su等人在[75]中提出了三階段的學習過程,包括使用一個獨立的數據集來進行屬性預測和在帶ID標簽的訓練集上進行屬性triplet loss的訓練。

  siamese模型的一個缺點是它沒有充分利用re-ID標註。siamese模型只需要考慮成對的或者三個的圖像。判斷一個圖像對是否相似(即是否屬於同一個indentity)在reID問題中是弱標簽(weak label)。另一種可能有效的策略包括使用分類/鑒別(classification/identification)方式,因為其充分利用了re-ID標簽。[76]將多個數據集的identities集合起來共同構成訓練集,並且softmax loss被用在分類網絡上。結合每個全連接層神經元的impact score和基於impact score的域引導(domain guided)的dropout,學習到的通用的embeddings產生了具有競爭力的Re-ID accuracy。在大數據集如PRW[77]和MARS[21]上,不用仔細挑選樣本,分類模型實現了不錯的表現。然而,identification loss的收斂需要每個ID對應更多的訓練用例。改論文提供了一些典型方法在Market-1501[44]數據集上驗證(Verification)與確認(Validation)效果的baselines。驗證(Verification)是一對一,確認(Validation)一對多。所有的網絡都用默認參數,並且在ImageNet數據集上預訓練。圖像都被縮放到224*224,。學習率初始值是0.001,每個epoch乘以0.1。共36個epoch。可以看到identification模型比Verification模型要表現更優,並且residual-50模型達到了最近幾篇文章的同等水平[71],[72],[75]。

技術分享圖片

  上述方法都是用端到端的方式學習深度特征(輸入圖像),也有其他方法利用low-level的特征作為輸入。[79]將low-level的描述符,包括SIFT和顏色直方圖,聚合成一個單獨的Fisher向量[80]用於每張圖像。混合網絡在輸入的Fisher向量上建立全連接層,並以線性判別分析(LDA)為目標函數,生成具有低類內方差和高類間方差的嵌入(embeddings)。Wu等人[81]提出將fc特征和一個low-level特征向量用concatenate方式合並起來,然後在SoftMax損失層之前再連接另一個fc層。此方法使用手工設計的特征來約束FC特征。

2.3 數據集與評價

2.3.1 數據集

文章發表的較早,此處略過。行人重識別的匯總網站:https://github.com/NEU-Gou/awesome-reid-dataset

2.3.2 評價指標

  在評估重識別算法時,通常使用累積匹配特性(Cumulative Matching Characteristics, CMC)曲線。CMC表示查詢identity出現在不同大小的候選列表中的概率。無論gallery中有多少個ground truth匹配,CMC計算中只計算第一個匹配。因此,基本上只有當每個query只存在一個ground truth時,CMC才是準確的評估方法。在實踐中,當人們更關心返回排名第一的ground truth匹配時,這種度量是可以接受的。

技術分享圖片

  然而為了研究的完整性,當gallery中存在多個ground truth時,Zheng等人[44]建議使用平均精度(mAP)進行評估。其動機是一個完美的重識別系統應該能夠將所有的真匹配項返回給用戶。可能的情況是兩個系統在發現第一個ground truth方面有同樣的能力,但具有不同的檢索召回能力。在這種情況下,CMC沒有足夠的識別能力,但MAP有足夠的識別能力。因此,MAP與CMC一起用於Market-1501數據集,其中每個查詢都存在來自多個攝像頭的多個ground truth。隨後mAP也被後續文章采用。

技術分享圖片

2.3.3 歷年重識別精度

由於文章發表時間較早,該部分略過。

額外參考:

1. https://bbs.csdn.net/topics/392326863


3. 基於視頻的行人重識別

文獻中的行人重識別問題一般是單一圖像(single shot)進行探索,但近年來,由於數據豐富性的提高,基於視頻的RE-ID已經成為一種流行的研究方法。基於視頻的re-id問題,與公式1有類似的公式,不同的是圖像q和g被兩組邊界框技術分享圖片取代,其中 技術分享圖片技術分享圖片是每個視頻序列中各自邊界框的數量。邊界框特征一樣重要,基於視頻的方法也特別關註多鏡頭匹配方案和時間信息的集成。

3.1 人工設計的系統

  最初的嘗試是2010年的兩次試驗[12]、[13],二者都是手工制作的系統。他們基本上使用基於顏色的描述符,還可以選擇使用前景分割來檢測行人。它們使用與基於圖像的重識別方法相似的圖像特征,其中主要區別在於匹配函數。如第1.2節所述,兩種方法通常將兩組邊界框特征之間的最小歐幾裏得距離計算為集合相似性。從本質上講,這種方法應該被劃分為“多鏡頭”的人識別,其中兩組幀之間的相似性起著至關重要的作用。這種多鏡頭匹配策略後來被 [97]、[98]采用。在[86]中,多鏡頭圖像的協方差特征被用來訓練判別boosting模型。在[99]中,surf本地特性用於檢測和描述短視頻序列中的興趣點,這些視頻序列又在kd樹中索引,以加快匹配速度。在[11]中,生成一個時空圖來識別用於前景分割的時空穩定區域。然後,隨著時間的推移,使用聚類方法計算局部描述,以提高匹配性能。Cong等[100]利用視頻序列中的多種幾何結構,構建具有基於顏色特征的更緊湊的空間描述符。Karaman等人[101]提議使用條件隨機場(CRF)將約束納入空間和時間域。在[102]中,顏色和選定的人臉圖像用於在幀上構建模型,捕獲特征外觀及其隨時間的變化。Karanam等 [103]使用一個人的多個鏡頭,並將probe feature表達為gallery中同一個人的線性組合。一個identy的多個鏡頭也可以用來增強身體部位的調整。在[85]中,為了尋找精確的part-to-part對應關系,Cheng等人提出了一種叠代算法,通過改進part檢測器,使圖像結構在每次叠代後的擬合更加精確。[104]估計了行人姿勢,具有相同姿勢的幀具有更高的匹配置信度。

  上述方法通常基於多個鏡頭構建外觀模型,最近的趨勢是在模型中加入時間線索。Wang等[105]提出使用時空描述符重識別行人,其特征包括Hog3D[106]和gait energy image(GEI)[107]。通過設計一個流動能量剖面(flow energy profile, FEP),可以檢測步行周期,從而利用局部最小/最大值周圍的幀來提取運動特征。最後,通過識別視頻排序模型,選擇和匹配可靠的時空特征。在[108]中,Liu等人建議將視頻序列分解成一系列表示身體動作的單元,這些動作對應於特定action primitives,從中提取Fisher向量,以最終表示人。高等。[109]利用行人的周期性特征,將步行周期劃分為若幹段,這些段由temporally aligned pooling描述。在[110]中,提出了一種新的時空描述方法,該方法基於密集計算的多向梯度和丟棄短時間內發生的噪聲運動(?不知道怎麽翻)。

  在匹配視頻時,距離度量學習也很重要。[111]提出了一種集驗證方法,使用transfer ranking來判斷query是否匹配屬於同一identity的多張圖像中的其中一張。在[89]中,提出的局部匹配模型的多鏡頭擴展使最佳匹配對的距離最小化,並減少了交叉視圖轉換的次數。在[112]中,Zhu等人提出同時學習視頻內、視頻間距離度量,使視頻表示更緊湊,並區分不同identity的視頻。You等 [113]提出了一種top-push距離學習方法,通過選擇識別特征來優化視頻識別中的頂級(top-rank)匹配。

3.2 基於視頻的深度學習系統

在基於視頻的Re-ID問題中,數據量通常比基於圖像的數據集大,因為每個tracklet包含許多幀(表4)。

技術分享圖片

基於視頻和基於圖像的重識別的基本區別在於,對於具有多個圖像的每個匹配單元(視頻序列),應在視頻池化(pooling)後的采用多匹配策略(multi-match strategy)或單匹配策略。多匹配策略在早期研究中被使用[12][13],它會消耗更高的計算成本,並且在大型數據集上可能存在問題。另一方面,基於池化的方法將幀級特性聚合為一個全局向量,這具有更好的可伸縮性(scalability)。因此,當前基於視頻的Re-ID方法通常涉及池化步驟。此步驟可以是最大池化[21]、平均池化[114]或全連接層[115]。在Zheng等人的系統[21]中,時間信息沒有被明確捕獲;相反,同一個identity的幀被用作訓練樣本,以訓練以Softmax為損失的分類CNN模型。幀特征通過最大池化聚合,從而在三個數據集上產生具有競爭力的準確性。這些方法被證明是有效的,但仍有很多改進空間。關於這一點,Re-ID社區可以借鑒action/event recognition社區的想法。例如,Xu等人[116]建議直接進行CNN特征轉移,將caffenet的第5個卷積層中的柱特征聚合成Fisher向量[80]VLAD[117]Fernando等人[118]提出了一個learning-to-rank模型來捕捉幀特征是如何隨視頻時間演變的,這產生了視頻時間動態的描述符(video descriptors of video-wide temporal dynamics)Wang [119]CNN模型中嵌入一個多級編碼層,生成不同序列長度的視頻描述符。

另一個好的實踐方法是在最終表達中註入時間信息 。在手工設計的系統中,Wang等人[105]Liu等人[108]iLID-VIDPRID-2011數據集上使用純時空特征,並獲得了具有競爭裏的精度。然而,[21]發現MARS數據集上的時空特征沒有足夠的識別力,因為多個行人在同一臺相機下可能具有相似的Walling motion(作者筆誤,walking motion?),並且同一個人的運動特征在不同的相機中也可能不一樣。在[21]中指出,在大型視頻重識別系統中,外觀特征至關重要。這就是說,這項調查呼籲人們關註最近的幾篇研究[114][115][120],他們以外觀特征(如CNNcolorlbp)為起點,輸入RNN網絡,以捕捉幀之間的時間流。在[114]中,通過CNN模型從連續視頻幀中提取特征,然後通過循環的最後一層進行反饋,從而允許時間步驟(time-steps)之間的信息流。然後使用maxaverage pooling組合這些功能,以生成視頻的外觀特征。所有這些結構都被納入了一個siamese網絡。在[120]中使用了類似的體系結構。他們的區別是雙重的。首先,在[120]中使用了一種特殊的RNN類型——門循環單元(Gated Recurrent Unit, GRU)。第二,在[114]中采用了識別損失(identification loss),有利於損失收斂和性能提高。這兩項工作[114][120]使用siamese網絡進行損失計算,Yan等人[115]Zheng[21]則使用標識模型(identification model),將每個輸入視頻分類為各自的身份標識(identity)。在[115]中,手工制作的低級功能(如顏色和lbp)被送入多個lstmlstm輸出連接到一個softmax層。在行為識別方面,Wu等人[121]提出從視頻中提取外觀和時空特征,構建混合網絡融合這兩種特征。本文綜述註意到,外觀和時空模型的判別組合可能是未來視頻重識別研究的有效解決方案。

3.3 數據集和評價

2.3.1


4 未來:檢測、跟蹤和行人重識別

4.1前期工作

  雖然行人重識別源於多攝像機跟蹤,但目前已成為一個獨立的研究課題。本文將Re-ID視為一個重要的未來方向,將行人檢測和跟蹤作為一個場景(事實上卻是發展成了一個重要方向)。具體來說是考慮端到端的Re-ID系統,將原始視頻作為輸入,集成行人檢測和跟蹤,以及行人重識別為一體

  (到論文發表時)大多數Re-ID工作都基於兩個假設:第一,給定行人邊界框的gallery;第二,邊界框是手工繪制的,即具有完美的檢測質量。然而,在實際中,這兩個假設並不成立。一方面,gallery大小隨探測器閾值的變化而變化。較低的閾值產生更多的邊界框(較大的gallery、較高的召回率和較低的準確率),反之亦然。當檢測召回率/準確度因閾值不同而發生變化時,重識別的準確性就不能保持穩定。另一方面,當使用行人探測器時,邊界框中通常存在檢測錯誤,例如未對準、漏檢和假警報。此外,當使用行人追蹤器時,跟蹤錯誤可能導致軌跡內的異常幀,即背景或具有不同身份的行人。因此,行人檢測和跟蹤的質量可能直接影響到Re-ID的準確性,這在Re-ID社區中很少被討論。下面將回顧一些致力於這個方向的工作。

在解決第二個問題的最初嘗試中,幾個數據集包括 CUHK03 [16]、Market-1501[44]和MARS [21],這些數據集不假設完美的檢測/跟蹤輸出,更接近實際應用。例如,Li等人[16]表示在CUHK03上,使用檢測到的邊界框進行重標識的精度低於使用手繪邊界框獲得的精度。後來的研究也報告了這一觀察結果[42],[127]。這些發現與實際應用密切相關。在MARS上,跟蹤誤差(圖8)和探測誤差都會出現,但跟蹤誤差如何影響REID的準確度仍不清楚。

技術分享圖片

  盡管數據集通過引入檢測/跟蹤錯誤而取得進展,但它們並未明確評估檢測/跟蹤如何影響重識別,這為端到端的重識別系統中大量現有工作中如何選擇檢測器/跟蹤器提供了關鍵的見解。據我們所知,Xu等人[18]在2014提出了關於端到端行人重識別的第一項工作。它們使用術語“commonness”來描述圖像邊界框與行人的相似性,而術語“uniqueness”則表示gallery邊界框與query之間的相似性。commonness和uniqueness在指數函數中的乘積進行融合。這種方法通過消除虛假背景檢測的影響而起作用。盡管Xu等人[18]考慮到檢測對Re-ID的影響,其局限性在於缺乏全面的基準和對gallery動態問題的考慮。

  2016年,Xiao等人[128]和Zheng等[77]同時引入基於大規模數據集的端到端REID系統。這兩個研究工作都采用原始視頻幀和查詢邊界框作為輸入(圖5)。首先需要對原始幀執行行人檢測,生成的邊界框將形成Re-ID gallery。然後就轉變成了經典的行人重識別問題。這個過程,在[18],[128]中稱為“人員搜索(person search)”,不再局限於Re-ID(圖5(b)):它同樣關註檢測模塊(圖5(a))。這條流程的一個非常重要的方面是,如果具有相同的一組Re-ID特征,一個更好的行人探測器往往會產生更高的Re-ID精度。在[77],[128]中,person re-identification in the wild, PRW和大規模人員搜索(large-scale person search, LSPS)數據集上分別實現了extensive baselines。另一個有趣的話題是行人檢測是否有助於人的重新識別。在[18],[77]中,檢測信心被整合到最終的重新識別分數中。在[128]中,行人檢測和RE-ID在一個類似於faster R-CNN[129]的CNN模型中被聯合考慮,而在[77]中,當在一個預先在R-CNN模型[130]上訓練用於行人檢測的CNN模型上進行微調時,ID-discriminative embedding (IDE)被證明是優越的。這些方法提供了關於弱標記檢測數據如何幫助提高Re-ID準確性的初步見解。

  然而,在所謂的“端到端”系統[18]、[77]、[128]中,沒有提到行人跟蹤,我們也不知道任何現有的工作/數據集涉及到解決跟蹤對RE-ID的影響。這項工作將其視為將檢測、跟蹤和檢索集成到一個框架中的“最終”目標,並評估每個模塊對整體Re-ID性能的影響。因此,此調查呼籲邊界框註釋的大型數據集,以用於這三項任務。

技術分享圖片

[論文閱讀] Person Re-identification: Past, Present and Future