1. 程式人生 > >Improving Person Re-Identification by Efficient Pairwise-Specific CRC Coding in the XQDA Subspace

Improving Person Re-Identification by Efficient Pairwise-Specific CRC Coding in the XQDA Subspace

發表於 《Ieice Transactions on Information & Systems》2018

摘要:一種新穎並且高效的編碼方式被提出用於在XQDA子空間中提高行人再識別。傳統的CRC(Collaborative Representation based Classification,基於協同表示的分類)為每張影象進行獨立的字典編碼並且不能保證結果比傳統的歐式距離有所提高。然而,在本文中,為每個探針影象和每個候選集影象(即以探針 - 候選整合對方式)分別構建特定模型。 所提出的成對特定CRC方法可以通過強制執行相似項來拉近類似的樣本對來挖掘額外的判別資訊。 該方法已針對兩個基準資料集進行了評估,實現了顯著的改進和出色的效能。

關鍵詞:行人再識別;CRC;XQDA

1、介紹

      在近十年,行人再識別,即在不同攝像頭視角下識別感興趣的行人,已經得到了持續的發展。不同於人臉識別,行人再識別由於在現實場景中更多不可控的變數仍然具有挑戰性。為進一步提高準確率,當前的方法主要集中在設計或者學習更好的描述子[1]或者度量學習[2]。

      在現有的行人再識別描述子中,SDALF[3]利用行人的對稱性和融合顏色和紋理特徵。LOMO[2]結合三尺度解析度的重疊塊的HSV和紋理直方圖。近期,GOG[4]提出一種分層的高斯描述子用來在4中不同的顏色空間中對影象區域建模。另外,深度學習在學習行人表徵方面變得越來越流行。本文中,我們採用GOG描述子並且關注於基於編碼的更好的度量方法。

     通過標記或未標記的訓練樣本,度量學習通常可以極大地提高行人再識別準確率。KISSME(Keep It Simple and Straightforward Metric)[5]是一個著名的基於推理的度量,然而在通過交叉檢視二次判別分析應用KISSME之前,XQDA學習判別子空間[2]。CNNA[6]提出了近鄰分析用來解決分佈不均的樣本偏差。此外,還應用了字典編碼方法,其中京都大學的研究人員(Wu, Minoh[7]) 認為基於協同表示的分類(CRC)比稀疏編碼具有可比性但更有效。最近WLC[8] 也提出了一種帶權重的線性編碼以學習多層描述子。在學習特定樣本的SVMs之後,LSSCDL[9]學習一對字典和一個對映函式以預測相似性。在兩個檢視中有標籤的訓練樣本作為兩個字典,KXCRC[10]提出一種有監督的CRC拓展,它考慮核技巧和跨檢視編碼。

       當前,由於行人再識別領域的共同努力,識別率遠高於十年前。同時,進一步提高行人再識別準確率變得更加困難。考慮到XQDA已經能夠挖掘訓練資料中的大多數判別資訊,我們推匯出近似的XQDA子空間並採用CRC編碼方法來替換先前的馬氏距離度量。 與其中字典上的每個樣本的編碼是獨立的傳統CRC不同,每個探針影象和每個候選集影象被配對並與相似性約束一起編碼以形成成對特定的CRC模型(pairwise-specificCRCmodel,PS-CRC)。 我們的方法經過驗證可以在兩個公共資料集上實現更好的結果。

2. XQDA Subspace and CRC Coding

      因為我們的方法建立在XQDA方法之上,所以我們簡短地介紹他的學習度量。在XQDA(交叉視角二次判別分析)中,兩個d維的行人樣本描述子之間的距離可以被計算為:

其中,是從原始d到較低r維的學習子空間投影矩陣,具有廣義特徵值分解。在學習的子空間中是傳統的KISSME度量,其中,分別表示訓練集中行人自身差異和行人間差異的協方差矩陣。

         在計算兩個樣本的距離時,上述度量是有效的,但是如果我們想要得到每個樣本的簡潔的表示,則不方便。因為M中包含可判別的資訊,所以我們定義作為XQDA子空間而不是隻使用W。然後樣本x可以被投影到一個低維的子空間額外的好處是公式(1)中地馬氏距離變為樣本   簡單的L2歐式距離,這在計算上是有效的。

       然而,在XQDA子空間上採用歐式距離也許不是最優的,因此我們研究編碼策略在這個子空間下是否表現更好。我們關注於協同表徵而不是稀疏編碼因為它在編碼時具有卓越的效能和效率[7]。使用所有候選集的影象作為字典D,CRC方法用編碼向量z表示每個探針影象y

其中是一個尺度引數以平衡表徵殘差和正則化項。它將探針影象分配給類,從而導致分類的最小重建誤差。    

3. Pairwise-Specific CRC Coding

       雖然在面部識別方面取得了成功,但原始的CRC並不適合行人再識別,因為每個候選行人的影象都很少。一個簡單的想法是使用訓練樣本構造D同時用等式(2)中的分析方法編碼每一個測試樣本,然後編碼向量的餘弦距離可以被採用。然而,當與傳統的XQDA子空間比較時,上述的編碼空間不能總是保證提高結果。受LSSCDL[9]和KXCRC[10]中簡單特定的模型的啟發,我們下面提出一種特定的成對CRC編碼。

       在一個共享的有k個訓練樣本的字典D上,探針影象和候選集樣本被建議聯合編碼為:

其中,主要新穎性在於最後一項強制兩個編碼向量之間相似性約束。如果來自於同一行人而不是來自於不同行人,這一項就被期望產生更多的相似編碼向量。因此,相應的編碼向量之間的餘弦距離對於距離計算變得更加適合。

        因為不同的探針--候選集對有特定的編碼向量,因此等式(3)中的多個成對優化似乎會產生計算負擔。事實上,仍然存在封閉形式的分析解決方案,並且可以通過預先計算和儲存一些共享變數來有效地加速計算。 通過在方程(3)中將關於的導數設定為零,我們可以獲得相互依賴的編碼向量:

其中,I是單位矩陣。注意到如果上述的PS-CRC模型退變為原始的CRC方法,它的編碼向量是獨立的。通過代入等式(4)中的並且令分析的解決方案可以被寫為:

        記很顯然所有的成對編碼模型共享相同的投影矩陣A和B。另外,我們可以對所有的預先計算中間編碼向量,同時為所有的預先計算。然後,只需新增兩個預先計算的向量,然後進行餘弦距離計算,就可以計算。 演算法1總結了詳細的程式。

       不同於用所有候選集中的樣本構造D傳統的CRC方法,我們提出選擇部分訓練樣本,通過無監督的k均值或簡單隨機抽樣形成字典。 另一個想法是通過有監督的字典學習來學習更獨特的D. 然而,由於XQDA已經利用了訓練標籤中的大多數判別性,因此它在XQDA子空間中受到監督並且結果可能無法持續改進。 與KXCRC [10]相比,我們進一步強調了PS-CRC中的無監督性質,KXCRC [10]使用所有探針和相簿訓練樣本形成兩個受監督的詞典,其中同一詞典列中的各個樣本代表同一個人。

4. Experimental Results

        在XQDA子空間中提出的PS-CRC方法在兩個廣泛的資料集中驗證。比如 VIPeR[3]和CUHK01[2]。VIPeR包含632個行人且每個行人有兩張影象,CUHK01包含971個行人的3884張影象(每個身份都有四個樣本)。累積匹配特徵曲線(CMC)作為一種評價工具被使用,它代表在前n個匹配中找到正確匹配的可能性。對於KXCRC,我們採用相同的GOG描述子並且重複十次交叉隨機測試取平均值。在每一次驗證中資料集中的一半被用於訓練其餘的用作測試。原始的27622維GOG特徵被對映到XQDA子空間下然後被L2規範化。訓練樣本總的一半被選擇以形成字典D,而且引數被設定用來實現每種方法的最佳結果。對於PS-CRC來說,我們設定

        第一個實驗是在VIPeR資料集上評估用我們的方法。具有L2歐氏距離的XQDA子空間用作基準方法。一個模組從我們的PS-CRC方法修改而其他模組保持不變以證明相應的設計是合理的。這些變數包括:(1)PSCRC-M,在XQDA子空間下M被移除;(2)SI-CRC,獨立的CRC樣本,(3)K-PSCRC,相同的核技術被用在PS-CRC中,因為KXCRC已經它的無核模型提高的結果。表1羅列了在一些top ranks的CMC值(R5表示rank5)以及將引數調整到最佳結果後的距離計算的平均時間。

       從表1可知,PS-CRC在基準XQDA子空間方法上rank-1已經提高超過3%,它可以被認為是一個很大的增強,因為最近的方法似乎在這個具有挑戰性的VIPeR資料集上達到飽和的結果。PSCRC-M和SI-CRC表現得比PS-CRC差,表明了XQDA子空間中的M是具有判別性的,而且特定成對的編碼策略用來挖掘額外的判別資訊是至關重要的。KPS-CRC在後期排序上取得了稍好的成績,但其排序靠前的較差。 它表明成對特定編碼起著最重要的作用,而不是核心技巧,並且核心在判別式XQDA子空間中帶來的好處不如監督的KX-CRC那麼大。儘管沒有像簡單的L2距離那樣有效,但是在PS-CRC中所有的距離計算花費時間少1秒,由於分析解決方案和預先計算的矩陣,它仍然非常有效。因為KPS-CRC需要微調額外的核引數並且花費更多的計算時間實現相同的結果,在本文中我們只強調使用PS-CRC。

       然後,我們繼續和當前的方法進行比較,在表2中羅列(採用VIPeR資料集)。在這些方法中,LOMO和GOG是兩種超過25000維的最卓越的行人再識別描述子,XQDA空間下他們都被減少到較低的維數用來評估。LSSCDL通過特定樣本SVM學習和半耦合字典學習進一步提高了LOMO的結果。WLC是一個最近的特徵學習方法,它也採用了由k-means構造的字典上進行無監督字典編碼。KXCRC是一種核擴充套件的由監督交叉視角CRC編碼方法。表2揭示了PS-CRC在所有的rank排序中優於其他方法。應該注意到KXCRC微調但是不微調交叉視角編碼(比如,固定),這將妨礙它的結果因為也許扮演者一個至關重要的角色(比如在我們的PS-CRC中)。

        接下來我們在較大的CUHK04資料集上進一步做驗證試驗。結果列在表3中,比較的方法和表2中的相同。類似於VIPeR,我們採用GOG描述子且重複十次交叉驗證求得平均值。對於每次實驗,486個行人被隨機從971個行人中取樣用於訓練,其餘的用於測試。注意到在CUHK01中每個行人在每個視角有兩張圖片,在每個視角下只有一張圖片被挑選用於測試。相比於LOMO方法,multi-short被報告因為他的作者只採用了較好的multi-shot設定。對於我們的PS-CRC,一半的訓練樣本被選擇用來形成字典D並且引數設定為:從表三可知,PS-CRC比GOG基準方法明顯提高,在rank-1從57.6%到65.8%上升了8%。另外,它優於其他三種字典學習/編碼方法WLC,LSSCDL和KXCRC。

       事實上,PS-CRC可以被認為是XQDA度量的第二階段或者重排序技術。同時以上實驗已經證明它在兩個資料集上效能提升和優化結果的潛力。但是,如果我們不指出它的兩個缺點,那將是不負責任的。 一個是應該在不同的資料集上調整引數,並且我們認為特定引數可以反映某些資料集的分佈偏差。 另一個缺點是整個方法受到監督,因為它建立在受監督的XQDA之上。

        我們聲稱在本文中使用了一個無監督字典,因為我們發現學習的字典並不一定會改進測試資料集。 因此,如果訓練集在其他小資料集上沒有足夠的影象或身份,則可能無法保證收集相當好的字典。雖然解釋了上述缺點,但我們傾向於認為調整引數或嘗試建立一個好的仍然是值得的,因為PS-CRC帶來的巨大效能增益字典。

 5. Conclusion     

         本文提出了一種新穎的字典編碼方法PS-CRC來改進行人再識別。 由於原始特徵空間通常是高維的,因此PS-CRC建立在XQDA子空間上。 與不考慮每個探測器樣本對的特殊性的傳統編碼方法不同,我們通過將各個CRC模型放在一起並在它們之間新增另一個相似性項來提出成對特定模型。 雖然引入了多個模型,但由於可以預先計算中間編碼向量,因此它仍然非常有效。 在VIPeR和CUHK01資料集上,所提出的方法比基線方法有了顯著改進,並且實現了出色的效能。 未來的方向包括評估更多資料集,通過更復雜的監督或無監督方法學習更好的字典,以及深入研究核心技術。

References [1] M. Zeng, Z. Wu, C. Tian, L. Zhang, and L. Hu, “Efficient person re-identification by hybrid spatiogram and covariance descriptor,” IEEE Conf. Computer Vision and Pattern Recognition Workshops, pp.48–56, 2015. [2] S. Liao, Y. Hu, X. Zhu, and S.Z. Li, “Person re-identification by local maximal occurrence representation and metric learning,” IEEE Conf. Computer Vision and Pattern Recognition (CVPR), pp.2197–2206, 2015. [3] L. Bazzani, M. Cristani, and V. Murino, “Symmetry-driven ac- cumulation of local features for human characterization and re- identification,” Comput. Vis. Image Und., vol.117, no.2, pp.130– 144, 2013. [4] T. Matsukawa, T. Okabe, E. Suzuki, and Y. Sato, “Hierarchical Gaussian descriptor for person re-identification,” IEEE Conf. Com- puter Vision and Pattern Recognition (CVPR), pp.1363–1372, 2016. [5] M. Kostinger, M. Hirzer, P. Wohlhart, P.M. Roth, and H. Bischof, “Large scale metric learning from equivalence constraints,” IEEE Conf. Computer Vision and Pattern Recognition (CVPR), pp.2288–2295, 2012. [6] W. Li, M. Mukunoki, Y. Kuang, Y. Wu, and M. Minoh, “Person re-identification by common-near-neighbor analysis,” IEICE Trans. Inf. & Syst., vol.E97-D, no.11, pp.2935–2946, Nov. 2014. [7] W. Li, Y. Wu, M. Mukunoki, and M. Minoh, “Bi-level relative in- formation analysis for multiple-shot person re-identification,” IEICE Trans. Inf. & Syst., vol.E96-D, no.11, pp.2450–2461, Nov. 2013. [8] Y. Yang, L. Wen, S. Lyu, and S.Z. Li, “Unsupervised learning of multi-level descriptors for person re-identification,” 31st AAAI Conf. Artificial Intelligence, pp.4306–4312, 2017. [9] Y. Zhang, B. Li, H. Lu, A. Irie, and X. Ruan, “Sample-specific SVM learning for person re-identification,” IEEE Conf. Computer Vision and Pattern Recognition (CVPR), pp.1278–1287, 2016. [10] R. Prates and W.R. Schwartz, “Kernel cross-view collaborative rep- resentation based classification for person re-identification,” arXiv, 1611.06969, 2016.