1. 程式人生 > >Re-id via Discrepancy Matrix and Matrix Metric(IEEE Transactions on Cybernetics 2017)

Re-id via Discrepancy Matrix and Matrix Metric(IEEE Transactions on Cybernetics 2017)

Abstract

        行人再識別(re-id)作為視訊監控和取證應用中的一項重要任務,已得到廣泛研究。先前用於解決行人再識別問題的研究工作主要集中於通過利用外觀特徵來構建穩健的向量描述,或者通過標記的向量來學習判別距離度量。基於人類的認知和識別過程,我們提出了一種新的模式,將特徵描述從特徵向量轉換為差異矩陣。特別是,為了很好地識別行人,它將距離度量從向量度量轉換為矩陣度量,矩陣度量由類內差異投影和類間差異投影部分組成。我們引入一致項和判別項來形成目標函式。為了有效地解決它,我們在交替優化過程中針對兩個投影使用簡單的梯度下降方法。公共資料集的實驗結果證明了與最先進的方法相比,所提出的方法的有效性。

關鍵詞: 差異矩陣; 矩陣度量;度量投影;行人再識別

1、Inroduction

            行人再識別(re-id)是視覺上匹配從非重疊場景分佈的不同攝像頭中同一行人的影象任務[1]。 由於其在視訊監控中的重要應用[10] - [12],近年來引起了人們的極大關注[10] - [12]。雖然人臉[13] - [16]和步態[17],[18]可能作為識別人的更可靠的生物識別技術,但是由於低解析度和典型監控場景中個體的姿勢變化,它們總是不可用[19] - [21]。 因此,行人再識別主要利用人體的外表。 通常,給定從攝像頭A拍攝的探針行人影象,行人再識別演算法旨在從攝像機B捕獲的候選集中搜索同一行人的影象。用於解決行人再識別問題的先前研究工作主要集中在以下兩個方面。   

         A:特徵描述

         已經提出了許多方法來開發有辨別力的視覺描述子,這些描述在各種攝像頭中可以區分不同的行人,例如區域性特徵集合(ELF)[22],基於對稱驅動累積的區域性特徵(SDALF)[23],基於顯著顏色名的顏色描述子(SCNCD)[24],區域性最大發生概率描述子(LOMO)[25],高斯---高斯(GoG)描述符[26]和深度卷積神經網路(CNN)方法[27] - [31]。 通常,特徵向量總是用於通過這些方法描述影象I [32],其中表示特徵維度。

        注:之前的工作所用的特徵主要有:ensemble of localized features (ELF)、 symmetry-driven accumulation of local features (SDALF)、 salient color-name-based color descriptor (SCNCD) 、local maximal occurrence (LOMO)、 Gaussian of Gaussian (GoG) descriptor 、 deep convolutional neural network (CNN)approaches。

         b:距離度量

        在學習最佳匹配度量方面還有許多成果,在這些度量下,屬於同一個人的例項比屬於不同人的例項更接近,例如概率相對距離比較(PRDC)[19],保持簡單直接的度量學習(KISSME) [33],區域性自適應決策函式(LADF)[34],區域性Fisher判別分析(LFDA)[35]和交叉視點二次判別分析(XQDA)[25]。一般而言,多數方法會學習一個度量矩陣M,然後影象對的距離可以被計算出來。上標A,B表示攝像頭的標籤,p,q表示行人ID。實際上,通過對特徵值進行分解,距離可以被寫為(1)式。通過這個定義,很容易看出基於度量學習的方法的本質是尋找將原始影象特徵轉換為新特徵空間的投影。

          幾乎所有最先進的方法都遵循相同的程式。 它們使用特徵向量代表每個行人的影象,無論是手工設計還是深度學習,都基於人的外觀。 然後,他們通過特徵向量距離比較影象對[36]。 然而,在描述一個人時,我們不僅可以利用他/她自己的外表的特徵,而且可以利用與他人的外表關係。最近,An等人[37]提出一種參考描述子reference descriptor(RD)。他們引入了一個參考集,並從參考集中選擇典型的身份來重構每個人。重構權重被用來描述相應的行人。在我們看來,RD方法側重於發現與參考身份整體的全域性和粗粒度重建關係,並忽略其與每個參考身份的每個部分的區域性差異關係,其具有細粒度並且可能包含重要資訊。 我們將差異關係命名為差異。為了描述一個人,本文利用了他/她與參考集的外觀差異。 圖1示顯示了樣例。 我們假設向量的不同部分表示相應行人的不同屬性。正如圖1(左)所示,在傳統方法中,I1中的行人被描述為:穿著一件藍T恤和長褲子,沒有背任何東西。上半身是藍色的且下半身是黑色的。這些特點作為特徵被提取。另一方面,我們也可以通過一個人與他人的差異來描述這個行人。讓我們看圖1(右)。我們用另一種方法來描述影象I1如下:I 2的T恤的顏色與I 1的顏色相比較綠,I 1沒有揹包,但 I 3持有,I 1的褲子比I 4的褲子長,並且顏色為 I 1的褲子比I 5的褲子暗。因此樣例展示了行人不僅可以被他/她的她點所描述,而且可以通過與他人的差異來描述。一般地,我們利用特徵向量來表示一個行人。為了這個目標,每兩張影象的差異被表示為特徵向量的差異,也就是一個減去另外一個。在該樣例中,影象I 1由四個差異向量(或差異矩陣)的組合來描述。

       圖1.分別通過特徵和差異對描述進行比較的樣例。 我們假設向量的不同部分表示相應人的不同屬性。 左:I 1中的人可以通過其外觀的特徵被描述為特徵向量。 右:行人可以被描述為與I 2 - I 5的差異的四個向量的組合。

如果兩人之間的每種差異由向量表示,則與參考集的所有差異將形成用於描述相應行人的一個矩陣。與參考描述向量[37]相比,差異矩陣捕獲更多樣化的特徵,並且還通過從兩個攝像頭引入幾個參考集來減少由攝像頭條件變化引起的影響。詳情見第III-B節。在差異矩陣方法中,每個影象對的距離應基於一對差異矩陣進行計算。因此,現有的度量學習方法,其側重於生成向量度量,顯然不適合於所提出的描述。很容易認識到來自同一個人的兩個差異矩陣應該彼此相似,而來自不同人的兩個差異矩陣應該是不同的。為此,提出了一種有效的矩陣距離度量學習方法,包括類間差異和類內差異投影。

       本文的貢獻如下:

         1)從特徵向量到差異矩陣。我們提出了一種描述行人影象的新思路,用與一組影象的差異來表示行人影象,而不是影象本身的特徵。結果表明,與特徵向量相比,差異矩陣具有更好的識別性和有效性;

          2)從向量度量到矩陣度量。提出了一種由類間差異投影部分和類內差異投影部分組成的行人重識別任務矩陣度量方法。在訓練階段,同時考慮一致性約束(將兩個差異矩陣從同一個人身上拉出)和判別性約束(將兩個差異矩陣從遠處推到不同人身上)來學習矩陣度量;

         3)一種新的模式:我們提供了一種新的行人再識別模式,它通過差異矩陣和矩陣度量(Discrepancy Matrix and Matrix Metric)重新識別和排列影象。 對基準資料集的廣泛實驗評估證明了所提出模式的有效性。 值得注意的是,所提出的行人再識別模式獨立於特徵描述符的選擇。 結合最先進的特徵提取方法,例如深度學習方法,可以獲得更好的結果。

      本文的其餘部分安排如下。 在第二部分,簡要回顧了行人再識別的相關工作。 在第三節中,我們介紹了我們方法的動機,並正式定義了新的問題。 在第四節中,我們說明了所提出的矩陣度量學習的細節。 第五節報告實驗結果和分析。 最後,第六節總結了本文。 表I總結了本文中使用的符號。

                                                                                           表I 符號說明

2、  RELATED WORK

        在本節中,我們將簡要回顧有關行人再識別的相關工作。 當前的行人再識別研究通常可以分為兩類:1)基於特徵描述和2)基於距離度量的方法。

       特徵描述方法旨在構建判別性視覺描述。通常,這種方法可以分為基於手工設計和基於深度學習。行人再識別任務中的手工描述是通過利用行人的特殊外觀特徵來設計的。Wang等人 [38]研究了一個外觀模型來捕捉外觀的空間分佈。 Gray和Tao [22]使用ELF進行了視點不變描述。 Farenzena等人 [23]通過使用對稱性和不對稱感知原理描述了具有分割區域的外觀影象。 Ma等人 [39]結合了生物啟發特徵和協方差描述符(BiCov)。 Layne等人 [40]學會了對中級語義屬性的選擇和加權來描述人。 Kviatkovsky等人[41]使用形狀上下文描述符來表示內部分佈結構,它們在不同的光照條件下是不變的。Zhao等人[42]以無人監督的方式為每個補丁分配顯著性。Yang等人[24]提出了一個SCNCD來代表人的形象。 Eiselein等 [43]融合了多個基本特徵,如顏色直方圖,SURF [44],並設計了一個快速有效的行人描述符,滿足低執行時的實際需要。 Liao等人 [25]分析區域性特徵的水平發生,並最大化發生以對視點變化進行穩定表示。 Matsukawa等人 [26]將每個人影象區域建模為一組多個高斯分佈,其中每個高斯分佈表示區域性補丁的外觀。 最近,針對行人再識別任務出現了深入學習的描述。Li等人 [27]利用統一的深層架構來學習行人再識別的過濾器。Ding 等人[28]提出了一種基於深度神經網路的可擴充套件距離驅動特徵學習框架。Zhang 等人[29]開發了深度可縮放的雜湊碼來表示原始影象。Wang 等人 [30]結合了四個CNN,每個CNN嵌入來自不同規模或不同身體部位的影象。 總的來說,所有這些方法都集中在人的外觀上,並將每個人的影象表示為特徵向量。

        除了人物形象本身的特徵之外,還可以利用與其他身份的關係。 An等 [37]利用參考集來描述一個人。 然而,他們選擇一些典型的參考特徵來構造向量,而我們利用差異而不是原始參考特徵來形成行人再識別問題的矩陣。

       距離度量方法關注於找到適當的距離度量。 Hirzer等[45]和Dikmen等人[46]採用LMNN [47]來學習行人再識別的最佳度量。Zheng 等人[19]通過PRDC學習了Mahalanobis 距離度量。 Köstinger等[33]使用高斯分佈來擬合成對樣本並獲得更簡單的度量函式。Tao 等人[48]通過無縫整合平滑和正則化技術,提出了一種正則化平滑KISS度量學習,用於穩健地估計協方差矩陣。 Mignon和Jurie [49]引入了成對約束分量分析(PCCA)來學習高維輸入空間中稀疏成對相似性/不相似性約束的距離度量。 Pedagadi等[35]組合無監督主成分分析(PCA)維數減少和由訓練集定義的LFDA來執行度量學習。Li 等人[34]提出學習決策函式,可以將其視為距離度量和區域性自適應閾值規則的聯合模型。Wang 等人[50]將度量學習問題轉換為特徵投影矩陣學習問題,該問題將一個攝像頭的影象特徵投影到另一個攝像頭的特徵空間。Liao 等人[25]通過XQDA學習了判別式低維子空間。Wang 等人[1]調查了兩個攝像頭之間的一致性,並調整了每個查詢 - 相簿對的度量。Zhang 等人[51]提出通過將類內分散最小化到最大化並同時最大化相對類間分離來學習行人再識別的判別零空間。 Zheng和Shao [52]在漢明空間學習了快速行人再識別的距離度量。

      所有這些方法都試圖獲得特徵向量的適當距離度量。 相反,我們提出的方法利用差異矩陣。 因此,我們的問題不能使用專注於生成向量度量而非矩陣度量的傳統方法。 為此,提出了一種矩陣度量學習方法。

3、PROBLEM  STATEMENT AND MOTIVATION

在本節中,我們首先回顧一下行人再識別任務的傳統模式。 然後,我們在提出的方法中提出了差異矩陣度量(DM^3)的動機。

A. Feature and Vector Metric 

      對於傳統的行人再識別問題,有標記的行人的集合     與兩個攝像頭關聯,其中M是行人的數量。我們表示由攝像頭A(或攝像頭B)拍攝的行人的代表性描述為或者(),然後,分別代表攝像頭A和B拍攝的有標籤的訓練集影象。基於這兩個集合,一個規則化的距離度量被學習。

           令代表來自攝像頭A的一個測試探針資料,並且表示來自攝像頭B的測試資料,其中N代表攝像頭B中測試資料的數目。然後,對於每個測試探針資料,測試探針資料和每個測試資料之間的距離可以利用(1)進行計算(如圖2左列所示)。獲取所有距離之後,產生排序列表。

圖2. 傳統方法和提出的方法之間的比較。對於特徵描述和距離度量部分,提出的方法與傳統的方法不同。特徵描述從向量轉換為矩陣是特徵向量的維數,是參考影象的數量。距離度量由特徵投影到類內投影和類間投影

B. Discrepancy Matrix  差異矩陣

      上面提到的一般的方法利用一個人的特徵來描述本身的外觀。大所述特徵描述子將每個行人影象的特徵轉換為一個判別性的特徵向量。我們同樣也通過與他人的差異來表示一個行人。給定參考影象特徵集合影象I的描述就是構造與影象集合的一系列的特徵向量差我們表示描述為:其中是參考集影象的數量。應該注意到[37]和[35]也利用一個參考集合來描述一個行人,並且他們的關注點是從參考集中挑選一些典型的影象並且利用重建引數來產生一個向量描述子。然而,我們的關注點是參考集中所有影象的差異來產生一個矩陣描述子。

     另一方面,兩個攝像頭的縮放比例,光照改變和拍攝環境的差異造成初始特徵描述沒有足夠的魯棒性。然而,外界環境對於不同行人的影響也許在相同的攝像頭中是相同的。因此,兩個特徵描述之間的差異也許會減少這些影響。基於這個考慮,我們通過來自相同攝像頭的參考集影象集合的特徵差異構建差異矩陣描述。特別的,在我們的方法中,兩個參考影象集合被選擇,這將產生來自A攝像頭的影象特徵描述和來自B攝像頭的影象特徵描述,根據定義,如果兩個特徵描述的下標是相同的,那麼該特徵是提取自兩個不同的攝像頭下同一行人的特徵。因此,如圖2右列所示,對於來自攝像頭A的影象,它的差異矩陣描述為。但是對於來自攝像頭B的影象來說,它的差異矩陣描述子為這樣,特徵描述由特徵向量轉化為差異矩陣。獲取到差異矩陣描述之後,我們計算每個描述對的距離。根據[54],我們使用 F範數來衡量差異矩陣的距離。例如,對於影象對,距離是

         為了檢驗差異矩陣描述的有效性,我們進行了初步實驗,將其與特徵向量描述進行了比較。實驗進行了100次。對於每次實驗,VIPeR資料集[55]中的100對影象(分別來自於攝像頭A和攝像頭B)被隨機挑選,然後被設定為兩個參考影象集。另外的100對影象從剩餘的資料集中被隨機挑選。每張影象分別被表示為一個特徵向量,使用手工設計的GOG描述子[26]和深度學習的微調CNN(FTCNN)描述子[56],並且之後每張影象的差異矩陣根據之間段落描述的方法被構造。對於特徵描述,我們計算每對特徵向量的歐式距離。對於矩陣描述,我們計算 每對差異矩陣的矩陣的差的F範數。我們使用CMC曲線[38],該曲線描述發現前r個排序中的真實匹配的期望。結果展示在表II中。從該表,我們可以簡單地總結差異矩陣描述比特徵向量描述更加有效。我們將改進歸因於攝像頭條件變化引起的效果降低。原因如下。 在理論上,可以合理地假設雖然有時存在大視點扭曲和遮擋,但是從攝像頭A到B,每個人的視覺外觀將在一段時間內遇到一致的交叉攝像頭成像變化。Kviatkovsky等人[41]提供在不同的光照條件下,每種顏色在對數色度空間中會得到一個約束的變換。Wang等人[1]證明在兩個不同的攝像頭之間每個行人的變換是一致的。基於這兩種方法,我們假定由交叉攝像頭成像條件造成的特徵差異是相同的,並且定義對每個行人這個一致性的特徵差異為v.然後,對於每個參考影象集對,他們的特徵差異可以被表示為:其中,表示偏差。同時,對於一對測試影象,他們的特徵差異可以被表示為正如我們所知,傳統的特徵距離由差異決定。它意味著交叉攝像頭變數作為一個重要的因素,特別是在成像變數很大時。引入v將很難區分不同的影象對。然而,差異矩陣的距離依賴於其中,交叉攝像頭成像變數被移除。不考慮變數v,來自於同一行人的偏差總是小魚來自不同行人的偏差,這使得行人再識別變得相當簡單。因此,它有助於提高差異矩陣描述的表現。

                                                                                                表II

                      比較差異矩陣描述和向量描述效果的初步實驗。 在VIPER資料集上的不同排名的行人匹配率(%)

          此外,實驗還表明,對於這兩種型別的描述(即,向量描述和矩陣描述),結果排在前十位的樣本是不同的,並且差異比率是12.84%。 這表明差異矩陣描述和特徵向量描述的判別能力是不同的,可能是由於差異矩陣描述引入除行人自身的特徵表示之外的影象關係。

C. Matrix Metric

         在不考慮元素的差異或元素的關係的情況下,標準的非訓練度量可能不合適。 訓練的度量是必要的,以使來自同一個行人的兩個矩陣描述的距離較小,而來自不同人的兩個矩陣描述的距離較大。對於傳統的向量度量學習,如(1)證明,L是一個投影矩陣。如果特徵向量會被對映到按照這個規則,如果我們引入一個投影在左乘或者

後,差異矩陣會被對映到

         正如我們所知,左乘後的有效性(它會增加每個差異的條目的權重),不同於有乘。實際上,正確的乘法適用於不同差異的條目。考慮到這個不同,我們引入類內差異投影矩陣作為左乘法器以及類間差異投影矩陣作為右乘法器。這兩個投影聯合形成矩陣度量。

         為了使這兩個投影的功能清晰,我們繪製圖3來說明左乘法和右乘法如何工作。 差異矩陣的每列代表從相應參考影象生成的差異。 基於矩陣乘法的原理,L1行和差異矩陣得列以元素方式組合。 這意味著L 1適用於每個差異。 然而,L 2適用於不同的差異。 圖3還顯示出了L2的列和差異矩陣的行(不同差異的相同維度)以元素方式組合。 在本文中,我們介紹了差異間投影,並沒有將差異矩陣轉換為向量。 原因如下。

       圖3.兩個投影的圖示。 基於矩陣乘法原理,將L 1行與差異矩陣(類內差異)列組合,並將L 2列與差異矩陣行(類間差異)組合。 

      1) Easy to Understand With Independent Physical Meanings:

           如果我們不引入L 2作為右乘數,則每個差異將由L 1相同對待。 但是,我們認為不是全部,而是一些參考影象對距離測量有效。 因此,我們通過利用類間差異投影L 2來稀疏地選擇一些典型的差異來改善效能。 在第V-C節中,我們分析了類間差異投影的稀疏性。從實驗中我們可以看出,如果人物影象對存在大的變化,例如不同的照明和背景變化,則由投影矩陣L 2選擇的可能性很小。 L 2證明了它在選擇不同差異方面的能力。 而L 1側重於加權每個差異的不同維度。 我們認為這兩個預測具有獨立的物理意義。

      2) Less Parameters and Constraints for L 1 :

           如果通過連線列將矩陣轉換為向量,則可以直接利用傳統的基於向量的度量學習方法,此外,在這種情況下不需要類間差異投影L 2。 我們認為轉換後的差異向量設計度量標準可能有效。 然而,在將矩陣重新形成向量之後,向量的維度將顯著增加。 如果我們試圖對不同的差異給出不同的貢獻,那麼應該對L1引入更多的約束。 然後,它將使類內差異投影L 1難以學習。

       3) Convenient to Add Constraints:

        轉換後的差異向量的形式將破壞資料矩陣的結構資訊,並且將破壞每個差異的獨立性。 相反,如果我們保留矩陣的結構,將同時利用L1和L2。 要學習矩陣度量,我們可以選擇性地優化兩個投影。同時,我們可以獨立地為兩個預測新增約束。 例如,我們引入一個稀疏項來使投影L 2稀疏。

       對於影象對,使用(2)計算新的距離。這樣,距離度量由向量度量轉換為矩陣度量

      如圖2的右列所示,與傳統方法不同,所提出的方法在特徵描述中利用矩陣而不是向量,並且在距離度量部分由一對投影(左乘和右乘)組成,而不是單個投影。

IV. PROPOSED MATRIX METRIC LEARNING

       本節介紹我們的矩陣度量學習方法。 我們從針對行人再識別問題的矩陣度量學習開始。 然後,提出了一個由一致性和判別性的術語組成的新目標函式。 考慮到並非所有參考行人都對差異有用,也會在目標函式中引入稀疏項。 同時,我們利用交替優化和梯度下降法來學習度量,並設計了一種基於隨機抽樣的求解方法來加速優化過程。

A. Definition  

        兩個影象之間的新距離定義為(2)。 與(1)相比,在應用投影變換L的情況下,所提出的度量由類內差異投影部分和類間差異投影部分組成。 通常,對於類內差異投影和類間差異投影部分,來自同一個人的每對差異集被拉近,而來自不同人的那些差異集被推開[如圖4(左)所示]。給定兩個描述子集合作為訓練集,度量學習的本質是在通常包含兩個成對約束的監督資訊下找到最優L1和L2,即相似約束和不相似約束。

         圖4.提出的矩陣度量學習的圖示。 它由一個一致的術語組成,它使同一個行人的差異(矩陣)的組合接近,以及一個判別性術語,它將不同行人的差異組合在一起。

B. Objective Function for Matrix Metric Learning

        基於Wang等人[50]的方法,我們用兩個術語表達目標函式,並學習矩陣度量L1和L2.第一個術語專案,它來自於同一行人,相互接近,因此有效消除了兩臺攝像頭的不一致性。我們稱之為一致的形式。第二個術語專案是遠離,其中

它具有度量的判別能力,我們將其稱為判別性術語[ 圖4(右)]。

          具體地,一致項可以由所有相似對的矩陣距離之和來定義

         直觀地,該目標函式中的這個術語懲罰了同一個人的影象之間的大差異矩陣距離。

         在引入判別性術語之前,我們表示三重集合為其中s是集合的大小。然後,對於每個三重樣本下面的不等式需要滿足.我們對一個三重樣本定義一個錯誤函式為基於這個錯誤函式,判別性術語被定義為如下形式:

          其中,是廣義邏輯損失函式(參考[50])。很容易看出,目標函式中的這個術語懲罰了侵入不等式的三重樣本。 在這裡,我們選擇邏輯損失函式而不是鉸鏈損失函式有兩個原因。 首先,鉸鏈損失在零處是不可微分的,而邏輯損失函式在各處都有導數,這使得解決方案更簡單。 其次,邏輯損失給出了鉸鏈損失的軟近似,並且更靈活。

         此外,正如第III-C節所討論的,L2是類間差異投影,作為右乘數控制不同差異的權重。 它選擇對差異有用的典型參考行人。 我們認為並非所有的參考行人都對差異有用,而且其中一些人具有更強的辨別力並帶來更少的噪音。 因此,差異應該是稀疏的選擇[57]。 我們利用範數來改善差異選擇[58],[59]。 通過解決範數最小化問題,L2在每列中都是稀疏的。 稀疏項的表述定義為

           最後,我們結合形式我們三個術語組合成單個目標函式,用於學習矩陣度量如(6),其中,在本文中,為了簡單起見,將一致項和判別項的權重設定為相等,且是稀疏術語的權重

C. Optimization Algorithm

          通過上述目標函式,可以通過求解以下優化問題來學習最優度量:

         由於所提出模型的耦合變數和聯合非凸性,無法保證全域性最優性。 為了有效地求解模型,我們提出了交替優化過程來迭代地學習L 1和L 2。 與[60]類似,我們固定其中一個投影並優化另一個,然後輪流優化。 我們知道,稀疏項(5)是凸的,如[58]所示。 另外,一致項(3)和判別項(4)基於距離函式(2)。 當我們修正L 1或L 2時,原始距離函式從四階多項式降級為二階多項式。 因此,(7)可以在關於L 1和L 2的交替優化處理下使用簡單的梯度下降方法來解決。 我們利用隨機選擇樣本的簡單隨機策略來加快迭代速度,同時保持優化精度。特別的,對於每個正樣本,我們隨機挑選k(k<<M)負樣本。利用一個簡單的梯度下降法來學習目標函式的梯度為

    這裡,是邏輯損失函式的導數,在上述的公式中,根據[58],D是對角矩陣,第m個對角線元素為其中,表示L2的第m行。

           利用梯度,可以使用迭代優化演算法來學習度量。 從最初的相同矩陣開始,迭代地優化L 1和L 2。 在優化過程中,我們固定一個並更新另一個,如下所示:

        其中,是在每個梯度更新步驟中自動確定的步長。 演算法的迭代在達到最大迭代次數(本文中為1000)或符合以下標準時終止:

        其中,是一個小的正值,比如本文取。完整的演算法流程圖在演算法1中展示。

V. EXPERIMENTS

A. Datasets

     1)VIPeR資料集:廣泛使用的VIPeR資料集[55]包含從632人的兩個檢視中獲得的1264個室外影象。 一些示例影象顯示在圖5(a)中。 每個人分別具有從兩個不同相機拍攝的一對影象。 將所有個體影象標準化為128×48畫素的大小。 視角改變是更改外觀的最重要原因。 還包括其他變化,例如照明條件和影象質量。

    2)PRID 450S資料集:PRID 450S資料集[62]是與奧地利技術學院合作建立的,目的是測試行人再識別方法。 這是一個更現實的資料集,其中包含通過兩個空間不相交的攝像頭檢視捕獲的450個單個影象對。 所有影象均標準化為168×80畫素。 它也是一個具有挑戰性的人重新資料集。 與VIPeR資料集不同,此資料集具有顯著且一致的光照變化。 PRID 450S資料集中的一些示例如圖5(b)所示。

     3)CUHK01資料集:CUHK01資料集[63]是一個較大的資料集,包含來自兩個不相交的攝像機檢視的971個身份。 每個標識每個攝像機檢視有兩個樣本。 一些示例影象顯示在圖5(c)中。 共有3884張圖片。 所有影象均標準化為160×60畫素。 與VIPeR資料集類似,視點改變是外觀更改的最重要原因,大多數匹配的影象對包含一個前/後檢視和一個側檢視。 由於本文考慮了每個人的每個攝像頭檢視的單個代表性影象,因此我們在該資料集的實驗中為每個人的每個攝像機檢視隨機選擇一個影象。

      圖5.三個公共資料集的一些典型樣本。 每列顯示來自兩個不同相機的同一個人的兩張影象。 (a)VIPeR資料集。(b)PRID 450S資料集。 (c)CUHK01資料集。

B. Effectiveness of Discrepancy Matrix and Matrix Metric

1) Experimental Settings:

        為了評估所提出的方法,我們使用了GoG描述符[26]並證明了所提出的方法在改造手工製作特徵方面的有效性。 同時,鑑於計算機視覺應用中深度學習功能的成功,我們還進行了實驗,以證明所提方法對深度學習特徵的有效性。 FTCNN [56]描述符用於提取原始特徵描述。 這兩個特徵描述符的常規引數配置相同。 為了加速學習過程並降低噪聲,我們進行了PCA以獲得低維表示[33],比如在本次實驗中取70()。然後,差異矩陣使用低維的特徵向量產生。我們設定整個評估過程重複十次。CMC[38]曲線常用於計算效能的均值。為了公正地評價和顯示提出方法的有效性,我們為每個資料集構建了三個子集,包含訓練集,測試機和參考集。這三個子集是非重疊的,並且從整個資料集中隨機挑選的。

           1) VIPeR Dataset: 對於VIPeR資料集,對於VIPeR資料集,我們隨機選擇100個樣本對作為參考集(N r = 100)。 在一般設定之後,其中訓練和測試對的數量相同,分別來自其餘樣本的200個樣本對(M = 200和N = 200)。 得到的結果如圖6(a)和(d)所示。 可以看出,差異矩陣的效能優於特徵向量,並且所提出的DM ^ 3方法明顯優於整個範圍內的基本差異矩陣和特徵向量。

         2) PRID 450S Dataset: 在VIPeR資料集的評估過程之後,我們分別設定N r = 60,M = 150和N = 150.獲得的結果顯示在圖6(b)和(e)中。 很明顯,差異矩陣比特徵向量和提出的要好DM ^ 3方法明顯優於基本差異矩陣和特徵向量。

        3) CUHK01 Dataset: 在對VIPeR資料集的評估過程之後,我們分別設定N r = 100,M = 300和N = 300.圖6(c)和(f)給出了不同方法的比較結果。 在這個具有挑戰性的CUHK01資料集上,可以根據結果得出與其他兩個資料集相同的結論

        這些實驗證明,在具有不同特徵向量的不同資料集上,所提出的方法表現得非常好。

        圖6.特徵向量,差異矩陣描述和提出的DM ^ 3方法在三個公共資料集上的實驗結果,分別利用手工製作的特徵和深度特徵。 (a)使用GoG描述符的VIPeR資料集,(b)使用GoG描述符的PRID 450S資料集,(c)使用GoG描述符的CUHK01資料集,(d)使用FTCNN描述符的VIPeR資料集,(e)使用FTCNN描述符PRID 450S資料集的結果,以及(f)使用FTCNN描述符的CUHK01資料集。

C. Sparsity of the Interdiscrepancy Projection   

         如上所述,L 2的作用是稀疏地選擇對於差異更有用的典型參考。在先前的實驗集合中,我們在VIPeR資料集上學習了Nr = 100且M = 200的L 2。 圖7(a)顯示了L 2的結果。 從該圖中,我們可以看出L 2對於每列是相對稀疏的,也就是說在右乘法之後僅選擇了少數參考人。

       在圖7(b)中,我們通過分析投影權重列出了一些參考例子。 它們分別是選定的人和未選的人。 比較這些例子,我們認為如果人物影象對存在大的變化,例如不同的照明和背景變化,則由投影矩陣L2選擇的可能性很小。

     通過L 2的視覺化,該實驗表明,一些參考人員對於其他人的差異更有用,具有更多的辨別能力,並且帶來更少的噪聲。    

       圖7.類間投影的稀疏性分析。 (a)視覺化類間差異投影。 (b)典型的參考例子。 根據投影矩陣L 2的相應行的值來選擇這些示例。 左三列是示例,由具有高值(高權重)的L 2行稀疏地選擇。 右三列是具有較小可能性的示例。

D. Evaluating Parameters of the Proposed Method

       我們在不同引數下驗證了所提出的方法,包括評估類內差異投影矩陣的貢獻的不同引數N 1,以及用於類間差異投影矩陣的不同引數N 2。 該實驗在VIPeR資料集上進行,一般配置與前一實驗相同。

        我們將N2 = 100固定,並用不同的N1值進行實驗。然後,我們將N1 = 70固定,並用不同的N2值進行實驗。結果如圖8(a)和(b)所示。顯然,當N1> 6(N2> 4)時,雖然效能不穩定,但是使用所提出的具有不同N1(N2)值的矩陣度量學習過程仍然可以改善結果。為了一起學習投影L1和L2,我們利用交替優化和梯度下降法,其中不能保證全域性最優性。因此,它會使度量標準不完全準確,並且值可能會略有不同。與初始結果相比,在N1 = 1或N2 = 1的情況下,我們認為所提出的矩陣度量以較大的餘量證明了其有效性,並且可以接受小的變化。圖8(a)和(b)還表明N 1(N 2)不應太小,因為當維數低時,類內差異投影矩陣(類間差異投影矩陣)的度量約束將減小。

     圖8.所提方法的引數分析。 VIPeR資料集上的不同(a)N1s的結果,其中N 2 = 100並且(b)在VIPeR資料集上的N2 s,其中N1 = 70。

E. Comparison of the Discrepancy Matrix and the Discrepancy Vector

        通過利用參考集,可以通過多個差分來構建影象的差異描述。 我們在本文中將描述形成為矩陣。 實際上,它也可以重新形成一個長向量。 我們在VIPeR資料集上評估了這兩種差異描述。 隨機選擇50個樣品對作為參考組(Nr = 50)。 我們使用GoG描述符[26]作為原始特徵描述符,並進行PCA以獲得50-D表示(Nf = 50)。作為結果,差異矩陣的描述被定義為

相關推薦

Re-id via Discrepancy Matrix and Matrix MetricIEEE Transactions on Cybernetics 2017

Abstract         行人再識別(re-id)作為視訊監控和取證應用中的一項重要任務,已得到廣泛研究。先前用於解決行人再識別問題的研究工作主要集中於通過利用外觀特徵來構建穩健的向量描述,或者通過標記的向量來學習判別距離度量。基於人類的認知和識別過程,我們提出了一

Codeforces Round #365 (Div. 2) D - Mishka and Interesting sum離線樹狀數組

turn string 之前 algorithm printf ace r++ void contest http://codeforces.com/contest/703/problem/D 題意: 給出一行數,有m次查詢,每次查詢輸出區間內出現次數為偶數次的數字的異

【LeetCode-面試算法經典-Java實現】【106-Construct Binary Tree from Inorder and Postorder Traversal構造二叉樹II

struct ons node dcl 實現 ftl rsa tor var 【106-Construct Binary Tree from Inorder and Postorder Traversal(通過中序和後序遍歷構造二叉樹)】 【Lee

CS294-112深度增強學習課程加州大學伯克利分校 2017NO.2 optimal control and planning

技術分享 課程 ogr png amp LV planning control 大學 solved normally by sequential quadratic programming algorit

【CF613D】Kingdom and its Cities虛樹,動態規劃

-c www. AI gis IE long long als space gist 【CF613D】Kingdom and its Cities(虛樹,動態規劃) 題面 洛谷 CF 翻譯洛谷上有啦 題解 每次構建虛樹,首先特判無解,也就是關鍵點中存在父子關系。 考慮\(d

【CodeForces - 288C】Polo the Penguin and XOR operation 思維、異或運算

Little penguin Polo likes permutations. But most of all he likes permutations of integers from 0 to n, inclusive. For permutation&n

LeetCode題解:Best Time to Buy and Sell Stock致富有望???

題目 Say you have an array for which the ith element is the price of a given stock on day i. Design an algorithm to find the maximum profit. Y

牛客練習賽33 E. tokitsukaze and Similar String 字符串哈希

code har lan stdout kaze get names amp 字符 題目鏈接:https://ac.nowcoder.com/acm/contest/308/E 題意:中文題 見鏈接 題解:哈希預處理(三哈希模板) 1 #include <bits

629D Babaei and Birthday Cake 線段樹+DP裸題目

#include<bits/stdc++.h> using namespace std; #define debug puts("YES"); #define rep(x,y,z) for(int (x)=(y);(x)<(z);(x)++) #def

[LeetCode]121. Best Time to Buy and Sell Stock股票買賣的最佳時間

Say you have an array for which the ith element is the price of a given stock on day i. If you were only permitted to complete at most one trans

[Codeforces 438E]The Child and Binary Tree生成函式 + 多項式開平方

Address 洛谷 RemoteJudge Codeforces 438E Meaning 給定一個 n

Codeforces 842C Ilya And The Tree樹上DP+因子個數估計

C. Ilya And The Tree time limit per test2 seconds memory limit per test256 megabytes inputstandard input outputstandard output

【LeetCode-面試演算法經典-Java實現】【121-Best Time to Buy and Sell Stock最佳買賣股票的時間

原題   Say you have an array for which the ith element is the price of a given stock on day i.

CodeForces - 617E XOR and Favorite Number 莫隊+前綴和

con main 情況 前綴和 equal tex mda urn ctime Bob has a favorite number k and ai of length n. Now he asks you to answer m queries. Each query i

【 MATLAB 】norm ( Vector and matrix norms )向量範數以及矩陣範數

norm Vector and matrix norms Syntax n = norm(v) n = norm(v,p) n = norm(X) n = norm(X,p) n = norm(X,'fro') Description n = norm

Sonya and Matrix Beauty Codeforces - 1080E

https://codeforces.com/contest/1080/problem/E 比賽時候一個多小時碼不出來。。。 來看遇到的困難: 1.沒有能用的隨機unsignedlonglong函式 來一個可以A題的: ull splitmix64(ull x) { x += 0x9

論文筆記7--Re-IDVideo-based Person Re-identification via Self Paced Weighting

論文:《Video-based Person Re-identification via Self Paced Weighting》 http://mmap.whu.edu.cn/wp-content/uploads/2017/11/aaai-18_wenjun_huang.pdf 這是

Sonya and Matrix CodeForces - 1004D

http://codeforces.com/contest/1004/problem/D   題意:網格圖給定到中心點的曼哈頓距離陣列, 求該圖n,m及中心點位置   首先可以觀察到距離最大值mx一定在某個角上, 可將它調整到位置(n,m) 設中心點(x, y) 則可以得到 n-

R class of subset of matrix and data.frame

a = matrix(     c(2, 4, 3, 1, 5, 7), # the data elements     nrow=2,              # number of rows     ncol=3,              # number of columns     byrow =

Introduction to Matrices and Matrix Arithmetic for Machine Learning

Tweet Share Share Google Plus Matrices are a foundational element of linear algebra. Matrices ar