1. 程式人生 > >論文筆記(5)--(Re-ID)Diversity Regularized Spatiotemporal Attention for Video-based Person Re-id

論文筆記(5)--(Re-ID)Diversity Regularized Spatiotemporal Attention for Video-based Person Re-id

https://arxiv.org/pdf/1803.09882.pdf
這是一篇video base的Person Re-ID的工作。該論文主要集中在提取時空兩個方向的attention。

輸入一個視訊序列,使用約束的隨機取樣策略選擇一個子序列(6張圖片,見實驗部分),將子序列送入spatial attention模型生成多個判別性區域,然後使用temporal attention模型來加權池化這些判別性區域。最後將所有的時序特徵連線起來送入全連線層。

論文使用spatial attention模型自動提取那些具有判別性區域的身體部位,並使用多樣化的正則化項來保證各個spatial attention模型學習的身體部位不同。


Abstract

基於視訊的person re-id匹配非重疊相機的行人的視訊剪輯。大多數現有方法通過將每個視訊幀整體編碼並計算所有幀之間的聚合表示來解決這個問題。在實際應用中,行人經常存在部分遮擋,這會破壞所提取的特徵。相反,我們提出一中新的spatiotemporal attention model,可以自動發現各種獨特的身體部位。這允許從所有幀中提取有用的資訊,而不必受限於遮擋和失準(occlusions and misalignments)。網路學習多個spatial attention模型,並採用多樣性正則化項來確保多個模型不發現相同的身體部分。從區域性影象區域提取的特徵由spatial attention模型組織,並利用temporal attention進行組合。因此,網路使用來自整個視訊序列的最佳可用影象塊來學習面部、軀幹和其他身體部位的潛在表示。對三個資料集的廣泛評估表明,我們的框架在多個指標上超過了最先進的方法。

1. Introduction

person re-id將一個相機中的行人影象與另一個非重疊相機的行人影象進行匹配。近年來,這一任務由於其在監視[42]、活動分析[32]和跟蹤[47]等應用中的重要性而日益受到關注。由於相機視點、人體姿態、光照、遮擋和背景雜波的複雜變化,這仍然是一個具有挑戰性的問題。

本文研究了基於視訊的person re-id問題,它是re-id任務的推廣。演算法必須匹配視訊序列對(可能具有不同的持續時間),而不是匹配影象對。這種範例中的關鍵挑戰是開發每個視訊序列的良好的潛在特徵表示。

現有的基於視訊的person re-id方法將每個幀表示為特徵向量,然後使用平均或最大池計算跨時間的聚合表示[52,28,46]。不幸的是,在應用於遮擋頻繁的資料集時,有幾個缺點(圖1)。為每個影象生成的特徵表示常常被遮擋物的視覺外觀所破壞。然而,該行人的其餘可見部分可以為re-id提供強有力的提示。從這些不同的瞥見中集合一個人的有效表示應該是可能的。然而,跨時間聚合特徵並不簡單。一個人的姿勢會隨著時間的推移而改變,這意味著在比較從不同幀提取的特徵時,任何聚合方法都必須考慮空間錯位(除了遮擋)。

本文提出了一種新的spatiotemporal attention方案,有效地解決了基於視訊的person re-id的困難。我們不是直接編碼整個影象(或預定義的分解,如網格),而是使用多個spatial attention模型來定位判別影象區域,並使用使用temporal attention將這些提取的區域性特徵彙集在一起。我們的方法有幾個有用的特性:

  • spatial attention明確地解決了影象之間的對齊問題,並避免特徵被遮擋區域破壞。
  • 雖然許多有區別的影象區域與身體部位相對應,但太陽鏡、揹包和帽子之類的配件很普遍,對re-id很有用。由於這些類別很難預先定義,我們採用無監督學習方法,並讓神經網路自動發現一組判別物件部分檢測器(spatial attention models)。
  • 我們採用基於Hellinger距離的新的多樣性正則化項,以確保多個spatial attention模型不會發現相同的身體部分。
  • 我們使用temporal attention模型來計算由每個spatial attention模型提取的特徵的聚合表示。然後將這些聚合表示連線成最終的特徵向量,該特徵向量表示整個視訊中可用的所有資訊。

我們在三個具有挑戰性的re-id資料集上展示了該方法的有效性。我們的技術在多個評估指標下表現出了最先進的水平。

2. Related Work

person re-id首次被提出用於多攝像頭跟蹤[42,38]。Gheissari等人[11]設計了一個時空分割方法來提取視覺線索,並採用顏色和顯著邊緣進行前景檢測。這項工作將基於影象的person re-id定義為特定的計算機視覺任務。

基於影象的person re-id主要集中於兩方面:提取判別特徵[13,9,33,19,43]和學習魯棒度量[37,50,18,36,2]。近年來,研究人員提出了許多基於深度學習的方法[1,24,8,20,44]來處理這兩個方面。Ahmed等人[1]將一對裁剪的行人影象輸入到專門設計的CNN中用於person re-id,該CNN具有二進位制驗證損失函式。在[8]中,Ding等人在訓練深層神經網路時,採用triplet loss使同一個人之間的特徵距離最小化,使不同人之間的距離最大化。Xiao等[44]在單個CNN模型中聯合訓練行人檢測和person re-id。他們提出了一種線上例項匹配損失函式,該函式能夠更有效地學習大規模驗證問題中的特徵。

基於視訊的person re-id[35,52,46,41,53,34]是基於影象的方法的擴充套件。送給學習演算法的資料從一對影象變成了一對視訊序列。在[46]中,You等人提出一種基於類內差異最小化的頂推式遠端學習模型(top-push distance learning model accompanied by the minimization of intra-class variations),以優化高層次的匹配精度,實現person re-id。McLaughlin等[35]引入RNN模型對時間資訊進行編碼。利用時間池來選擇每個特徵維度上的最大啟用,並計算兩個視訊的特徵相似度。Wang等[41]從噪聲/不完整影象序列中選擇可靠的時空特徵,同時學習視訊ranking function。Ma等[34]對時空動態的多個粒度進行編碼,以生成每個人的潛在表示。為了在不精確序列和不完整序列之間選擇和匹配資料,匯出了時移動態時間扭曲模型。

person re-id的attention models。attention models[45,22,21]自[45]以來越來越來受歡迎。Zhou等人[52]通過建立端到端深度神經網路來組合空間和時間(spatial and temporal)資訊。attention models根據RNN的隱含狀態為輸入幀分配重要性分數。最後一個特徵是RNN輸出的時間平均池化(average pooling)。然而,如果以這種方式訓練,attention models的不同時間步長的相應權重趨向於具有相同的值。Liu等人[30]提出了一種多向注意模組(multi-directional attention module),利用全域性和區域性內容進行基於影象的person re-id。但是,聯合訓練多個注意力可能導致模式崩潰。網路必須經過仔細的訓練,以避免attention models集中在具有高冗餘度的相似區域。本文將spatial and temporal attentions結合到spatiotemporal attention models中,以解決基於視訊的person re-id問題。對於spatial attention,我們使用懲罰項來規範多個冗餘注意。我們利用temporal attention在每幀的基礎上對不同的顯著區域分配權重,以充分利用判別影象區域。我們的方法展示了更好的經驗效能,並分解為直觀的網路體系結構。

3. Method

我們提出了一種新的深度學習架構(圖2),通過自動將資料組織成一組一致的顯著子區域來更好地處理視訊re-id。給定輸入視訊序列,我們首先使用約束的隨機取樣策略來選擇視訊幀的子集(第3.1節)。然後將選擇的幀送到multiregion spatial attention 模組(第3.2節),以產生一組不同的判別空間門控視覺特徵(spatial gated visual features),每個特徵大致對應於人的特定顯著區域(第3.3節)。在視訊的持續時間內,每個顯著區域的整體表示都是使用temporal attention生成的(第3.4節)。最後,我們連線所有的時間門控特徵,並將它們送到表示原始輸入視訊序列的潛在時空編碼的全連線層。Xiao等人提出的OIM損失函式。[44],構建在FC層之上,以端到端的方式監督整個網路的訓練。然而,也可以採用任何傳統的損失函式(如softmax)。
在這裡插入圖片描述
3.1. Restricted Random Sampling
以前的基於視訊的person re-id方法[35,34,52]不對遠端時間結構建模,因為輸入的視訊序列相對較短。在某種程度上,由於連續視訊幀是高度相關的,並且從一個幀中提取的視覺特徵在短序列過程中不會發生顯著變化,因此這種範例僅比基於影象的重新識別稍微複雜一些。然而,當輸入視訊序列較長時,任何re-id方法都必須能夠應對隨時間的顯著視覺變化,例如相對於相機的不同身體姿勢和角度。

Wang等人[39]提出了一種時間片段網路來生成用於動作識別的視訊片段。受其啟發,我們提出一種約束的隨機取樣策略以期能夠獲得原始資料好的特徵表達。該方法能夠利用整個視訊序列的視覺資訊,同時避免連續幀之間的冗餘。給定一個輸入視訊V,將其按照相等時間劃分為N個塊{Cn}n=1,N。從每個塊Cn中隨機地對影象In進行取樣,即每個塊中隨機選擇1張圖片。然後,視訊由有序的一組取樣幀表示{In}n=1,N

ps:
1、該方法是分塊再隨機取樣,這過程中並沒有考慮所選擇圖片的質量,如果剛好選擇的圖片質量都很差,那是否會有影響?
2、論文中是對視訊分了6個塊,再從每個塊中隨機選擇1張圖片,那這6張圖應該還是具有時序資訊的啊。

3.2. Multiple Spatial Attention Models
我們使用多個spatial attention模型自動發現對re-id有用的具有判別性的區域(身體部位或配飾)。我們的方法不是預先定義輸入影象的剛性空間分解(例如網格結構),而是自動識別在多個訓練視訊中始終出現的每個影象中多個不相交的顯著區域。因為網路學習識別和定位這些區域(例如,自動發現一組物件部分檢測器),所以我們的方法減輕了由姿態變化、尺度變化和遮擋引起的配準問題。我們的方法不限於檢測人體部位。它可以集中於任何資訊豐富的影象區域,如帽子、袋子和在re-id資料集中經常發現的其他配飾。直接從整個影象生成的特徵表示很容易錯過細粒度的視覺資訊(圖1)。另一方面,多種多樣的spatial attention模型能夠同時發現有區別的視覺特徵,同時減少背景內容和遮擋的干擾。雖然spatial attention不是一個新概念,但據我們所知,這是首次設計一個網路來自動發現跨多個視訊一致的影象幀內的不同attention集合。

如圖2所示,我們採用ResNet-50 CNN結構[14]作為基礎模型,用於從每個取樣影象中提取特徵。CNN前面有一個卷積層(命名為conv1),後面是四個殘差塊。使用res5c提取的特徵為8×4網格的特徵向量{fn,l}l=1,L,其中L=32=8×4是網格單元的數量,每個特徵是D=2048維向量。

特徵向量經過兩次線性變換和一個ReLU啟用產生en,k,l。對於第k個模型,單元l的特徵向量產生的spatial attentionsn,k,l的數量由en,k,l確定。
在這裡插入圖片描述
經過第一次線性變換將原始資料投影到d=256維空間,而第二次變換對於每個cell產生一個標量值。最後的attention值通過softmax計算為:
在這裡插入圖片描述
集合Sn,k=[Sn,k,1,...,Sn,k,L]表示第k個spatial attention model在影象In上的感受野區域的權值。根據定義,每個感受野是一個概率質量函式:
在這裡插入圖片描述
對於每個影象In,通過attention權值加權平均可以得到K個空間門(spatial gated)視覺特徵{xn,k}k=1,K
在這裡插入圖片描述
每個門特徵表示輸入圖片的一個顯著性區域(圖3),由上面的式子可以發現,作者得到的區域Xn,k是將所有的cell做加權平均計算得到的,這樣的方式很難獲取具體的位置資訊,並且作者認為這樣對齊的區域也是粗糙的。
在這裡插入圖片描述
因此作者使用了類似於fine-grained的目標識別方法[26],使用了一個增強變數 。增強函式E()遵循了二階池化(second-order pooling)的工作[5]。有關詳細資訊,請參閱補充材料。
在這裡插入圖片描述
3.3. Diversity Regularization
由3.2中的推導可以發現,不同的attention model並沒有約束,這樣它們很可能產生同樣的判別性區域。在實際中,我們需要確保不同的spatial attention models去關注給定影象的不同區域。

由於每個感受野Sn,k具有概率解釋,因此一種解決方案是使用Kullback-Leibler散度來評價一個給定影象的感受野的多樣性。
定義矩陣Sn
在這裡插入圖片描述
K個spatial attention模型為影象In生成的感受野的集合
在這裡插入圖片描述
作者實驗證明,在softmax()函式之後,attention矩陣的許多值接近於零,並且當通過Kullback-Leibler發散中的log()操作時,這些小值急劇下降,這表明訓練過程是不穩定的[27]。

為了使得不同的spatial attention模型關注於不同的顯著區域,作者設計了一個懲罰項,用來衡量不同感受野之間的重疊,作者計算來兩個attention向量sn,isn,j的重疊區域,利用海林格(Hellinger)距離[4]來計算sn,isn,j的相似性。定義為:
在這裡插入圖片描述
為了確保感受野的多樣性,需要最大化sn,isn,j之間的距離,這相當於最小化
在這裡插入圖片描述
Rn
在這裡插入圖片描述
每個影象的感受野冗餘的正則項是:
在這裡插入圖片描述
其中||.||F表示矩陣的Frobenius範數,IK維單位矩陣。該正則項Q將乘以一個係數,並新增到原始OIM loss中。

關於多樣性正則化的變體(用於使用遞迴網路(recurrent networks)的文字嵌入[27]):
在這裡插入圖片描述

雖然QQ’有相似的表示式,但正則化效果非常不同。區別在於Q是基於
在這裡插入圖片描述
概率密度分佈的推導,而Q’適用於所有矩陣。Q’傾向於使Sn變得稀疏–使得非零元素都在Sn的對角線上。雖然Q’也能強制要求感受野不重疊,但它更聚焦於單個cell上。而Q則允許出現像“上身”這樣大的顯著區域。在第4.3節中,我們比較了兩個正則化項QQ’的效能。

3.4. Temporal Attention
回想一下,每個幀InK個增強的空間選通特徵的集合
在這裡插入圖片描述
表示,每個特徵由K個spatial attention模型之一生成。現在我們考慮如何最好地組合從各個幀中提取的這些特徵,以產生整個輸入視訊的緊湊表示。

不少基於視訊的論文都是對序列中的幀計算一個質量權值,而本文認為因為遮擋原因,使用權值平均是不夠魯棒的。
但是,實際上現在做平均的很多都是隻提取身體的部位再進行平均。
作者在前面也提到,為什麼選擇使用spatial attention找到顯著部位而不是精細設計的各個身體的部分。

作者應用多個temporal attention權重{tn, 1, ...tn, K}到每個幀每個空間分量。這樣temporal attention模型能夠基於不同顯著區域的優點來評估幀的重要性。僅對整個幀特徵進行操作的temporal attention模型很容易在具有中等遮擋的幀中丟失細粒度資訊。

類似地,基本的時間聚合(temporal aggregation)技術(與temporal attention模型相比),average pooling或max pooling通常會削弱或過分強調判別特徵的貢獻(無論是按幀還是按區域)。在作者的實驗中,作者在基於區域的基礎上利用average或max pooling,發現max pooling效果更好。

與spatial attention相似,關於圖片n的第k個空間成分的temporal attention tn,k定義為:
在這裡插入圖片描述
在這裡插入圖片描述
然後,通過加權平均,使用temporal attentions基於每個分量對增強的空間特徵進行門控:
在這裡插入圖片描述
最終的判別性的區域的特徵為:
在這裡插入圖片描述
最終的特徵將上述時序門特徵連線起來:
在這裡插入圖片描述
3.5. Re-Identification Loss
本文采用線上例項匹配損失函式(Online Instance Matching loss,OIM)[44]。通常,re-id使用多類softmax作為目標損失。因為batch中樣本數量遠小於訓練資料集中的id數量,因此網路引數更新可能存在偏差。
在OIM中,使用了一個查詢表來儲存所有訓練id的特徵。在前向傳播中,計算分類概率時,mini-batch會與所有id進行比較。
這種損失函式在訓練re-id網路時比softmax更有效。

4. Experiments

4.1. Datasets
4.2. Implementation details and evaluation metrics
4.3. Component Analysis of the Proposed Model
4.4. Comparison with the State-of-the-art Methods

5. Summary


Reference

https://zhuanlan.zhihu.com/p/35460367
https://zhuanlan.zhihu.com/p/36379467