1. 程式人生 > >CVPR 2017:See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification

CVPR 2017:See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification

network 測試 eee 分享 The 因此 進行 最大 變化

[1] Z. Zhou, Y. Huang, W. Wang, L. Wang, T. Tan, Ieee, See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification, 30th Ieee Conference on Computer Vision and Pattern Recognition, (Ieee, New York, 2017), pp. 6776-6785.

摘要:

監控相機廣泛應用不同場景。在不同相機下識別人的需求就是行人再識別。在計算機視覺領域最近得到了日益增加的關註,但對比與基於圖像的行人再識別方法很少有關註基於視頻。現有的工作通常包含兩個步驟,稱為特征學習與度量學習。同時很多方法並沒有充分利用時間信息與位置信息。在這篇論文中,我們關註與基於視頻的行人再識別並建立一個端對端的深度架構來聯合特征與度量的學習。我們提出的方法能夠使用一個時間註意力模型自動地從給定地視頻中挑選出最有區分力的幀。不僅如此,在衡量與另一個視頻的相似度時,使用一個空間循環模型結合每個位置周圍的信息。我們的方法使用一個聯合的方式同時處理時空信息。在三個公共數據集上的實驗表明了我們提出的深度網絡的每個組件的有效性,超過了最先進算法的表現。

總結:

在這篇論文中,我們提出了一個端對端的深層神經網絡結構,在衡量相似度時它結合了時間註意力模型來選擇對有區分力的幀的關註和一個空間循環模型來利用上下文信息。我們精心設計實驗來展示提出的方法的每個組件的有效性。與最先進方法相比,我們的方法表現更好,這表明提出的時間註意力模型對於特征學習,空間循環模型對於度量學習都是有效的。

在近幾年,為取得行人再識別的效果提升付出了很多努力。但是,這仍然與現實應用有很大的距離。現在的問題包括嚴重的遮擋與光照變化,人類姿態的無規則變化,不同人物的服飾顏色與紋理相似。此外,現在是時候強調行人再識別研究的最大限制是缺少非常大尺寸的數據集,其中存在許多實際問題,特別是深層網絡越來越流行。因此我們未來的工作就是盡可能收集更多的數據,覆蓋盡可能多的場景。

方法概述:

整體網絡結構如下圖所示,采用了三元序列作為網絡輸入,先經過AlexNet提取特征,將fc7的輸出餵入後面的時間註意力模型,時間註意力模型接受維的輸入,然後產生維的輸出。然後使用這塊的輸出構建triplet loss作為一個監督。

同時作者選擇了pool5層的輸出餵入到空間循環網絡,一次輸入正負對樣本,網絡的目標是判斷這一對是不是屬於同一個人,所以它是一個二分類模型。

最後整體的損失是這兩者的疊加,測試時使用下式作為排序依據。

技術分享圖片

技術分享圖片

下面介紹一下作者特殊設計的時間註意力模型(TAM)與空間循環模型SRM。

TAM的結構如下所示,輸入為圖片序列x的fc7層的T個特征圖。

技術分享圖片

這個輸入首先經過一個Attention層,它的結構為:

技術分享圖片

可以看出是一個維度的矩陣,最終的輸出是一個維度的矩陣,相當於經過這一步,就產生了對於原始序列的初步關註,作者使用了多個Attention塊,並且針對同一輸入產生的輸出不同,從上圖中可以看出不同的Attention塊唯一不共享的權重的是前一階段的隱藏狀態。繼而把這些初步關註的結果餵入到RNN中。每一步都將產生一個維的輸出,之後使用時間的平均池化得到TAM的輸出。

對於SRM它的目標是處理視頻間的度量學習,結構如下:

技術分享圖片

它接受pool5層的特征作為輸入,對於一對特征進行相減操作,這就相當於粗略地計算了兩個視頻序列的不同,然後再使用後續結構對這一信息進行加工總結。

首先作者經過了6個不同方向的空間RNN,作者沒有說明這裏的RNN結構只說明是使用LSTM實現的,可以看到RNN輸入輸出兩者的總維度相同,所以推斷這裏的LSTM應該是引出了每個循環體的輸出,然後堆疊在一起,接著作者把這個六個空間RNN結果堆疊在一起,相當於每個位置的深度上表達了從六個方向提取的信息,繼而使用一個1*1的卷積核總結這六個方向的信息,將其稱為上下文特征。作者說這樣做能夠對光照變化和遮擋不那麽敏感(??)。

技術分享圖片

CVPR 2017:See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification