Reinforced Temporal Attention and Split-Rate Transfer for Depth-Based Person Re-Identification 論文筆記

阿新 • • 發佈：2019-01-04

Reinforced Temporal Attention and Split-Rate Transfer for Depth-Based Person Re-Identification 論文筆記

一、提出問題

利用深度學習方法進行行人重識別時的資料稀缺問題
基於視訊的行人重識別
同一行人穿著不同的衣服時識別精度低

二、論文貢獻

為了解決資料稀缺問題，本文提出分流率RGB深度傳輸，以有效地利用來自大型RGB資料的預訓練模型，並學習強大的幀級特徵；
為了增強視訊序列的重新識別，本文提出了增強時間注意單元，它位於幀級功能之上，不依賴於網路架構。大量實驗表明，本文的方法在基於深度學習的行人重識別方面優於現有技術；

在行人更換衣服的情況下，本文的方法比基於RGB對應的方法更有效。

三、模型結構

2.1 輸入表示

整個系統的輸入為Kinect V2獲取的深度影象，影象中的每一個畫素，該影象包含從影象平面到特定座標（i，j）處的最近物件的笛卡爾距離（以毫米為單位）。在“預設範圍”設定中，間隔為[0,0.4m）和（8.0m，∞）被認為是未知測量，[0.4,0.8] [m]被視為“太近”，（4.0,8.0）[m]視為“太遠”，[0.8,4.0] [m]作為“正常”值。當骨架跟蹤有效時，身體指數由Kinect SDK提供，其中0對應於背景，正整數i對於屬於行人i的每個畫素。

在提取人物區域之後，“正常”區域內的測量值在[1,256]範圍內被歸一化，而“太遠”和“未知”範圍內的值被設定為256，並且“太近”範圍內的設定為1。實際上，為了避免將值集中在256附近，所以需要引入偏移

並歸一化

。“灰度”人物表示為

，當身體指數可用時，在深度區域Dp上部署Bp⊂B作為掩模，以便在應用範圍歸一化之前實現背景減法（參見圖3-1）。

圖3-1 灰度圖表示

3.2 模型結構

本文將行人重識別問題闡述為agent的順序決策過程，該agent通過視訊序列從部分可觀察的環境執行行人識別。在每個時間步內，agent通過深度相機觀察環境，基於深度卷積神經網路（CNN）計算特徵向量，並使用新的強化時間注意力（RTA）主動推斷當前幀對重識別任務的重要性。在CNN特徵之上，長短期記憶（LSTM）單元模擬短程時間動態。在每個時間步驟內，agent根據其分類任務的成功或失敗獲得獎懲，其目標是隨著時間的推移使得獎勵總和最大化。

圖 3-2 模型結構

Agent：問題設定是部分可觀察的馬爾可夫決策過程（POMDP），環境的真實狀態是未知的。agent學習隨機策略為，引數為，在每個步驟t中，過去歷史對離散動作的有兩種分佈：幀權重wt（子策略π1）和類後驗ct（子策略π2）。權重wt在時間t由RTA單元引數化的二進位制分佈隨機取樣：。類後驗分佈在分類器模組條件下，分類器模組附加到LSTM輸出。向量ht維持環境的內部狀態，是過去觀察的總結。為了簡單表示，時間t處的輸入影象表示為It，但實際輸入是人物區域Dp。

幀級特徵嵌入：假設深度資料很少但有大量的RGB資料可用於行人重識別，本文希望可以利用RGB資料來訓練幀級特徵提取的深度模型。深度神經網路底部卷積層的引數可以通過簡單的深度編碼直接在RGB和深度資料之間共享，也就是說深度為D的每個畫素都被複制到三個通道並編碼為（D，D，D），它對應於三個RGB通道，這使本文選擇預訓練的RGB模型。

本文采用Learning deep feature representations with domain guided dropout for person re-identification論文的模型進行幀級特徵提取，該網路在性質上類似於GoogleNet；包括BN和3×3卷積層，接著是6個Inception模組和2個全連線層。為了使該網路適用於本文得場景，需要進行兩處修改。第一，用256×N全連線層替換頂部分類層，其中N是目標資料集中的主體數量，並且其權重從具有標準偏差0.01的零均值高斯分佈隨機初始化；第二，在全連線的層之間添加了dropout正則化。

迴圈模組：長短期記憶（LSTM）單元能有效地對視訊識別和字幕生成進行時間動態建模。假設σ()是sigmoid函式，g [t]是時間幀t的輸入，h [t - 1]是模組的前一幀輸出，c [t - 1]是前一個單元，更新策略如下：

其中是每個門q從源s到目標q的權重矩陣，是q的偏差，i [t]是輸入門，f [t]是遺忘門，z [t]是輸入到單元格，c [t]是單元格，o [t]是輸出門，h [t]是該模組的輸出，x⊙y表示向量x和y的元素乘積。

強化時間注意力：在每個時間步驟t，RTA單元推斷影象幀It的重要性wt，因為It由特徵編碼gt表示。該模組由一個線性層組成，該線性層將256×1向量gt對映到一個標量，然後通過Sigmoid函式將值壓縮到[0,1]範圍內。wt由具有概率質量函式的伯努利隨機變數定義：

伯努利引數以Sigmoid輸出為條件，形成Bernoulli-Sigmoid單元。在訓練時，輸出得wt隨機取樣為{0,1}中的二進位制值。在評價時，wt不是從分佈中取樣，而是等於伯努利引數，即。

分類器和獎勵：分類器由整流線性單元序列、r = 0.4的dropout、全連線層和Softmax組成。引數層將256×1隱藏向量ht對映到N×1類後向量ct，其長度等於類N的數量。RTA注意力的multi-shot預測是幀級預測的加權和ct， RTA權重為。

Bernoulli-Sigmoid單元在訓練是是隨機的，所以需要基於強化學習演算法獲得反向傳播的梯度。獎勵函式定義為：

其中rt是原始獎勵，gt是幀t的真實類。因此，在每個時間步驟t，agent接收獎勵rt，當幀被正確分類時rt等於1，錯誤時等於0。

3.3 模型訓練

在實驗中，首先預訓練幀級特徵嵌入的引數，然後附加LSTM，RTA和新的分類器以訓練整個模型。在第二步，凍結嵌入的權重，同時隨機初始化新增的層。採用這種模組化訓練，可以進行single-shot和multishot的評估，如果僅處理視訊序列，則可以從頭開始對整個架構進行端對端訓練。然後，進行幀級嵌入的遷移學習，並使用具有時間注意力的遞迴模型的混合監督訓練演算法。

用於特徵嵌入的分速傳輸學習：為了利用大量RGB資料，本文的方法基於從RGB預訓練模型傳輸引數θg進行初始化。與前人研究不同的是，首先，本文發現即使RGB和深度是完全不同的模態（參見圖3-3），RGB模型的底層也可以與深度資料共享（無需微調）。其次，對RGB傳輸的引數進行微調比從頭開始訓練更有效。第三，對底層使用較慢（或零）的學習速率，對頂層使用較高的學習速率比在整個層級中使用統一的速率更有效。因此，本文的方法稱為分流率遷移。本文方法的視覺化見圖3-4，與Yosinski方法的對比結果見圖4-1。

圖3-3 RGB影象與深度影象

圖3-4視覺化結果

CNN-LSTM的混合學習和強化時間注意力：CNN-LSTM的引數{θg，θh，θc}是通過最小化LSTM單元上反向傳播整個網路的分類損失來學習的。為了將識別任務中的交叉熵損失降至最低，所以目標是在給定觀察值的情況下最大化真實標籤的條件概率，即最大化，其中是步驟t的真實類別。

學習CNN和RTA的引數{θg，θw}，以便agent最大化其總獎勵，這涉及計算期望超過所有可能序列的分佈，這是很難處理的。因此，樣本近似也就是強化學習規則，可以應用於建模子策略的Bernoulli-Sigmoid單元。給定概率質量函式和伯努利引數，梯度近似為：

其中，agent執行M episodes時得到序列i ，且是在收集樣本之後獲得的第i episode的累積獎勵。梯度估計由基線獎勵bt偏向以實現較低的方差。本文設定，因為Rti和bt之間的均方誤差也通過反向傳播最小化。

在每個步驟t，agent預測wt，並且獎勵訊號Rti評估agent對分類任務的有效性。強化策略更新增加了高於預期累積獎勵的動作的對數概率（如通過增加伯努利引數），否則，對於導致低獎勵的幀序列，對數概率降低。總之，agent共同優化累積獎勵和分類損失，這構成了混合監督目標。

四、實驗結果

資料集：DPI-T、BIWI、IIT PAVIS、TUM-GAID

結果：

圖3-5 與Yosinski方法進行對比

Reinforced Temporal Attention and Split-Rate Transfer for Depth-Based Person Re-Identification 論文筆記

Reinforced Temporal Attention and Split-Rate Transfer for Depth-Based Person Re-Identification 論文筆記一、提出問題利用深度學習方法進行行人重識別時的資料稀缺問題基於視訊的行人重識

CVPR 2017：See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification

network 測試 eee 分享 The 因此進行最大變化 [1] Z. Zhou, Y. Huang, W. Wang, L. Wang, T. Tan, Ieee, See the Forest for the Trees: Joint Spatial and

Reinforced Temporal Attention and Split-Rate Transfer for Depth-Based Person Re-Identification 論文筆記

Reinforced Temporal Attention and Split-Rate Transfer for Depth-Based Person Re-Identification 論文筆記

CVPR 2017：See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification

《Diversity Regularized Spatiotemporal Attention for Video-based Person Re-identification》論文翻譯

part-aligned系列論文：1707.Deeply-Learned Part-Aligned Representations for Person Re-Identification 論文筆記

論文筆記（5）--（Re-ID）Diversity Regularized Spatiotemporal Attention for Video-based Person Re-id

Attention-Aware Compositional Network for Person Re-identification論文精讀

Mask-guided Contrastive Attention Model for Person Re-Identification 詳解

行人重識別——《A Systematic Evaluation and Benchmark for Person Re-Identification Features, Metrics, and D》

【論文閱讀】Batch Feature Erasing for Person Re-identification and Beyond

Person Re-identification 系列論文筆記（二）：A Discriminatively Learned CNN Embedding for Person Re-identification

Human Semantic Parsing for Person Re-identification

Person Re-identification by Local Maximal Occurrence Representation and Metric Learning（LOMO+XQDA）

論文筆記（8）--（Re-ID）Camera Style Adaptation for Person Re-identification

論文筆記（3）--（Re-ID）In Defense of the Triplet Loss for Person Re-Identification

2014 CVPR-DeepReID Deep Filter Pairing Neural Network for Person Re-Identification

【Person Re-ID】Margin Sample Mining Loss: A Deep Learning Based Method for Person Re-identification

【論文筆記】Margin Sample Mining Loss: A Deep Learning Based Method for Person Re-identification

【論文筆記】In Defense of the Triplet Loss for Person Re-Identification

2017 ICCV-Pose-driven Deep Convolutional Model for Person Re-identification

CVPR2018論文翻譯 Human Semantic Parsing for Person Re-identification

Reinforced Temporal Attention and Split-Rate Transfer for Depth-Based Person Re-Identification 論文筆記

相關推薦