1. 程式人生 > >Reinforced Temporal Attention and Split-Rate Transfer for Depth-Based Person Re-Identification 論文筆記

Reinforced Temporal Attention and Split-Rate Transfer for Depth-Based Person Re-Identification 論文筆記

Reinforced Temporal Attention and Split-Rate Transfer for Depth-Based Person Re-Identification 論文筆記

一、提出問題

  • 利用深度學習方法進行行人重識別時的資料稀缺問題
  • 基於視訊的行人重識別
  • 同一行人穿著不同的衣服時識別精度低

二、論文貢獻

  • 為了解決資料稀缺問題,本文提出分流率RGB深度傳輸,以有效地利用來自大型RGB資料的預訓練模型,並學習強大的幀級特徵 ;
  • 為了增強視訊序列的重新識別,本文提出了增強時間注意單元,它位於幀級功能之上,不依賴於網路架構。 大量實驗表明,本文的方法在基於深度學習的行人重識別方面優於現有技術;
  • 在行人更換衣服的情況下,本文的方法比基於RGB對應的方法更有效。

三、模型結構

2.1 輸入表示

整個系統的輸入為Kinect V2獲取的深度影象,影象中的每一個畫素,該影象包含從影象平面到特定座標(i,j)處的最近物件的笛卡爾距離(以毫米為單位)。在“預設範圍”設定中,間隔為[0,0.4m)和(8.0m,∞)被認為是未知測量,[0.4,0.8] [m]被視為“太近”,(4.0,8.0)[m]視為“太遠”,[0.8,4.0] [m]作為“正常”值。當骨架跟蹤有效時,身體指數由Kinect SDK提供,其中0對應於背景,正整數i對於屬於行人i的每個畫素。

在提取人物區域之後,“正常”區域內的測量值在[1,256]範圍內被歸一化,而“太遠”和“未知”範圍內的值被設定為256,並且“太近”範圍內的設定為1。實際上,為了避免將值集中在256附近,所以需要引入偏移

並歸一化。“灰度”人物表示為,當身體指數可用時,在深度區域Dp上部署Bp⊂B作為掩模,以便在應用範圍歸一化之前實現背景減法(參見圖3-1)。

圖3-1 灰度圖表示

3.2 模型結構

本文將行人重識別問題闡述為agent的順序決策過程,該agent通過視訊序列從部分可觀察的環境執行行人識別。在每個時間步內,agent通過深度相機觀察環境,基於深度卷積神經網路(CNN)計算特徵向量,並使用新的強化時間注意力(RTA)主動推斷當前幀對重識別任務的重要性。在CNN特徵之上,長短期記憶(LSTM)單元模擬短程時間動態。在每個時間步驟內,agent根據其分類任務的成功或失敗獲得獎懲,其目標是隨著時間的推移使得獎勵總和最大化。

圖 3-2 模型結構

Agent問題設定是部分可觀察的馬爾可夫決策過程(POMDP),環境的真實狀態是未知的。agent學習隨機策略為,引數為,在每個步驟t中,過去歷史對離散動作的有兩種分佈:幀權重wt(子策略π1)和類後驗ct(子策略π2)。權重wt在時間t由RTA單元引數化的二進位制分佈隨機取樣:。類後驗分佈在分類器模組條件下,分類器模組附加到LSTM輸出。向量ht維持環境的內部狀態,是過去觀察的總結。為了簡單表示,時間t處的輸入影象表示為It,但實際輸入是人物區域Dp。

幀級特徵嵌入假設深度資料很少但有大量的RGB資料可用於行人重識別,本文希望可以利用RGB資料來訓練幀級特徵提取的深度模型。深度神經網路底部卷積層的引數可以通過簡單的深度編碼直接在RGB和深度資料之間共享,也就是說深度為D的每個畫素都被複制到三個通道並編碼為(D,D,D),它對應於三個RGB通道,這使本文選擇預訓練的RGB模型。

       本文采用Learning deep feature representations with domain guided dropout for person re-identification論文的模型進行幀級特徵提取,該網路在性質上類似於GoogleNet;包括BN和3×3卷積層,接著是6個Inception模組和2個全連線層。為了使該網路適用於本文得場景,需要進行兩處修改。第一,用256×N全連線層替換頂部分類層,其中N是目標資料集中的主體數量,並且其權重從具有標準偏差0.01的零均值高斯分佈隨機初始化;第二,在全連線的層之間添加了dropout正則化。

迴圈模組長短期記憶(LSTM)單元能有效地對視訊識別和字幕生成進行時間動態建模。假設σ()是sigmoid函式,g [t]是時間幀t的輸入,h [t - 1]是模組的前一幀輸出,c [t - 1]是前一個單元,更新策略如下:

其中是每個門q從源s到目標q的權重矩陣,是q的偏差,i [t]是輸入門,f [t]是遺忘門,z [t]是輸入到單元格,c [t]是單元格,o [t]是輸出門,h [t]是該模組的輸出,x⊙y表示向量x和y的元素乘積。

強化時間注意力在每個時間步驟t,RTA單元推斷影象幀It的重要性wt,因為It由特徵編碼gt表示。該模組由一個線性層組成,該線性層將256×1向量gt對映到一個標量,然後通過Sigmoid函式將值壓縮到[0,1]範圍內。wt由具有概率質量函式的伯努利隨機變數定義:

伯努利引數以Sigmoid輸出為條件,形成Bernoulli-Sigmoid單元。在訓練時,輸出得wt隨機取樣為{0,1}中的二進位制值。在評價時,wt不是從分佈中取樣,而是等於伯努利引數,即

分類器和獎勵:分類器由整流線性單元序列、r = 0.4的dropout、全連線層和Softmax組成。引數層將256×1隱藏向量ht對映到N×1類後向量ct,其長度等於類N的數量。RTA注意力的multi-shot預測是幀級預測的加權和ct, RTA權重為

       Bernoulli-Sigmoid單元在訓練是是隨機的,所以需要基於強化學習演算法獲得反向傳播的梯度。獎勵函式定義為:

其中rt是原始獎勵,gt是幀t的真實類。因此,在每個時間步驟t,agent接收獎勵rt,當幀被正確分類時rt等於1,錯誤時等於0。

3.3 模型訓練

在實驗中,首先預訓練幀級特徵嵌入的引數,然後附加LSTM,RTA和新的分類器以訓練整個模型。在第二步,凍結嵌入的權重,同時隨機初始化新增的層。採用這種模組化訓練,可以進行single-shot和multishot的評估,如果僅處理視訊序列,則可以從頭開始對整個架構進行端對端訓練。然後,進行幀級嵌入的遷移學習,並使用具有時間注意力的遞迴模型的混合監督訓練演算法。

用於特徵嵌入的分速傳輸學習為了利用大量RGB資料,本文的方法基於從RGB預訓練模型傳輸引數θg進行初始化。與前人研究不同的是,首先,本文發現即使RGB和深度是完全不同的模態(參見圖3-3),RGB模型的底層也可以與深度資料共享(無需微調)。其次,對RGB傳輸的引數進行微調比從頭開始訓練更有效。第三,對底層使用較慢(或零)的學習速率,對頂層使用較高的學習速率比在整個層級中使用統一的速率更有效。因此,本文的方法稱為分流率遷移。本文方法的視覺化見圖3-4,與Yosinski方法的對比結果見圖4-1。

圖3-3 RGB影象與深度影象

圖3-4視覺化結果

CNN-LSTM的混合學習和強化時間注意力:CNN-LSTM的引數{θg,θh,θc}是通過最小化LSTM單元上反向傳播整個網路的分類損失來學習的。為了將識別任務中的交叉熵損失降至最低,所以目標是在給定觀察值的情況下最大化真實標籤的條件概率,即最大化,其中是步驟t的真實類別。

學習CNN和RTA的引數{θg,θw},以便agent最大化其總獎勵,這涉及計算期望超過所有可能序列的分佈,這是很難處理的。因此,樣本近似也就是強化學習規則,可以應用於建模子策略的Bernoulli-Sigmoid單元。給定概率質量函式和伯努利引數,梯度近似為:

其中,agent執行M episodes時得到序列i ,且是在收集樣本之後獲得的第i episode的累積獎勵。梯度估計由基線獎勵bt偏向以實現較低的方差。本文設定,因為Rti和bt之間的均方誤差也通過反向傳播最小化。

在每個步驟t,agent預測wt,並且獎勵訊號Rti評估agent對分類任務的有效性。強化策略更新增加了高於預期累積獎勵的動作的對數概率(如通過增加伯努利引數),否則,對於導致低獎勵的幀序列,對數概率降低。總之,agent共同優化累積獎勵和分類損失,這構成了混合監督目標。

四、實驗結果

資料集:DPI-T、BIWI、IIT PAVIS、TUM-GAID

結果:

圖3-5 與Yosinski方法進行對比