Deep Feature Flow for Video Recognition讀書筆記
摘要:本文主要提出了一個深度特徵流演算法,用於視訊的識別。它僅在稀疏的關鍵幀上執行計算量極大的卷積子網路,並通過流場將它們的深度特徵圖傳輸到其他幀。由於流計算方法相對較快,所以演算法得到了明顯的加速。整個框架的端到端的訓練明顯提升了識別的精度。
由於中間卷積特徵圖與輸入影象擁有相同的空間大小(通常以較小解析度,例如,16×更小)。它們保留了低階影象內容與中高階語義內容之間的空間對應關係。這種對應關係通過空間形變給附近幀之間的特徵傳播提供了機會,類似於光流法。
本文提出了深度特徵流演算法僅在稀疏的關鍵幀上執行計算量極大的卷積子網路,並通過流場將它們的深度特徵圖傳輸到其他幀。方法如下圖所示。兩個中間特徵圖分別對應“汽車”和“人”。它們在兩個相鄰幀上是相似的。從關鍵幀傳播到當前幀之後,傳播的特徵與原始特徵相似。
通常,流估計和特徵傳播比卷積計算迅速得多。當流場也由網路進行估計時,整個網路架構將被端對端地進行訓練,為識別任務同時優化影象識別網路和流網路,最後使得識別準確性得到顯著提升。
給定影象識別任務和前饋卷積網路N對輸入影象I的輸出的結果為。我們的目標是將網路應用於所有視訊幀,。
首先我們將N分解成兩個連續的子網路。第一個子網路,被稱為特徵網路,是完全卷積網路,並輸出多箇中間特徵圖,。第二個子網,被稱為任務網路,是根據任務的不同具有的特定結構,在特徵圖上執行識別任務,。
令為二維流場,由流估計演算法[1,2]獲得,其中,。特徵圖被雙線性插值演算法調整到相同的空間解析度上進行傳播。它將當前幀中的位置投影到關鍵幀中的位置,其中。
由於值通常為分數,因此通過雙線性插值來實現特徵的形變:
其中為特徵圖中的通道,枚舉了特徵圖中的所有的空間位置,表示雙線性插值的核心。
注意,是二維的,下式將其分成兩個一維的核心:
其中
由於流估計錯誤等造成空間形變計算不準確。為了更好地近似特徵,它們的幅度由“尺度場”來調整,其空間維度和通道維度與特徵圖相同。“尺度場”通過在兩幀上應用“比例函式”來獲得,
最後,特徵傳播函式定義為:
其中對特徵圖中的所有位置和所有通道使用公式(1),並讓特徵應用尺度以元素方式進行倍增。
這種視訊識別的演算法稱為深度特徵流演算法,具體流程詳見下面的流程圖:
關鍵幀的調整:視訊識別加速的關鍵之一是何時分配新的關鍵幀。在這項工作中,我們使用簡單的固定關鍵幀,即關鍵幀持續時間長度是固定常數。本文在最後給挖了個坑,它提出影象內容的各種變化可能需要變化的來平滑的權衡精度和速度。理想情況下,當影象內容發生急劇變化時,應分配新的關鍵幀。如何設計有效且自適應的關鍵幀長度可以進一步提高識別的精度和速度。