Deep Feature Flow for Video Recognition讀書筆記

阿新 • • 發佈：2019-01-07

摘要：本文主要提出了一個深度特徵流演算法，用於視訊的識別。它僅在稀疏的關鍵幀上執行計算量極大的卷積子網路，並通過流場將它們的深度特徵圖傳輸到其他幀。由於流計算方法相對較快，所以演算法得到了明顯的加速。整個框架的端到端的訓練明顯提升了識別的精度。
由於中間卷積特徵圖與輸入影象擁有相同的空間大小（通常以較小解析度，例如，16×更小）。它們保留了低階影象內容與中高階語義內容之間的空間對應關係。這種對應關係通過空間形變給附近幀之間的特徵傳播提供了機會，類似於光流法。
本文提出了深度特徵流演算法僅在稀疏的關鍵幀上執行計算量極大的卷積子網路，並通過流場將它們的深度特徵圖傳輸到其他幀。方法如下圖所示。兩個中間特徵圖分別對應“汽車”和“人”。它們在兩個相鄰幀上是相似的。從關鍵幀傳播到當前幀之後，傳播的特徵與原始特徵相似。

通常，流估計和特徵傳播比卷積計算迅速得多。當流場也由網路進行估計時，整個網路架構將被端對端地進行訓練，為識別任務同時優化影象識別網路和流網路，最後使得識別準確性得到顯著提升。

給定影象識別任務和前饋卷積網路N對輸入影象I的輸出的結果為 $y=N\left( I \right)$ 。我們的目標是將網路應用於所有視訊幀 $I_{i}$ ， $i=0,...,\infty$ 。

首先我們將N分解成兩個連續的子網路。第一個子網路 $N_{feat}$ ，被稱為特徵網路，是完全卷積網路，並輸出多箇中間特徵圖， $f=N_{feat}\left( I \right)$ 。第二個子網 $N_{task}$ ，被稱為任務網路，是根據任務的不同具有的特定結構，在特徵圖上執行識別任務， $y=N_{task}\left( f \right)$ 。

連續的視訊幀非常相似，在深度特徵圖中的相似性更強。我們利用相似性來降低計算成本。具體來說，特徵網路 $N_{feat}$ 只在稀疏的關鍵幀上執行。非關鍵幀 $I_{i}$

的特徵圖則由其上一個的關鍵幀 $I_{k}$ 的特徵圖傳播得到。

令 $M_{i\rightarrow k}$ 為二維流場，由流估計演算法[1,2] $F$ 獲得，其中， $M_{i\rightarrow k}=F\left( I_{k}, I_{i} \right)$ 。特徵圖被雙線性插值演算法調整到相同的空間解析度上進行傳播。它將當前幀 $i$ 中的位置 $p$ 投影到關鍵幀 $k$ 中的位置 $p+\delta p$ ，其中 $\delta p=M_{i\rightarrow k}\left( p \right)$ 。
由於 $\delta p$ 值通常為分數，因此通過雙線性插值來實現特徵的形變：

$f_{i}^{c}\left( p \right)=\sum_{q}{G\left( q,p+\delta p \right)f_{k}^{c}\left( q \right) } \left( 1 \right)$
其中 $c$ 為特徵圖 $f$ 中的通道， $q$ 枚舉了特徵圖中的所有的空間位置， $G\left( \cdot,\cdot \right)$ 表示雙線性插值的核心。注意， $G$ 是二維的，下式將其分成兩個一維的核心：

$G\left( q,p+\delta p \right)=g\left( q_{x},p_{x}+\delta p{x} \right) \cdot g\left( q_{y},p_{y}+\delta p{y} \right)\left( 2 \right)$

其中 $g\left( a,b \right) =max\left( 0,1-\left| a-b \right| \right)$

由於流估計錯誤等造成空間形變計算不準確。為了更好地近似特徵，它們的幅度由“尺度場” $S_{i\rightarrow k}$ 來調整，其空間維度和通道維度與特徵圖相同。“尺度場”通過在兩幀上應用“比例函式” $S$ 來獲得， $S_{i\rightarrow k}=S\left( I_{k},I_{i} \right)$

最後，特徵傳播函式定義為：

$f_{i}=W\left( f_{k},M_{i\rightarrow k},S_{i\rightarrow k} \right) \left(3 \right)$

其中 $W$ 對特徵圖中的所有位置和所有通道使用公式(1)，並讓特徵應用尺度 $S_{i\rightarrow k}$ 以元素方式進行倍增。

這種視訊識別的演算法稱為深度特徵流演算法，具體流程詳見下面的流程圖：

關鍵幀的調整：視訊識別加速的關鍵之一是何時分配新的關鍵幀。在這項工作中，我們使用簡單的固定關鍵幀，即關鍵幀持續時間長度 $l$ 是固定常數。本文在最後給挖了個坑，它提出影象內容的各種變化可能需要變化的 $l$ 來平滑的權衡精度和速度。理想情況下，當影象內容發生急劇變化時，應分配新的關鍵幀。如何設計有效且自適應的關鍵幀長度可以進一步提高識別的精度和速度。

Deep Feature Flow for Video Recognition讀書筆記

Deep Feature Flow for Video Recognition讀書筆記

Deep Feature Flow for Video Recognition

【論文筆記】視訊物體檢測(VID)系列 FGFA：Flow-Guided Feature Aggregation for Video Object Detection

《Dynamic Mode Decomposition for Real-Time Background/Foreground Separation in Video》讀書筆記

20.Flow-Guided Feature Aggregation for Video Object Detection

論文閱讀筆記二十四：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition（SPPNet CVPR2014）

2017-06-Deep Network Flow for Multi-Object Tracking-論文閱讀筆記

【筆記】SPP-Net : Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

Selective Search for Object Recognition 論文筆記【圖片目標分割】

Deep Residual Learning for Image Recognition

Multi-Fiber Networks for Video Recognition (MFNet)

【論文翻譯】ResNet論文中英對照翻譯--（Deep Residual Learning for Image Recognition）

ResNet: Deep Residual Learning for Image Recognition詳解

Deep Residual Learning for Image Recognition（譯）

Deep Feature Interpolation for Image Content Changes(基於深度特徵插值的影象屬性轉換方法)

SPP-net(Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition)

Linux 之父自傳《just for fun》讀書筆記

【論文閱讀】Rethinking Spatiotemporal Feature Learning For Video Understanding

《API Design for C++》讀書筆記(一)

SPP(Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition)

Deep Feature Flow for Video Recognition讀書筆記

相關推薦