1. 程式人生 > >轉自新鮮出爐的知乎大神Hao Zhang的“視訊理解近期研究進展”

轉自新鮮出爐的知乎大神Hao Zhang的“視訊理解近期研究進展”

因為暑期實習需要做一些視訊理解相關的工作,這一領域還不太熟悉,今天中午在知乎看到知乎大神Hao Zhang更新了一篇文章。可以說對視訊理解領域的介紹與闡述非常詳細了,所以轉過來方便長久學習。

下面轉自大神的文章:

相比影象,視訊多了一維時序資訊。如何利用好視訊中的時序資訊是研究這類方法的關鍵。視訊理解可以用於多個領域,例如在智慧安防領域中可以取代人工來對監控視訊進行分析。本文簡要回顧視訊理解方面的近期研究進展,並對未來可能的研究方向作一展望。

常用資料集

視訊分類主要有兩種資料集,剪輯過(trimmed)的視訊和未經剪輯的視訊。剪輯的視訊中包含一段明確的動作,時間較短標記唯一,而未剪輯的視訊還包含了很多無用資訊。如果直接對未剪輯的視訊進行處理是未來的一大研究方向。

H. Kuehne, et al. HMDB: A large video database for human motion recognition. ICCV'11.

HMDB-51:6,766視訊,51類。剪輯的視訊,每個視訊不超過10秒。內容包括人面部、肢體、和物體互動的動作等。

K. Soomro, et al. UCF101: A dataset of 101 human action classes from videos in the wild. CRCV-TR-12-01'12.

UCF-101:13,320視訊,101類,共27小時。剪輯的視訊,每個視訊不超過10秒。內容包含化妝刷牙、爬行、理髮、彈奏樂器、體育運動等。

G. A. Sigurdsson, et al. Hollywood in homes: Crowdsourcing data collection for activity understanding. ECCV'16.

Charades:9.848視訊(7,985訓練,1,863測試),157類。未剪輯的視訊,每個視訊大約30秒。每個視訊有多個標記,以及每個動作的開始和結束時間。

A. Karpathy, et al. Large-scale video classification with convolutional neural networks. CVPR'14.

Sports-1M:1,100,000視訊(70%訓練、20%驗證、10%測試),487類,內容包含各種體育運動。

B. G. F. C. Heilbron, et al. ActivityNet: A large-scale video benchmark for human activity understanding. CVPR'15.

ActivityNet (v1.3):19,994視訊(10,024訓練,4,926驗證,5,044測試),200類,共648小時。未剪輯的視訊,內容包括飲食、運動、家庭活動等。

W. Kay, et al. The Kinetics human action video dataset. arXiv:1705.06950.

Kinetics:246k訓練視訊,20k驗證視訊,400類。Kinetics是一個大規模資料集,其在視訊理解中的作用有些類似於ImageNet在影象識別中的作用,有些工作用Kinetics預訓練模型遷移到其他視訊資料集。

S. Abu-El-Haija, N. Kothari, J. Lee, P. Natsev, G. Toderici, B. Varadarajan, and S. Vijayanarasimhan. YouTube-8M: A large-scale video classification benchmark. arXiv:1609.08675.

YouTube-8M:7M視訊,4716類,共450,000小時。不論是下載還是訓練都很困難。

G. A. Sigurdsson, et al. What actions are needed for understanding human actions in videos?. ICCV'17.

相比影象分類,視訊的類別/動作數目要少很多,而且常常有一定歧義,例如take和put要和後面名詞結合才會有具體含義(如take medication, take shoes, take off shoes)。Sigurdsson等人發現人類對這些動詞也容易感到混淆。另外,視訊中動作開始和結束的時間也不夠明確。

經典方法

H. Wang, et al. Dense trajectories and motion boundary descriptors for action recognition. IJCV'13.
H. Wang and C. Schmid. Action recognition with improved trajectories. ICCV'13.

Wang等人提出DT和iDT方法。DT利用光流得到視訊中的運動軌跡,再沿著軌跡提取特徵。iDT對相機運動進行了補償,同時由於人的運動比較顯著,iDT用額外的檢測器檢測人,以去除人對相鄰幀之間投影矩陣估計的影響。這是深度學習方法成熟之前效果最好的經典方法,該方法的弊端是特徵維度高(特徵比原始視訊還要大)、速度慢。實踐中,早期的深度學習方法在和iDT結合之後仍能取得一定的效果提升,現在深度學習方法的效能已較iDT有大幅提升,因此iDT漸漸淡出視線。

逐幀處理融合

這類方法把視訊看作一系列影象的集合,每幀影象單獨提取特徵,再融合它們的深度特徵。

A. Karpathy, et al. Large-scale video classification with convolutional neural networks. CVPR'14.

Karpathy等人把視訊劃分成很多固定長度的片段(clip),並設計了多種融合方法。

  • Single frame. 逐幀單獨前饋網路。
  • Late fusion. 兩幀相距15幀的影象分別前饋網路,並融合它們的深度卷積特徵。
  • Early fusion. 連續10幀影象前饋網路,因此網路第一層的卷積核由11×11×3變為11×11×3×10。Early fusion的思路最早由Le等人提出。
Le, et al. Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis. CVPR'11.
  • Slow fusion. 即使用3D卷積。連續10幀影象前饋網路,第一層卷積核時間方向大小為4,第二、三層卷積核時間方向大小為2。

此外,為了加速訓練,由於目標通常位於影象中心,Karpathy等人使用了一個兩分支網路:一個分支輸入空間大小下采樣減半的影象,另一個分支輸入原圖中心裁剪後的影象。這樣,總體的輸入影象維數只有原圖的一半。這兩個分支的深度卷積特徵拼接(concatenate)起來給全連線層進行分類。

實驗發現,3D卷積的融合效果最好,而不考慮運動資訊的single frame策略已經是十分強的baseline。Early fusion策略效果最差的原因可能是直接從輸入影象上捕獲運動資訊難度太大。

J. Y.-H. Ng, et al. Beyond short snippets: Deep networks for video classification. CVPR'15.

Ng等人先提取每一幀的深度卷積特徵,再設計特徵融合方法得到最終輸出。其中,紫色代表沿時間方向進行最大匯合(max-pooling),黃色代表全連線層,綠色代表3*3*10,stride 5的3D卷積,紅色代表softmax輸出。相比Karpathy等人,Ng等人的輸入視訊片段的長度更長(每秒取樣1幀,一個片段由120幀構成),包含了更多的時序資訊。實踐中發現(a)的效果最好。

B. Fernando and S. Gould. Learning end-to-end video classification with rank-pooling. ICML'16.

在得到每幀影象的深度卷積特徵 \boldsymbol v_t 之後,Fernando和Gould通過解如下的優化問題來對特徵進行排序匯合(rank-pooling)。其動機是靠前的幀 \boldsymbol u^\top \boldsymbol v_t 要小一些,而靠後的幀大一些。

X.-S. Wei, et al. Deep bimodal regression of apparent personality traits from short video sequences. TAC'17.

由於相鄰幀資訊冗餘度很高,Wei等人從視訊(450幀)中取樣100幀,每幀交由DAN分別進行預測。在得到relu5-2/pool5深度特徵之後,DAN將其全域性最大/平均匯合以得到深度特徵。

A. Kar, et al. AdaScan: Adaptive scan pooling in deep convolutional neural networks for human action recognition in videos. CVPR'17.

由於不同幀的重要性不同,Kar等人提出AdaScan匯合方法。其逐幀提取特徵,之後判斷不同幀的重要程度,並據此進行特徵匯合。

M. Zolfaghari, et al. ECO: Efficient Convolutional network for Online video understanding. arXiv:1804.09066.

Zolfaghari等人提出ECO。由於相鄰幀有資訊冗餘,ECO從視訊中取樣若干幀,每幀單獨用2D卷積提取特徵,之後沿時間方向拼接特徵,再用3D卷積捕獲它們的時序關係。ECO和state-of-the-art方法效能相似,但速度上快了10-80倍。在測試時,為了捕獲長距離依賴,輸入視訊片段由已看過的和未看過的視訊中取樣得到。

ConvLSTM

這類方法是用CNN提取每幀影象的特徵,之後用LSTM挖掘它們之間的時序關係。

J. Y.-H. Ng, et al. Beyond short snippets: Deep networks for video classification. CVPR'15.
J. Donahue, et al. Long-term recurrent convolutional networks for visual recognition and description. CVPR'15.

Ng等人在深度特徵上,用5層隱層結點數512的LSTM來提取深度特徵,每個時刻都進行輸出。訓練時,一個片段從第1幀到最後一幀輸出層獲得的梯度分別乘以0.0-1.0的權重,用以強調後面幀的重要性。測試時,計算這些幀輸出的加權和。Donahue等人也提出了類似的工作。此外,Ng等人和Donahue等人還利用了光流輸入。把x、y兩個方向的光流縮放到[0, 255]作為光流影象前兩個通道,把光流的大小作為第三個通道。

W. Du, et al. RPAN: An end-to-end recurrent pose-attention network for action recognition in videos. ICCV'17.

Du等人利用人體姿態估計輔助動作識別。

3D卷積

把視訊劃分成很多固定長度的片段(clip),相比2D卷積,3D卷積可以提取連續幀之間的運動資訊。

在視訊動作識別中最早提出3D卷積的是

M. Baccouche, et al. Sequential deep learning for human action recognition. HBU Workshop'11.
S. Ji, et al. 3D convolutional neural networks for human action recognition. TPAMI'13.

Baccouche等人使用第一層卷積核時間方向大小為5。Ji等人使用第一、二層卷積核時間方向大小為3,第三層卷積時由於時間維度大小很小,所以採用2D卷積。

此外,為使網路獲得更多先驗資訊,Ji等人使用了兩個技巧:(1). 同時使用原始影象、影象梯度、和相鄰幀光流作為輸入。(2). 讓網路額外地學習運動資訊接近手工運動特徵。

D. Tran, et al. Learning spatio-temporal features with 3D convolutional networks. ICCV'15.

Tran等人提出C3D,其將3×3卷積擴充套件到3×3×3卷積,2×2匯合擴充套件到2×2×2匯合。輸入片段16幀。實驗中發現,時域方向卷積核大小為3效果最好。相比2D CNN,3D CNN的引數量很大,訓練變得更困難,且需要更多的訓練資料。相比其他型別的方法,C3D一次處理多幀,所以計算效率很高。

L. Sun, et al. Human action recognition using factorized spatio-temporal convolutional networks. ICCV'15.

Sun等人把3D卷積分解為空間方向2D卷積和時間方向1D卷積。

J. Carreira and A. Zisserman. Quo vadis, action recognition? A new model and the Kinetics dataset. CVPR'17.

Carreira和Zisserman提出I3D,把two-stream結構中的2D卷積擴充套件為3D卷積。由於時間維度不能縮減過快,前兩個匯合層的卷積核大小是1×2×2,最後的匯合層的卷積核大小是2*7*7。和之前文章不同的是,two-tream的兩個分支是單獨訓練的,測試時融合它們的預測結果。

Z. Qiu, et al. Learning spatio-temporal representation with pseudo-3D residual networks. ICCV'17.

Qiu等人提出P3D,用一個1×3×3的空間方向卷積和一個3×1×1的時間方向卷積近似原3×3×3卷積。通過組合三種不同的模組結構,進而得到P3D ResNet。P3D ResNet在引數數量、執行速度等方面對C3D作出了優化。

D. Tran, et al. A closer look at spatio-temporal convolutions for action recognition. CVPR'18.

Tran等人提出ResNet (2+1)D,把一個3D卷積分解成為一個2D卷積空間卷積和一個1D時間卷積,注意這裡的引數量和原3D卷積相同。相比P3D有三種形式,(2+1)D和P3D-A最接近。

C. Lea, et al. Temporal convolutional networks for action segmentation and detection. CVPR'17.

受WaveNet啟發,Lea等人提出一個編碼-解碼網路,並使用空洞卷積和短路連線,以捕獲長距離依賴。實驗中發現,這種結構效果優於RNN。

L. Wang, et al. Appearance-and-relation networks for video classfication. CVPR'18.

Wang等人希望利用3D卷積顯式地學習類似two-stream的結構。Wang等人通過不同幀之間的乘性關係度量不同幀之間的關係。

K. Hara, et al. Can spatio-temporal 3D CNNs retrace the history of 2D CNNs and ImageNet? CVPR'18.

ImageNet預訓練的2D CNN在多種視覺任務上取得了成功,Hara等人嘗試了多種Kinetics預訓練的3D CNN模型遷移到其他資料集上的表現。發現直接用3D ResNet-18訓練UCF-101,HMDB-51,和ActivityNet會過擬合,而Kinetics不會。利用Kinetics預訓練模型會提升其他資料集的效能。

X. Wang, et al. Non-local neural networks. CVPR'18.

可以看作是3D卷積的一個擴充套件。3D卷積的感受野是有限區域,而non-local旨在解決長距離依賴問題。Non-local的響應是所有空間和時間位置特徵的加權平均

\boldsymbol y_i := \frac{1}{C(\boldsymbol x_i)} \sum_j f(\boldsymbol x_i, \boldsymbol x_j) \boldsymbol g(\boldsymbol x_j)

其中, f(\boldsymbol x_i, \boldsymbol x_j) 用於度量相似性, \boldsymbol g(\boldsymbol x_j) 計算響應, C(\boldsymbol x_i) 用於歸一化。當 f(\boldsymbol x_i, \boldsymbol x_j) =w_{ij}, \boldsymbol g(\boldsymbol x_j) = \boldsymbol x_j時,non-local操作退化為全連線層;當 f(\boldsymbol x_i, \boldsymbol x_j) =\exp\boldsymbol x_i^\top\boldsymbol x_j 時,non-local操作 \boldsymbol y_i = \mathrm{softmax}(\boldsymbol x_i^\top \boldsymbol x_j) \boldsymbol g(\boldsymbol x_i) 退化為self-attention。實驗中發現non-local block加在底層比加在高層效果要好,加多個non-local blocks會有效果提升但不是很明顯。

這類方法的弊端是隻能考慮比較短的時間片段的運動資訊,引數量?

Two-stream

K. Simonyan and A. Zisserman. Two-stream convolutional networks for action recognition in videos. NIPS'14.

採用兩個分支。一個分支輸入單幀影象,用於提取影象資訊,即在做影象分類。另一個分支輸入連續10幀的光流(optical flow)運動場,用於提取幀之間的運動資訊。由於一個視訊片段中的光流可能會沿某個特別方向位移的支配,所以在訓練時光流減去所有光流向量的平均值。兩個分支網路結構相同,分別用softmax進行預測,最後用直接平均或SVM兩種方式融合兩分支結果。

此外,為了加速訓練,Simonyan和Zisserman預先計算出光流並儲存到硬碟中。為了減小儲存大小,他們將光流縮放到[0, 255]後用JPEG壓縮,這會使UCF101的光流資料大小由1.5TB減小到27GB。

L. Wang, et al. Action recognition with trajectory-pooled deep-convolutional descriptors. CVPR'15.

Wang等人結合了經典iDT手工特徵和two-stream深度特徵,提出TDD。經典手工特徵計算時通常分兩步:檢測影象中顯著和有資訊量的區域,並在運動顯著的區域提取特徵。TDD將預訓練的two-stream網路當作固定的特徵提取器。得到兩者特徵之後,TDD使用時空規範化以保證每個通道的數值範圍近似一致,使用通道規範化以保證每個時空位置的描述向量的數值範圍近似一致,之後用trajectory pooling並用Fisher向量構建TDD特徵,最後用SVM分類。

C. Feichtenhofer, et al. Convolutional two-stream network fusion for video action recognition. CVPR'16.

Feichtenhofer等人研究如何融合兩分支的深度卷積特徵。他們發現級聯兩個特徵到2D維再用1×1卷積到D維的融合方法效果最好,之後再經過3D卷積和3D匯合後輸出。

C. Feichtenhofer, et al. Spatio-temporal residual networks for video action recognition. NIPS'16.

Feichtenhofer將ResNet作為two-stream的基礎網路架構,用預訓練網路的權重初始化新的3D網路:w(d, t, i, j) = w(d, i, j) / T。此外,有從光流分支到影象分支的資訊傳遞。此外,網路輸入不是連續的,而是步長5到15幀。

C. Feichtenhofer, et al. Spatio-temporal multiplier networks for video action recognition. CVPR'17.

Feichtenhofer等人發現,two-stream網路在外觀分支容易過擬合。Feichtenhofer等人加入了兩個分支之間的資訊互動,並發現乘性的資訊互動效果最好。

L. Wang, et al. Temporal segment networks: Towards good practices for deep action recognition. ECCV'16.

由於相鄰的幀資訊冗餘度很高,對視訊密取樣是不必要的。Wang等人提出TSN結構,其對視訊進行稀疏取樣,在避免冗餘資訊的同時可以處理長距離依賴。TSN把輸入視訊分成K段,每段隨機選擇一個視訊片段(snippet),之後用two-stream結構提取特徵再融合。TSN取得了ActivityNet 2016年競賽的冠軍。

此外,除RGB和光流影象輸入外,TSN還嘗試了RGB difference和warped光流兩種輸入,最終發現RGB+光流+扭曲(warped)光流的效果最好。

Z. Lan, et al. Deep local video feature for action recognition. CVPR'17.

由於不是視訊中每幀都包含有用資訊,Lan等人首先用TSN提取區域性特徵,之後再進行聚合。

R. Girdhar, et al. ActionVLAD: Learning spatio-temporal aggregation for action recognition. CVPR'17.

類似於NetVLAD,Girdhar等人用two-stream提取特徵,之後用VLAD得到視訊的表示。實驗中發現,影象和光流兩個分支單獨處理效果最好。

G. A. Sigurdsson, et al. Asynchronous temporal fields for action recognition. CVPR'17.

Sigurdsson等人利用全連線時序CRF對視訊的時序關係進行推斷。

W. Zhu, et al. A key volume mining deep framework for action recognition. CVPR'16.

一段視訊中並非所有的幀都對識別任務同等重要,如果把它們同等看待,有價值的幀資訊會淹沒在其他無關的幀中。藉助多示例學習思路,Zhu等人交替優化關鍵幀挖掘和分類兩個目標。網路輸入N個視訊片段,輸出每個片段對應每個類別的分數。如果該類別對應真實標記,採用隨機匯合,否則是maxout匯合,其中響應最強的視訊片段即為得到的關鍵幀。

Y. Wang, et al. Spatio-temporal pyramid network for video action recognition. CVPR'16.

Wang等人利用雙線性匯合融合兩個分支的特徵。

A. Diba, et al. Deep temporal linear encoding networks. CVPR'17.

Diba等人對不同幀/片段的深度卷積特徵逐元素相乘,再通過精簡雙線性匯合得到最終的特徵表示。

R. Girdhar and D. Ramanan. Attentional pooling for action recognition. NIPS'17.

將雙線性匯合用於TSN的影象分支。在得到深度卷積特徵 \boldsymbol X\in\mathbb R^{D\times HW} 之後,經典雙線性匯合會計算輸入屬於第 k 個類的分數 s_k := (\mathrm{vec} \boldsymbol X\boldsymbol X^\top)^\top(\mathrm{vec} \boldsymbol W_k) 。Girdhar和Ramanan對引數矩陣 \boldsymbol W_k 做了一個秩-1近似

s_k := (\mathrm{vec} \boldsymbol X\boldsymbol X^\top)^\top(\mathrm{vec} \boldsymbol W_k) = \mathrm{tr} \boldsymbol X\boldsymbol X^\top \boldsymbol W_k \approx \mathrm{tr} \boldsymbol X\boldsymbol X^\top \boldsymbol a_k \boldsymbol b^\top = \boldsymbol b^\top\boldsymbol X\boldsymbol X^\top \boldsymbol a_k = (\boldsymbol X^\top \boldsymbol b)^\top (\boldsymbol X^\top \boldsymbol a_k)

實驗中, Girdhar和Ramanan將224大小的HMDB-51縮放到450大小,以確保最後的深度卷積特徵大小不會太小(14×14)。當特徵大小太小時,效果不顯著。另一方面,Girdhar和Ramanan只用了影象分支來處理視訊,總體效能和state-of-the-art還有很大差距。

I. C. Duta, et al. Spatio-temporal vector of locally max-pooled features for action recognition in videos. CVPR'17.

Duta等人研究如何聚合不同特徵。

C.-Y. Wu, et al. Compressed video action recognition. CVPR'18.

Wu等人發現:(1). 視訊中有很多的冗餘資訊,這會網路難以提取有用的特徵。(2). 相比只利用RGB資訊,使用光流總是能提升效能。相比之前工作將視訊解碼為RGB影象幀,如果直接輸入壓縮視訊(如MPEG,H.264等),可以“免費”地利用這些編碼格式中得到的運動資訊。視訊在壓縮時會把幀分為I幀(儲存原始影象)和P幀(儲存和參考幀之間的相對運動資訊和殘差,參考幀可能是I幀也可能是P幀)。I幀可以直接用深度神經網路架構進行處理,而如何對P幀資訊進行處理是這類方法的難點所在。

Wu等人通過將運動向量追溯到I幀來去除P幀對P幀的依賴,之後對I幀、P幀的運動資訊和殘差分別前饋網路。在特徵融合部分,Wu等人發現直接相加效果最好。實際中,為降低計算開銷,Wu等人使用一個大網路(preResNet-152)處理I幀,用一個小網路(preResNet-18)處理P幀。

P. Weinzaepfel, et al. DeepFlow: Large displacement optical flow with deep matching. ICCV'13.
A. Dosovitskiy, et al. FlowNet: Learning optical flow with convolutional networks. ICCV'15.
E. Ilg, et al. FlowNet 2.0: Evolution of optical flow estimation with deep networks. CVPR'17.

由於經典光流演算法很慢,因此有工作致力於使用深度神經網路計算光流。DeepFlow在不同粒度上進行聚合和匹配,FlowNet基於類似於視覺跟蹤的思路使用互相關濾波綜合兩張圖的深度特徵最終生成光流。由於標記資料不足,FlowNet使用人工合成Chairs資料集進行訓練。FlowNet 2.0的貢獻有三點。(1). 發現如何進行訓練對結果影響至關重要,先在簡單的Chairs資料集上訓練、再在更真實的Things3D上訓練會比混合兩個資料集一起訓練效果更好。(2). 多個子網路堆疊,並用中間光流結果對影象進行扭曲輸入中間子網路。(3). 有一個子網路專注於微小運動。

其他視訊理解任務

時序動作定位(temporal action localization) 在一段未剪輯的視訊中找到動作開始和結束的時間,並對動作進行分類。

Z. Shou, et al. Temporal action localization in untrimmed videos via multi-stage CNNs. CVPR'16.

Shou等人提出SCNN,用不同大小的滑動窗產生視訊片段,之後用3D候選區域網路判斷該視訊片段是前景/背景,用3D分類網路判斷K+1個類別的分數(包括背景),最後用定位網路判斷開始/結束時間。後處理使用非最大抑制(NMS)。

J. Gao, et al. TURN TAP: Temporal unit regression network for temporal action proposals. ICCV'17.

思路類似於Faster R-CNN。

H. Xu, et al. R-C3D: Region convolutional 3D network for temporal activity detection. ICCV'17.

以C3D網路為基礎,借鑑Faster R-CNN,對輸入視訊片段先提取特徵,再生成提取候選時序,最後RoI匯合後進行檢測。

Z. Shou, et al. CDC: Convolutional-de-convolutional networks for precise temporal action localization in untrimmed videos. CVPR'17.

類似於語義分割問題的思路,為了得到對應於每一幀的分類預測分數,Shou等人在3D卷積層之後提出CDC卷積,在空間方向用卷積進行下采樣,在時間方向上用轉置卷積進行上取樣。

L. Wang, et al. UntrimmedNets for weakly supervised action recognition and detection. CVPR'17.

分類模組用於對每個視訊片段進行分類,而選擇模組用於給出不同視訊片段的重要性。選擇模組的實現包括hard selection和soft selection。訓練時端到端聯合優化。

Y. Zhao, et al. Temporal action detection with structured segment networks. ICCV'17.

Zhao等人提出SSN,講視訊分為三個部分,最終構成全域性特徵。分類時有動作性分類器和完整性分類器。

異常檢測(anomaly detection) 通常用於判斷監控視訊中出現的異常事件。

W. Sultani, et al. Real-world anomaly detection in surveillance videos. CVPR'18.

由於訓練時只知道一段視訊中有/沒有異常,而異常事件的種類和發生時刻未知,Sultani等人利用多示例學習,將異常檢測問題轉化為一個迴歸排序問題,讓異常樣本的排序值高於普通樣本,訓練時讓正負樣本之間的距離儘可能遠。

視訊摘要與視訊濃縮(video summarization and video synopsis) 視訊摘要是從原始視訊中提取有代表性的關鍵幀,而視訊濃縮將多幀視訊合併成一幀。

M. Gygli, et al. Creating summaries from user videos. ECCV'14.
X. Li, et al. Surveillance video synopsis via scaling down objects. TIP'16.

"看視訊說話"(video captioning) 基本思路和看圖說話一致,用編碼網路提取視訊資訊,用解碼網路生成文字描述。

S. Venugopalan, et al. Sequence to Sequence–Video to Text. ICCV'15.

第一視角視訊(first-person video) 研究第一視角視訊可以用於自動駕駛、機器人導航等。

T. Yagi, et al. Future person localization in first-person videos. CVPR'18.

Yagi等人提出行人位置預測任務,即根據行人歷史資訊,預測下一幀行人的位置。Yagi等人用1D時域卷積來融合不同幀的特徵。

視訊生成(next frame generation) 有工作利用生成式模型對視訊進行生成。

M. Mathieu, et al. Deep multi-scale video prediction beyond mean square error. ICLR'16.
C. Vondrick, et al. Generating videos with scene dynamics. NIPS'16.

目標跟蹤(object tracking) 給定視訊第一幀中目標的位置(以包圍盒的形式),我們需要預測其他幀中該目標的包圍盒。目標跟蹤類似於目標檢測,但目標跟蹤的難點在於事先不知道要跟蹤的目標具體是什麼,因此無法事先收集足夠的訓練資料以訓練一個專門的檢測器。一種研究思路是利用孿生網路,一支輸入第一幀包圍盒內影象,另一支輸入其他幀的候選影象區域,通過互相關操作(卷積),得到二維的響應圖,其中最大響應位置確定了需要預測的包圍盒位置。

L. Bertinetto, et al. Fully-convolutional siamese networks for object tracking. ECCV'16 Workshop.
M. Danelljan, et al. ECO: Efficient Convolution Operators for tracking. CVPR'17.
E. Valmadre, et al. End-to-end representation learning for correlation filter based tracking. CVPR'17.

可能的未來方向

  • 利用多示例學習進行視訊分析。未剪輯視訊中有很多無關內容,並非視訊中所有的幀都對應於該視訊標記,這符號多示例學習的設定。雖然Zhu等人在CVPR'16和Kar等人在CVPR'17的工作中對這方面已有一些探索,但仍有後續精進的空間。
  • 精度與效率。Two-stream和3D卷積的方法相比,大致來說前者的效果更好,但前者需要逐幀影象前饋網路,而後者一次可以處理多幀,因此前者效率不如後者,尤其是預先計算並儲存光流是一個很繁重的負擔。如何能同時利用兩者的優點是未來一個可能的研究方向,Feichtenhofer等人在CVPR'16已有初步的工作。LSTM能捕獲的長距離依賴程度有限,並且更難訓練,速度也更慢,因此ConvLSTM的方法在視訊分析中用的不多。
  • 資源受限下的視訊分析。相比影象資料,處理視訊資料需要更大的計算和儲存資源。現實應用中很多是資源受限的,如何在這種場景下進行視訊分析是一大挑戰。將視訊解壓為能輸入網路的一幀幀影象也需要不小的資源開銷,Wu等人在CVPR'18提出直接利用原始視訊輸入,並利用視訊壓縮編碼中的運動資訊。
  • 更大、更通用資料集。哪種方法更好和用什麼資料集(解決什麼任務)有很大關係。如果視訊本身就比較靜止,或者單幀影象已經包含了足夠的資訊,那麼用逐幀單獨處理的策略已經可以取得很好的結果。
  • 視訊=影象+音訊。視訊是一種多模態的資料形式,能否利用音訊資訊輔助視訊分析呢。Aytar等人在NIPS'16的工作中利用影象輔助音訊分析。
Y. Aytar, et al. SoundNet: Learning sound representations from unlabeled video. NIPS'16.

最後列出一些相關的綜述文章。其中Tran等人實驗研究了不同取樣步長、不同輸入大小、不同網路配置等對效能的影響。

Z. Wu, et al. Deep learning for video classification and captioning. arXiv: 1609.06782.
D. Tran, et al. ConvNet architecture search for spatio-temporal feature learning. arXiv: 1708:05038.
M. Asadi-Aghbolaghi, et al. A survey on deep learning based approaches for action and gesture recognition in image sequences. FG'17.
S. Herath, et al. Going deeper into action recognition: A survey. IVC'17.