[NIPS 2018論文筆記] 軌跡卷積網路 TrajectoryNet

NIPS 深度學習計算機視覺 · 發表 2018-12-05 16:55:23

摘要：行為識別（視訊分類）是視訊理解領域非常重要的一個方向。在深度學習之前，效果最好的行為識別方法是iDT（改進的密集軌跡方法），即先在影象中生成密集的軌跡，再沿著軌跡提取特徵，從而獲得視訊整體的編碼。而在深度學習時代，佔主流地位的則為兩類方法，一是雙流網路，用兩個子網路分別對影象和光流進...

行為識別（視訊分類）是視訊理解領域非常重要的一個方向。在深度學習之前，效果最好的行為識別方法是iDT（改進的密集軌跡方法），即先在影象中生成密集的軌跡，再沿著軌跡提取特徵，從而獲得視訊整體的編碼。而在深度學習時代，佔主流地位的則為兩類方法，一是雙流網路，用兩個子網路分別對影象和光流進行卷積，再進行融合；二是3D卷積網路，直接將視訊幀序列的時序看作一個維度進行卷積。基於軌跡的方法在TDD[4] 演算法後就好幾年沒有新的工作了。在最近的NIPS18會議上，CUHK的Yue Zhao 和Yuanjun Xiong大佬提出了一種新的卷積方式——軌跡卷積，並提出了端到端的軌跡卷積網路[1]，這篇筆記就主要介紹這篇文章。

方法回顧

如剛剛介紹，現有的深度學習行為識別方法大致可以分為雙流網路和3D卷積網路。近兩年大量3D卷積網路地工作主要針對如何增加3D網路容量、降低3D網路計算開銷、更好地進行時序關聯和建模等問題進行了研究。其中，很多方法採取的思路是將3D卷積分解為2D空間卷積加上1D的時序卷積，如Separable-3D(S3D)[7] 、R(2+1)D[8]等等。但這篇文章認為，直接在時間維度上進行卷積隱含了一個很強的假設，即認為幀間的特徵是很好地對齊地，而事實上人或者物體在視訊中可能存在著很大地位移或是形變。因此，作者認為沿著軌跡來做時序上的卷積是更合理的方式。

這裡再回顧一下幾篇經典的基於軌跡的方法——DT[2] , iDT[3] , TDD[4]。DT演算法[2]的框架圖如下圖所示，包括密集取樣特徵點，特徵點軌跡跟蹤和基於軌跡的特徵提取幾個部分。後續的特徵編碼和分類過程則沒有在圖中畫出。

之後，DT演算法的作者又進行了演算法改進，提出了iDT[3]演算法。iDT演算法則主要是增加了視訊幀間的對齊，從而儘可能地消除相機運動帶來的影響。在DT和iDT方法中，採用的都還是人工設計的傳統特徵，而在深度學習流行後，Yuanjun Xiong前輩提出了TDD[4]演算法，如下圖所示，主要是將iDT演算法中的傳統特徵替換為了深度學習的特徵，獲得了一定的效果提升。

雖然軌跡類的方法符合人類對視訊的直觀理解，但此前的這幾種軌跡方法都存在著比較大的缺陷從而難以獲得更好的應用：首先在這些方法中，軌跡的提取以及特徵的提取是獨立的過程，一方面在實現是比較繁瑣，另外一方面也不能夠進行端到端的學習；其次，這些方法最後都依賴於Fisher Vector或VLAD編碼，通常會產生非常高維的特徵向量，在儲存和計算等方面效率都比較差。因此，最近幾年基本上沒有啥新的軌跡類方法。

這篇軌跡卷積網路則主要受到可變形卷積網路DCN[5] 的啟發。可變形卷積網路如下圖所示，通過網路學習每次卷積的offset，來實現非規則形狀的卷積。而在軌跡卷積網路中，則是在時序上將軌跡的偏移向量直接作為可變形卷積的offset，從而實現了軌跡卷積。

方法介紹

軌跡卷積

本文的一個主要貢獻就是提出了軌跡卷積層。如下圖所示，傳統的3D卷積或是時序卷積在時序方向上的感受野是對齊的，而軌跡卷積則按照軌跡的偏移在時序上將卷積位置偏移到對應的點上去，從而實現沿著軌跡的卷積。此處具體的公式表達可見論文。

那麼，如何實現軌跡卷積呢？作者提出可以將軌跡卷積看作是3D可變形卷積的一個特定例子。具體而言，卷積核的大小定義為3 x 1 x 1，即沿著時序卷積，偏移量方面則將時序偏移設定為0，只考慮空間上的偏移。與可變形卷積網路不同的是，軌跡卷積中的空間偏移量並不是通過網路學習得到，而是設定為相鄰幀之間軌跡的偏移量。因此，基於可變形卷積網路的程式碼，軌跡卷積是非常易於實現的。

表觀及運動特徵結合

軌跡卷積實際上是沿著運動方向對錶觀特徵進行結合，作者認為這樣的方式對運動資訊的表達還不夠。參考DT演算法的思路，可以直接將軌跡偏移量資訊作為特徵。在這篇文章中，作者則將軌跡的偏移量圖直接和原始的表觀特徵圖進行了堆疊，從而進行了資訊的融合。這樣的融合方式比起雙流網路中late fusion的方式要更高效和自然一些。此處的軌跡偏移量圖為降取樣的運動場圖（比如光流圖）。

網路結構

網路結構方面，軌跡卷積網路直接將Separable-3D網路（ ResNet18 architecture）裡中層的1D時序卷積層替換為了軌跡卷積層。

軌跡的學習

本文中所採用的密集軌跡通常是通過光流的方式呈現。光流的提取有很多方式，傳統的方式通過優化的方法計算光流，而近幾年基於深度學習的方法則獲得了很好的效果。為了能夠將軌跡的生成也納入網路一起學習，本方法採用了@朱毅前輩提出的MotionNet[6]網路，將預訓練的MotionNet和軌跡卷積網路一起訓練。在此處的訓練過程中，並不採用真實光流的監督資訊，而是採用了[6]中提出的無監督輔助損失函式。最後的實驗結果表明不採用輔助損失函式直接finetune會帶來效果的降低，而新增輔助損失函式則能帶來效果的上升。

實驗效果

該論文在Something-Something-V1和Kinetics這兩個大規模視訊分類資料集上進行了實驗，並比起baseline（S3D) 獲得了一定的效果提升。具體效果如下圖所示。

從結果可以看出，基於較小的基礎網路，軌跡卷積網路也獲得了不錯的效果，表明軌跡卷積網路的有效性。另外一方面，行為識別方法的速度也很重要，下圖則展示了S3D網路以及軌跡卷積網路的單次前向速度。可以看出，目前軌跡卷積網路的速度還有較大的提升空間。

小結

這篇文章是我今年看到最喜歡的一篇行為識別論文了。其實去年自己也考慮了一段時間如何將軌跡資訊完整的融入到網路中，但沒想好該如何實現，雖然也讀過可變形卷積的論文，可惜沒有想到將兩者聯絡起來。所以，讀到Yue Zhao 的這篇文章有種豁然開朗的感覺。另外也要感嘆，CUHK的mmlab在行為識別這塊實力非凡，做出了很多重要的工作。總的來說，這篇文章所提出的軌跡卷積很好地將傳統軌跡方法和深度學習結合在了一起，在演算法效率和演算法效果上則還有一定的提升空間，應該會有不少工作後續進行跟進。

參考文獻

[1] Zhao Y, Xiong Y, Lin D. Trajectory Convolution for Action Recognition[C]//Advances in Neural Information Processing Systems. 2018: 2205-2216.

[2] Heng Wang, Alexander Kläser, Cordelia Schmid, and Cheng-Lin Liu. Action recognition by dense trajectories. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 3169–3176. IEEE, 2011.

[3] HengWang and Cordelia Schmid. Action recognition with improved trajectories. In The IEEE International Conference on Computer Vision (ICCV), pages 3551–3558, 2013.

[4] LiminWang, Yu Qiao, and Xiaoou Tang. Action recognition with trajectory-pooled deep-convolutional descriptors. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 4305– 4314, 2015.

[5] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. Deformable convolutional networks. In The IEEE International Conference on Computer Vision (ICCV), pages 764–773, 2017.

[6] Yi Zhu, Zhenzhong Lan, Shawn Newsam, and Alexander G Hauptmann. Hidden two-stream convolutional networks for action recognition. arXiv preprint arXiv:1704.00389, 2017.

[7] Saining Xie, Chen Sun, Jonathan Huang, Zhuowen Tu, and Kevin Murphy. Rethinking spatiotemporal feature learning: : Speed-accuracy trade-offs in video classification. In European Conference on Computer Vision (ECCV), 2018.

[8] Du Tran, HengWang, Lorenzo Torresani, Jamie Ray, Yann LeCun, and Manohar Paluri. A closer look at spatiotemporal convolutions for action recognition. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2018.

[NIPS 2018論文筆記] 軌跡卷積網路 TrajectoryNet

方法回顧

方法介紹

實驗效果

小結

參考文獻

您可能也會喜歡…