1. 程式人生 > >ICCV2017 : 偽3D卷積:Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks

ICCV2017 : 偽3D卷積:Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks

這是提出了一個專門用於視訊理解的深度達199層的三維殘差神經網路,通過將3D卷積拆分為一個3*1*1的一維時間卷積核一個1*3*3的二位空間卷積,相比於同樣深度的2D-CNN只增添了一定數量的1D-CNN,但引數量減少很多。二維空間卷積可以使用影象進行預處理,對視訊資料量的需求大大減少

在不同視訊理解資料集上取得效果:

該網路還能作為其它方法的基本網路結構,從而提升其它基於神經網路方法的視訊識別效能。以雙流(Two-stream)方法為例,在UCF101的視訊動作識別任務上,如果使用偽三維卷積網路作為基本網路結構,實現的Two-stream框架無論是單個幀分支(Frame)與光流分支(Flow),或者是最終兩個分支合併的結果,都超過了其它網路結構。