1. 程式人生 > >Multi-Fiber Networks for Video Recognition (MFNet)

Multi-Fiber Networks for Video Recognition (MFNet)

輕量 需要 inf 能力 mage 圖片分類 str 一個 線性

Motivation:減少時空網絡的計算量,保持視頻分類精度上的基礎上,使得速度盡可能接近對應網絡的2D版本。

為此提出 Multi-Fiber 網絡,將復雜網絡拆分成輕量網絡的集成,利用 fibers 間的信息流引入多路器模塊。

Result:比I3D和R(2+1)D分別少9倍,13倍的計算量,但精度更高,UCF-101, HMDB-51 and Kinetics 上的 state of the art。

2D網絡需要10s GFLOP來處理單幀,3D網絡需要100s GFLOP處理一個clip,作者認為3D網絡有能力進一步提高因為融入了時空信息。

與Du tran和xie sai ning提出的R(2+1)D和S3D用1x3x3, 3x1x1時空分解卷積替代3x3x3這種做法不同,以上兩種方法很難在實際應用,因為相對他們的2D版本有數量級的復雜度,受low-power MobileNet-v2網絡的啟發以及通過分組卷積稀疏化做法的啟發,作者提出稀疏連接結構,

作者提出multi-fibers結構並在2D CNN圖片分類上實驗確認結構的有效性,後擴展為時空CNN

技術分享圖片

(a) resnet block (b) resNeXet block (c) fibers(author) (d) 加入multiplexer 傳遞不同fiber間信息 (e) 兩個線性層降維和升維

Multi-Fiber Networks

Multi-Fiber Networks for Video Recognition (MFNet)