Multi-Fiber Networks for Video Recognition (MFNet)

阿新 • • 發佈：2018-10-16

輕量需要 inf 能力 mage 圖片分類 str 一個線性

Motivation：減少時空網絡的計算量，保持視頻分類精度上的基礎上，使得速度盡可能接近對應網絡的2D版本。

為此提出 Multi-Fiber 網絡，將復雜網絡拆分成輕量網絡的集成，利用 fibers 間的信息流引入多路器模塊。

Result：比I3D和R(2+1)D分別少9倍，13倍的計算量，但精度更高，UCF-101, HMDB-51 and Kinetics 上的 state of the art。

2D網絡需要10s GFLOP來處理單幀，3D網絡需要100s GFLOP處理一個clip，作者認為3D網絡有能力進一步提高因為融入了時空信息。

與Du tran和xie sai ning提出的R(2+1)D和S3D用1x3x3, 3x1x1時空分解卷積替代3x3x3這種做法不同，以上兩種方法很難在實際應用，因為相對他們的2D版本有數量級的復雜度，受low-power MobileNet-v2網絡的啟發以及通過分組卷積稀疏化做法的啟發，作者提出稀疏連接結構，

作者提出multi-fibers結構並在2D CNN圖片分類上實驗確認結構的有效性，後擴展為時空CNN

技術分享圖片

(a) resnet block (b) resNeXet block (c) fibers(author) (d) 加入multiplexer 傳遞不同fiber間信息 (e) 兩個線性層降維和升維

Multi-Fiber Networks

Multi-Fiber Networks for Video Recognition (MFNet)

輕量需要 inf 能力 mage 圖片分類 str 一個線性 Motivation：減少時空網絡的計算量，保持視頻分類精度上的基礎上，使得速度盡可能接近對應網絡的2D版本。為此提出 Multi-Fiber 網絡，將復雜網絡拆分成輕量網絡的集成，利用 fibers 間

CVPR 2017：See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification

network 測試 eee 分享 The 因此進行最大變化 [1] Z. Zhou, Y. Huang, W. Wang, L. Wang, T. Tan, Ieee, See the Forest for the Trees: Joint Spatial and

Multi-Fiber Networks for Video Recognition (MFNet)

Multi-Fiber Networks for Video Recognition (MFNet)

CVPR 2017：See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification

【CV論文閱讀】Two stream convolutional Networks for action recognition in Vedios

視訊動作識別--Two-Stream Convolutional Networks for Action Recognition in Videos

24.Two-Stream Convolutional Networks for Action Recognition in Videos

論文閱讀筆記二十四：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition（SPPNet CVPR2014）

譯：Two-Stream Convolutional Networks for Action Recognition in Videos.md

SPP-net(Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition)

Stanford University CS231n: Convolutional Neural Networks for Visual Recognition

[論文閱讀筆記]Two-Stream Convolutional Networks for Action Recognition in Videos

【筆記】SPP-Net : Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

Deep Feature Flow for Video Recognition讀書筆記

Two-Stream Convolutional Networks for Action Recognition in Videos演算法筆記

【論文閱讀】Long-Term Recurrent Convolutional Networks for Visual Recognition and Description

【論文閱讀】Beyond Short Snippets: Deep Networks for Video Classification

【論文閱讀】Learning Spatio-Temporal Features with 3D Residual Networks for Action Recognition

SPP(Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition)

long term recurrent convolutional networks for visual recognition and description

Deep Feature Flow for Video Recognition

深度學習論文翻譯解析（九）：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

Multi-Fiber Networks for Video Recognition (MFNet)

相關推薦