讀書筆記29：A Closer Look at Spatiotemporal Convolutions for Action Recognition（CVPR2018）

阿新 • • 發佈：2019-01-19

本文的摘要開門見山介紹自己的工作，沒有背景介紹等鋪墊，這和本文的動作內容也有關，本文不是對比前人工作，針對某些不足提出新模型，而是討論了幾種不同形式的spatial temporal convolution模型，探討了其在動作識別中的效力，從實驗的角度證明了3D CNN的效果比2D的好，並且將3D CNN分解成分離的空間卷積和時間卷積可明顯提升準確率。經過種種分析，最後作者提出了一個新的spatiotemporal convolutional block叫做R(2+1)D，這個block加持下的CNN可以達到state-of-the-art的水準。

在introduction中，作者介紹了本文的背景，那就是目前CNN在視訊中進行動作識別的能力遠不如在圖片中進行物體識別的效果好，並且有人設計的用2D CNN只分析video中一幀一幀的image的資訊，完全不管spatial的資訊，達到的效果都很接近state-of-the-art，這就讓很多人懷疑，是不是temporal資訊根本就不是動作識別的關鍵呢？基於這種論調，本文探討了temporal維度分析起到的作用，本文的分析都是基於resnet框架的。

本文提出了兩個模型，都是介於完全2D的卷積和完全3D的卷積之間的模型。第一種模型是mixed convolution（MC，這個和之前的一篇讀書筆記的內容幾乎一致），在網路的前幾層使用3D卷積，在高層使用2D卷積，這種設計背後的理念是認為motion的模擬是一種層次較低的操作，可以在淺層網路中用3D卷積來處理，抓取出motion feature之後，就可以繼續使用2D卷積來進行高層次的特徵提取了。這種混合卷積在實驗中比單獨的2D resnet提升了3-4%的準確率。第二種模型是（2+1）D convolutional block，這個是將3D卷積分解成兩個連續的操作，一個是2D的空間操作，另一個是1D的temporal操作，這種操作方式使得每一層網路都多了一個非線性函式，讓模型的表達能力得到提升，同時還可能有利於優化。

本文涉及到了幾種spatial temporal convolutional network，都是在resnet框架下

也就是每一層網路的輸出都是兩份，一份是未經卷積的上一層網路的輸出，另一份是這層網路卷積得到的結果。幾種模型示意圖如下

首先是R2D模型，這種模型忽視temporal順序，在整個video clip上進行2D卷積，將幀數L（就是說整個video有L幀image）視作和channel差不多的東西，這樣的話，就可以理解為將整個videoreshape成的一個tensor，這裡面的3指的是RGB三個channel，H、W是高度和寬度，L就是video包含的幀數，由於3和L都視作channel了，我的理解就是說，在一張RGBimage上，空間每一個位置對應一個長度為3的vector，而現在，空間每一個位置對應一個3×L的矩陣，也就是每一個畫素由vector變成了matrix，進行卷積的時候，不再是vector的加權求和，而是矩陣的加權求和，這也就是將L視作channel的意思。因此將每一個3×L的元素reshape成3L長的vector其實是一樣的，因為加權求和的時候始終都是不同元素同一個channel的加權求和，這些元素是排列成2維的矩陣還是1維的向量都是無所謂的。第i個residual block的輸出的

也是一個3D的tensor，尺寸是

，Ni表示有多少個filter在這層使用了，Hi和Wi是spatial維度的尺寸，這個尺寸可能由於pooling和striding比上一層的輸出尺寸有所變化。每一個filter也是3D的，並且尺寸是

，d標記的是spatial維度的尺寸，儘管這個filter是3D的，但是隻進行2D的卷積，每一個filter的輸出都是1-channel的（這就有點疑惑，不同的channel是如何合併成一個channel的？如果是加權求和且權重可訓練，豈不也是3D卷積），因此網路最前面的一層就將video的所有temporal資訊都壓縮到一個channel了，temporal上的reasoning在接下來的幾層就完全沒有了（這個也有點疑惑，比如第一層卷積的每一個卷積核都按照順序關注temporal上的某一些frame，那麼輸出的還是有temporal資訊的，極端一點，假設第一層卷積的輸入channel是T，輸出也是T，且T個卷積核分別只關注一個channel，那麼輸出的和輸入的一樣，temporal資訊一點沒丟）。

第二個是f-R2D模型，這個模型也不考慮任何temporal資訊，對L個frame相互獨立的使用一串2D convolutional residual block，對所有的frame都使用同樣的filter，最後搞一層spatiotemporal pooling layer將L個frame的資訊簡單的聚合起來，得到最終的結果，這個稱之為frame-based R2D，也就是f-R2D。

第三個模型是3D的模型，是R3D，第i層的輸出尺寸是，是第i個block中的filter數量，每一個filter的尺寸是，t是在temporal方向上的尺寸，本文中採取t=3，不知道這種選擇是不是因為CNN中一般選取3×3的卷積核。

第四個是和模型，是2D和3D混合卷積（mixed 3D-2D convolution），設計這個模型的出發點是有人猜測，motion modeling（3D convolution）在前幾層中起到的作用比較大，一旦抓取出一些特徵之後，到後層進行的就是semantic abstraction，這個階段3D的模擬可能就不重要了。基於這種觀點，可以設計前幾層是3D卷積，後幾層用2D卷積的網路。本文中的MCx模型都是基於R3D模型修改的，R3D模型用的是5group的卷積，對此修改就是將最後幾層改為2D卷積，用MCx的x標記是哪一層開始使用2D卷積，例如MC4代表從第四層開始，第4、5層都使用2D卷積，本文除了MC1沒考慮，MC2、MC3、MC4、MC5都考慮了。本段開頭提到說一種假設是3D卷積在前幾層比較重要，一種與之相對應的假設就是3D卷積在後幾層比較重要，因此每一個MCx都有一個reversed版本，即rMCx，此時下標x標記的是從哪一個block開始使用3D卷積。

第五個模型是R(2+1)D模型，採取的是(2+1)D卷積，這個卷積方式是將sptio-temporal convolution分解成spatial和temporal兩個緯度上的卷積，示意圖如下

在這個模型中第i層的Ni個尺寸為的3D卷積核被替代為一個(2+1)D block，包含Mi個尺寸為的2D卷積核和Ni個尺寸為的1D（temporal維度的）卷積核，也就是說先用Mi個2D卷積核用輸入資料生成channel數為Mi的tensor，之後再用temporal維度上的卷積將channel數變為Ni，也即是第i層輸出channel數，這裡超引數Mi是連線時間和空間卷積的intermediate subspace的維度（也就是channel數），這個引數的數量由下式確定

使用這個式子是想讓R(2+1)D block的引數數量大致和完整的3D卷積block引數數量相等。

本文的實驗部分就是對這些網路結構進行了試驗，實驗的結果是R(2+1)D網路在資料集Sports-1M、Kinetics、UCF101和HMDB51上達到或者是超越了state-of-the-art的水準，除此之外，實驗結果還表明，在本文所用的資料集上，本文所使用的3D模型比2D模型效果要好，作者藉此說明motion modeling的重要性，但是我覺得，在特定的資料集上，基於特定的網路結構，對比3D和2D卷積，而且只能從實驗結果來分析，其實不一定能說明太多問題，沒準不在resnet的框架下，或者換個資料集，整個實驗結果就會改變。

讀書筆記29：A Closer Look at Spatiotemporal Convolutions for Action Recognition（CVPR2018）

讀書筆記29：A Closer Look at Spatiotemporal Convolutions for Action Recognition（CVPR2018）

論文筆記 | A Closer Look at Spatiotemporal Convolutions for Action Recognition

【論文閱讀】A Closer Look at Spatiotemporal Convolutions for Action Recognition

讀書筆記32：PoTion: Pose MoTion Representation for Action Recognition（CVPR2018）

讀書筆記31：What have we learned from deep representations for action recognition?（CVPR2018）

Here we take a closer look at the Jordans Unveil

Multipath TCP on iOS11 : A closer look at the TCP Options（轉）

A closer look at the machine – Iris.ai

讀書筆記33：SSNet: Scale Selection Network for Online 3D Action Prediction（CVPR2018）

學習筆記 -- 斯坦福課程：CNN for Visual Recognition（一）

CVPR2016之A Key Volume Mining Deep Framework for Action Recognition論文閱讀（視訊關鍵幀選取）

讀書筆記22：Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recogni

《大型網站技術架構：核心原理與案例分析》-- 讀書筆記 (5) ：網購秒殺系統

《你必須知道的.NET》讀書筆記一：小OO有大智慧

《大型網站技術架構》讀書筆記一：大型網站架構演化

《黑客攻防技術寶典Web實戰篇@第2版》讀書筆記1：了解Web應用程序

《構建之法》讀書筆記之：第一、二、十六章

【讀書筆記】：MIT線性代數(1):Linear Combinations

【讀書筆記】：MIT線性代數(4):Independence, Basis and Dimension

CLR via c#讀書筆記九：字符、字符串和文本處理

讀書筆記29：A Closer Look at Spatiotemporal Convolutions for Action Recognition（CVPR2018）

相關推薦