1. 程式人生 > >讀書筆記29:A Closer Look at Spatiotemporal Convolutions for Action Recognition(CVPR2018)

讀書筆記29:A Closer Look at Spatiotemporal Convolutions for Action Recognition(CVPR2018)

本文的摘要開門見山介紹自己的工作,沒有背景介紹等鋪墊,這和本文的動作內容也有關,本文不是對比前人工作,針對某些不足提出新模型,而是討論了幾種不同形式的spatial temporal convolution模型,探討了其在動作識別中的效力,從實驗的角度證明了3D CNN的效果比2D的好,並且將3D CNN分解成分離的空間卷積和時間卷積可明顯提升準確率。經過種種分析,最後作者提出了一個新的spatiotemporal convolutional block叫做R(2+1)D,這個block加持下的CNN可以達到state-of-the-art的水準。

在introduction中,作者介紹了本文的背景,那就是目前CNN在視訊中進行動作識別的能力遠不如在圖片中進行物體識別的效果好,並且有人設計的用2D CNN只分析video中一幀一幀的image的資訊,完全不管spatial的資訊,達到的效果都很接近state-of-the-art,這就讓很多人懷疑,是不是temporal資訊根本就不是動作識別的關鍵呢?基於這種論調,本文探討了temporal維度分析起到的作用,本文的分析都是基於resnet框架的。

本文提出了兩個模型,都是介於完全2D的卷積和完全3D的卷積之間的模型。第一種模型是mixed convolution(MC,這個和之前的一篇讀書筆記的內容幾乎一致),在網路的前幾層使用3D卷積,在高層使用2D卷積,這種設計背後的理念是認為motion的模擬是一種層次較低的操作,可以在淺層網路中用3D卷積來處理,抓取出motion feature之後,就可以繼續使用2D卷積來進行高層次的特徵提取了。這種混合卷積在實驗中比單獨的2D resnet提升了3-4%的準確率。第二種模型是(2+1)D convolutional block,這個是將3D卷積分解成兩個連續的操作,一個是2D的空間操作,另一個是1D的temporal操作,這種操作方式使得每一層網路都多了一個非線性函式,讓模型的表達能力得到提升,同時還可能有利於優化。

本文涉及到了幾種spatial temporal convolutional network,都是在resnet框架下

也就是每一層網路的輸出都是兩份,一份是未經卷積的上一層網路的輸出,另一份是這層網路卷積得到的結果。幾種模型示意圖如下

首先是R2D模型,這種模型忽視temporal順序,在整個video clip上進行2D卷積,將幀數L(就是說整個video有L幀image)視作和channel差不多的東西,這樣的話,就可以理解為將整個videoreshape成的一個tensor,這裡面的3指的是RGB三個channel,H、W是高度和寬度,L就是video包含的幀數,由於3和L都視作channel了, 我的理解就是說,在一張RGBimage上,空間每一個位置對應一個長度為3的vector,而現在,空間每一個位置對應一個3×L的矩陣,也就是每一個畫素由vector變成了matrix,進行卷積的時候,不再是vector的加權求和,而是矩陣的加權求和,這也就是將L視作channel的意思。因此將每一個3×L的元素reshape成3L長的vector其實是一樣的, 因為加權求和的時候始終都是不同元素同一個channel的加權求和,這些元素是排列成2維的矩陣還是1維的向量都是無所謂的。第i個residual block的輸出的

也是一個3D的tensor,尺寸是,Ni表示有多少個filter在這層使用了,Hi和Wi是spatial維度的尺寸,這個尺寸可能由於pooling和striding比上一層的輸出尺寸有所變化。每一個filter也是3D的,並且尺寸是,d標記的是spatial維度的尺寸,儘管這個filter是3D的,但是隻進行2D的卷積,每一個filter的輸出都是1-channel的(這就有點疑惑,不同的channel是如何合併成一個channel的?如果是加權求和且權重可訓練,豈不也是3D卷積),因此網路最前面的一層就將video的所有temporal資訊都壓縮到一個channel了,temporal上的reasoning在接下來的幾層就完全沒有了(這個也有點疑惑,比如第一層卷積的每一個卷積核都按照順序關注temporal上的某一些frame,那麼輸出的還是有temporal資訊的,極端一點,假設第一層卷積的輸入channel是T,輸出也是T,且T個卷積核分別只關注一個channel,那麼輸出的和輸入的一樣,temporal資訊一點沒丟)。

第二個是f-R2D模型,這個模型也不考慮任何temporal資訊,對L個frame相互獨立的使用一串2D convolutional residual block,對所有的frame都使用同樣的filter,最後搞一層spatiotemporal pooling layer將L個frame的資訊簡單的聚合起來,得到最終的結果,這個稱之為frame-based R2D,也就是f-R2D。

第三個模型是3D的模型,是R3D,第i層的輸出尺寸是是第i個block中的filter數量,每一個filter的尺寸是,t是在temporal方向上的尺寸,本文中採取t=3,不知道這種選擇是不是因為CNN中一般選取3×3的卷積核。

第四個是模型,是2D和3D混合卷積(mixed 3D-2D convolution),設計這個模型的出發點是有人猜測,motion modeling(3D convolution)在前幾層中起到的作用比較大,一旦抓取出一些特徵之後,到後層進行的就是semantic abstraction,這個階段3D的模擬可能就不重要了。基於這種觀點,可以設計前幾層是3D卷積,後幾層用2D卷積的網路。本文中的MCx模型都是基於R3D模型修改的,R3D模型用的是5group的卷積,對此修改就是將最後幾層改為2D卷積,用MCx的x標記是哪一層開始使用2D卷積,例如MC4代表從第四層開始,第4、5層都使用2D卷積,本文除了MC1沒考慮,MC2、MC3、MC4、MC5都考慮了。本段開頭提到說一種假設是3D卷積在前幾層比較重要,一種與之相對應的假設就是3D卷積在後幾層比較重要,因此每一個MCx都有一個reversed版本,即rMCx,此時下標x標記的是從哪一個block開始使用3D卷積。

第五個模型是R(2+1)D模型,採取的是(2+1)D卷積,這個卷積方式是將sptio-temporal convolution分解成spatial和temporal兩個緯度上的卷積,示意圖如下

在這個模型中第i層的Ni個尺寸為的3D卷積核被替代為一個(2+1)D block,包含Mi個尺寸為的2D卷積核和Ni個尺寸為的1D(temporal維度的)卷積核,也就是說先用Mi個2D卷積核用輸入資料生成channel數為Mi的tensor,之後再用temporal維度上的卷積將channel數變為Ni,也即是第i層輸出channel數,這裡超引數Mi是連線時間和空間卷積的intermediate subspace的維度(也就是channel數),這個引數的數量由下式確定

使用這個式子是想讓R(2+1)D block的引數數量大致和完整的3D卷積block引數數量相等。

本文的實驗部分就是對這些網路結構進行了試驗,實驗的結果是R(2+1)D網路在資料集Sports-1M、Kinetics、UCF101和HMDB51上達到或者是超越了state-of-the-art的水準,除此之外,實驗結果還表明,在本文所用的資料集上,本文所使用的3D模型比2D模型效果要好,作者藉此說明motion modeling的重要性,但是我覺得,在特定的資料集上,基於特定的網路結構,對比3D和2D卷積,而且只能從實驗結果來分析,其實不一定能說明太多問題,沒準不在resnet的框架下,或者換個資料集,整個實驗結果就會改變。

相關推薦

讀書筆記29A Closer Look at Spatiotemporal Convolutions for Action RecognitionCVPR2018

本文的摘要開門見山介紹自己的工作,沒有背景介紹等鋪墊,這和本文的動作內容也有關,本文不是對比前人工作,針對某些不足提出新模型,而是討論了幾種不同形式的spatial temporal convolution模型,探討了其在動作識別中的效力,從實驗的角度證明了3D CNN的

論文筆記 | A Closer Look at Spatiotemporal Convolutions for Action Recognition

( 這篇博文為原創,如需轉載本文請email我: [email protected], 並註明來源連結,THX!)   本文主要分享了一篇來自CVPR 2018的論文,A Closer Look at Spatiotemporal Convolutions for Action Rec

【論文閱讀】A Closer Look at Spatiotemporal Convolutions for Action Recognition

【論文閱讀】A Closer Look at Spatiotemporal Convolutions for Action Recognition 這是一篇facebook的論文,它和一篇google的論文連結地址的研究內容非常相似,而且幾乎是同一時刻的研究,感覺這兩個公司真的冤家路窄,

讀書筆記32PoTion: Pose MoTion Representation for Action RecognitionCVPR2018

摘要首先介紹背景,很多一流的動作識別方法都依賴於two-stream的架構,一個處理appearance,另一個處理motion。接著介紹本文工作,本王呢認為將這兩個合起來考慮比較好,引入了一個新的representation,可以將semantic keypoints的

讀書筆記31What have we learned from deep representations for action recognition?CVPR2018

摘要:首先是背景,深度模型在計算機視覺的每個領域都有部署,因此,理解這些深度模型得到的representation到底是怎麼工作的,以及這些representation到底抓去了什麼資訊就變得越來越重要。接著說本文的工作,本文通過視覺化two-stream模型在進行動作識

Here we take a closer look at the Jordans Unveil

jump sets from ado any hits ace sta sch Here we take a closer look at the Jordans Unveil. This Mens release is both unique and striking.

Multipath TCP on iOS11 : A closer look at the TCP Options

Multipath TCP uses a variety of TCP options to use different paths simultaneously. Several Multipath TCP options are defined in RFC6824 : subtype 0x0:

A closer look at the machine – Iris.ai

What will the Aiur Knowledge Validation Engine do in practice? Reposted from Medium. Project Aiur’s Knowledge Validation Engine will receive an inp

讀書筆記33SSNet: Scale Selection Network for Online 3D Action PredictionCVPR2018

摘要首先介紹問題,即action prediction(這裡括號寫了個early action recognition,看後面的介紹好像是和action recognition有區別的,區別在於並不是用已經獲得的整個video進行識別)的目的是用已觀測到的進行中的動作預測

學習筆記 -- 斯坦福課程CNN for Visual Recognition

去年就想聽聽這“接地氣”的課程了,但最終也沒有堅持下來。今年既然有了線上的課程視訊,我也開個筆記系列,好好地從基礎開始學起吧。由於課程內容還是比較基礎,這裡只紀錄一些個人覺得有趣或者有用的點,更多的內容大家直接去網站上看吧,相信會有不少收穫的。 Lectu

CVPR2016之A Key Volume Mining Deep Framework for Action Recognition論文閱讀視訊關鍵幀選取

該論文的主要思想是從視訊中選取關鍵的幀卷(frame volume)用來行為識別。 該文章的意圖是通過對視訊中關鍵幀進行選取,減少與視訊表達內容不相關的視訊幀,實現視訊中行為識別準確率的提升。 該文章主要從兩個方面進行闡述:1、如何選取關鍵幀。2、如何檢

讀書筆記22Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recogni

文章題目:Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recognition(CVPR2018) 摘要部分:開頭一句話指出motion rep

《大型網站技術架構核心原理與案例分析》-- 讀書筆記 (5) 網購秒殺系統

案例 並發 刷新 隨機 url 對策 -- 技術 動態生成 1. 秒殺活動的技術挑戰及應對策略 1.1 對現有網站業務造成沖擊 秒殺活動具有時間短,並發訪問量大的特點,必然會對現有業務造成沖擊。對策:秒殺系統獨立部署 1.2 高並發下的應用、

《你必須知道的.NET》讀書筆記小OO有大智慧

實現 職責 可靠性 基本 code cfile 生存 最好 min() 此篇已收錄至《你必須知道的.Net》讀書筆記目錄貼,點擊訪問該目錄可以獲取更多內容。 一、對象   (1)出生:系統首先會在內存中分配一定的存儲空間,然後初始化其附加成員,調用構造函數執行初始化,這

《大型網站技術架構》讀書筆記大型網站架構演化

硬件 解決方案 更新 獨立 流量 操作 大型網站技術架構 負責 思維導圖 一、大型網站系統特點   (1)高並發、大流量:PV量巨大   (2)高可用:7*24小時不間斷服務   (3)海量數據:文件數目分分鐘xxTB   (4)用戶分布廣泛,網絡情況復雜:網絡運營

《黑客攻防技術寶典Web實戰篇@第2版》讀書筆記1了解Web應用程序

金融 主機 border ket 邊界 輕量 在線 讀書 目的 讀書筆記第一部分對應原書的第一章,主要介紹了Web應用程序的發展,功能,安全狀況。 Web應用程序的發展歷程 早期的萬維網僅由Web站點構成,只是包含靜態文檔的信息庫,隨後人們發明了Web瀏覽器用來檢索和

《構建之法》讀書筆記第一、二、十六章

信息系統 做到 而是 需要 根據 style 成本 讀書 找到 這周看了鄒欣老師《構建之法》的1,2,16章,獲益匪淺。這本書寫得妙趣橫生,用阿超小飛幾個人的生活場景和幽默的比喻幫我理解著軟件工程的相關概念,讓我對軟件工程有了初步的了解:原來開發軟件並不是我們想的

讀書筆記MIT線性代數(1):Linear Combinations

http info cti pla imp column ase fin generate 1. Linear Combination Two linear operations of vectors: Linear combination: 2.Geometric

讀書筆記MIT線性代數(4):Independence, Basis and Dimension

bsp variables inf ane image ace play mit variable Independence: The columns of A are independent when the nullspace N (A) contains only t

CLR via c#讀書筆記字符、字符串和文本處理

頻繁 方法名 ros obj utf8 via title col point 1、在.NET Framework中,字符總是表示成16位unicode代碼值(關於unicode、utf8等可以到http://www.ruanyifeng.com/blog/2007/10/