1. 程式人生 > >一種通過雙網路相互促進來優化對動作視訊取幀的演算法。清華特等獎得主CVPR論文筆記

一種通過雙網路相互促進來優化對動作視訊取幀的演算法。清華特等獎得主CVPR論文筆記


寫在最前面

作者田毅是清華大學2018年十名特等獎學金獲得者之一,其在CVPR這一計算機視覺頂級期刊上發表了這篇文章,從微信推送刷到這一資訊起,論文筆記就鎖定這篇論文了,我想知道我和同年級同專業第一梯隊的人究竟差距多大。其特等獎答辯視訊可以在b站上找到。


論文名

Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition

作者

清華大學自動化系田毅

論文地址

論文地址

摘要渣譯

在這篇文章中,我們提出了一種用於骨架體視訊動作提取的深度漸進強化學習模型,其目的是為動作識別提取視訊中大資訊量的幀和去除少資訊量的幀。由於每個視訊可選擇的代表性幀很多,我們把幀的選取視作使用深度強化學習的漸進過程,在這個過程中我們將兩個重要因素加入選幀的考量:(1)選取幀的質量(2)選取幀與整個視訊間的關係。進一步說,考慮到人體固有的拓撲結構是基於圖形的結構,其中頂點和邊分別代表關節和骨骼,我們使用基於圖形的卷積神經網路來捕捉關節之間的依賴關係,以進行動作識別。在三個常用指標上我們的研究都取得了有競爭力的效能。

前言

怎麼運作?

考慮到人體節點的視訊,我們首先通過已經被提出的深度漸進強化學習模型訓練過的一種幀蒸餾網路(frame distillation network) ,來提取關鍵的幀。之後我們使用保留了人體關節之間的依賴關係的一種基於影象的卷積神經網路,來使用關鍵幀進行動作識別。

在這裡插入圖片描述
在這裡插入圖片描述
圖的頂點表示為藍點,其中包含人體關節的三維座標,而邊緣反映關節之間的關係,可以將其分類為內在依賴性(即物理連線)和外在依賴性(即物理關係)。以動作’拍手’為例,內在依賴關係被建議為黑色實線,而外在依賴關係為橙色虛線。

其他

1.動作識別的作用。比較傳統視訊,骨骼序列的優點(which are robust to variations of viewpoints, body scales and motion speeds)
2.RNN的模型具有模擬時間依賴性的能力,但是在實踐中難以訓練堆疊的RNN。
3.CNN的模型捕獲較低層的相鄰幀與較高層的長期依賴關係,基於骨架的動作識別的大多數基於CNN的方法認為序列中的所有幀同樣重要,不能關注最具代表性的幀。
4.為了尋找序列中資訊最豐富的框架,作者提出了深度漸進強化學習(DPRL)方法。
5.大多數基於CNN的方法採用歐幾里德結構來模擬關節,這忽略了人體的內在拓撲。為了解決這個問題,作者將關節及其依賴關係建模為圖形。圖形的頂點包含身體關節的3D座標,而相鄰矩陣捕獲它們的關係。作者將關節圖視為位於

非歐幾里德空間建議看一下連結的第四部分。
6.利用基於圖的卷積神經網路(GCNN)來學習關節之間的空間依賴性。
7.利用三種基於骨架的動作識別資料集進行效果評估,其中競爭性實驗結果證明了我們方法的有效性。

近期研究

Skeleton-based Action Recognition: There have been a number of skeleton-based action recognition methods in recent years, and they can be mainly classified into two categories: hand-crafted feature based and deep learning feature based.

基於骨架的動作識別:近年來已經有許多基於骨架的動作識別方法,它們主要分為兩類:手工製作的特徵和基於深度學習特徵

手工製作特徵:
1.李代數中實現時間建模和分類法
2.樸素貝葉斯加權法
3.核心的張量表示法
4.無向完整的圖形法

深度學習特徵:
1.骨圖轉彩圖,CNN分類法
2.雙流CNN架構法(結合關節的位置和速度資訊,無重點幀)
3.共現特徵學習的正則化LSTM模型法
4.一種spatio-temporal attention model,提出不同幀和不同關節,不同的權重
5.提出trust gate來解決骨架資料中的噪聲問題
6.RNN與時空圖結合,對脊柱,手臂和腿的關係進行建模
本文:將人體的每個關節都作為頂點

之後說了一下強化學習的發展。但強化學習在行動識別方面幾乎沒有取得任何進展,特別是基於骨架的行動識別。同類型研究中動作僅影響一個幀,作者一次處理所有選擇幀的調整。

方法

1.Graph-based Representation Learning

我們構建了一個圖形Gs(x,W)來模擬每個單獨的人體幀,其中x包含N個關節的3D座標,W是N×N加權鄰接矩陣:
在這裡插入圖片描述
內在依賴性α指的是關節的物理連線,引數β來模擬外在關係。
例如,左手和右手在身體上是斷開的,但是他們的關係對於識別動作’拍手’具有顯著的重要性,我們使用引數β來模擬外在關係。
最終輸入GCNN的張量是:
在這裡插入圖片描述
每一個g為一幀的資訊,即上文的Gs,最後輸入給常見的3D-CNN。

2.Deep Progressive Reinforcement Learning

關鍵幀的選擇被制定為馬爾可夫決策過程(MDP),在此基礎上我們使用強化學習來在每次迭代時細化幀。圖3提供了該過程的示意圖,該圖基於FDNet實現,如圖4所示。與提供獎勵和更新其狀態的環境進行互動的媒介,通過最大化總折扣獎勵來學習以調整所選擇的幀,最終得到給定數量m的最可區分的幀。
在這裡插入圖片描述圖3.逐步選擇基於骨架的視訊中的關鍵幀的過程。首先統一取樣幾個幀,逐步調整之後,我們獲得視訊中資訊量最大的幀。由FDNet選定框架的下一步“向左移動”,“保持相同”或“向右移動”。
在這裡插入圖片描述
圖4.用於調整基於骨架的視訊中關鍵幀的FDNet架構。 FDNet分別獲取Sa和Sb的輸入,其中Sa包含整個視訊F的資訊以及所選擇的幀M,並且Sb是所選索引的f維二元掩模,其中f元素為 1,其餘為0。然後,Sa由3個卷積層的CNN處理,其中核心大小為3×3,並且完全連線層(fc1),而Sb通過fc2。這兩個部分的提取特徵在被送入fc3之前被連線起來。然後使用Softmax函式來規範fc3的輸出。輸出是一組操作,指導下一步的精煉過程。

3.Combination of GCNN and FDNet

對於訓練集中的所有基於骨架的視訊,我們首先均勻地對其幀進行取樣,以獲得固定大小的序列。 這些序列用於訓練GCNN以捕獲空間域中的聯合依賴性。 然後,我們修復GCNN中的引數以訓練FDNet並更新臨時域中每個視訊的選定幀,這些幀用於優化GCNN。 這兩個模型相互促進,因為GCNN為FDNet提供獎勵,FDNet選擇關鍵幀來修整GCNN。 GCNN越好,獎勵就越準確。 所選幀的質量越高,GCNN就越好。 在測試時,每個視訊通過FDNet產生其資訊幀的相應序列,最終將其傳送到GCNN以提供動作標籤。

實踐

1.資料集:NTU+RGBD Dataset (NTU) ; SYSU-3D Dataset (SYSU) ; UT-Kinect Dataset (UT)
2.我們將每個視訊組織為T×N×3張量,其中T表示均勻取樣的幀,N是身體關節的數量,3表示關節的3D座標。我們根據經驗將T設定為30,並且對於NTU,SYSU和UT,N分別等於25,20和20。然後,採用具有3個卷積層和3個完全連線層的基於CNN的模型來識別動作。 3個卷積層的核心大小為3×3,通道數為32,64和128.在每個卷積層後,我們採用了3個最大池化層,大小為2×2。
3.而網路架構是在兩個Nvidia GTX 1080 GPU上構建的。這兩個子網路都是從頭開始訓練的。對於GCNN,我們選擇ELU 作為啟用函式,並將丟失率設定為0.5。基於圖形的卷積層的knelnel大小設定為5,並且對於NTU,SYSU和UT資料集,batchsize分別設定為64,16,8。
4.與其他論文的結果比較。

句式總結

In this paper, we propose XXX for XXX, which aims to XXX.
工作與目的

Since XXX, we model XXX as a XXX process, during which we XXX by taking two important factors into account:
問題與解決

Our approach achieves very competitive performance on three widely used benchmarks.
效果的提出

The pipeline of our proposed method for XXX
工作的過程

deal with A for B
使用A解決B

aN×Nweighted adjacency matrix
一個N×N的加權鄰接矩陣