1. 程式人生 > >2018AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions

2018AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions

ima pat 動作 改進 精確 技術 限制 研究 image

論文標題:AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions

來源/作者機構情況:

谷歌,http://www.cs.toronto.edu/~dross/

UC Berkeley

解決問題/主要思想貢獻:

貢獻了一個新的動作分類的數據集

成果/優點:

分類更加多,單人,多人,人和物體的動作三大類。還有時間和空間上更加精確的標定

技術分享圖片

人類動作識別數據集AVA(atomic visual actions,原子視覺動作),提供擴展視頻序列中每個人的多個動作標簽,精確標註多人動作,我們將動作標簽限制在固定的3s時間內。

[電影」和「電視」類別,選擇來自不同國家的專業演員。我們對每個視頻抽取 15 分鐘進行分析,並統一將 15 分鐘視頻分割成 300 個非重疊的 3 秒片段。采樣遵循保持動作序列的時間順序這一策略。

數據集地址:https://research.google.com/ava/ 需要科學鏈接

缺點:

反思改進/靈感:

#############################################################

論文主要內容與關鍵點:

論文主要部分:

技術分享圖片

1. Introduction

數據集的基本參數:連續三秒長,80種不同的動作類型

2. Related work 動作類數據集

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

靜態動作數據集,以及這些數據記的缺點:失去了時間的特征

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

3. Data collection:

4. Characteristics of the AVA dataset

5. Experiments

技術分享圖片

6. Conclusion

目前的研究方法,在AVA數據集都還沒有取得SOFA的結果,說明視頻動作分類還需要研究出更好的算法出來。

代碼實現:

https://github.com/tensorflow/models/tree/master/research/object_detection

2018AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions