2018AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions
阿新 • • 發佈:2019-04-19
ima pat 動作 改進 精確 技術 限制 研究 image
[電影」和「電視」類別,選擇來自不同國家的專業演員。我們對每個視頻抽取 15 分鐘進行分析,並統一將 15 分鐘視頻分割成 300 個非重疊的 3 秒片段。采樣遵循保持動作序列的時間順序這一策略。
論文標題:AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions
來源/作者機構情況:
谷歌,http://www.cs.toronto.edu/~dross/
UC Berkeley
解決問題/主要思想貢獻:
貢獻了一個新的動作分類的數據集
成果/優點:
分類更加多,單人,多人,人和物體的動作三大類。還有時間和空間上更加精確的標定
人類動作識別數據集AVA(atomic visual actions,原子視覺動作),提供擴展視頻序列中每個人的多個動作標簽,精確標註多人動作,我們將動作標簽限制在固定的3s時間內。
數據集地址:https://research.google.com/ava/ 需要科學鏈接
缺點:
反思改進/靈感:
#############################################################
論文主要內容與關鍵點:
論文主要部分:
1. Introduction
數據集的基本參數:連續三秒長,80種不同的動作類型
2. Related work 動作類數據集
靜態動作數據集,以及這些數據記的缺點:失去了時間的特征
3. Data collection:
4. Characteristics of the AVA dataset
5. Experiments
6. Conclusion
目前的研究方法,在AVA數據集都還沒有取得SOFA的結果,說明視頻動作分類還需要研究出更好的算法出來。
代碼實現:
https://github.com/tensorflow/models/tree/master/research/object_detection
2018AVA: A Video Dataset of Spatio-temporally Localized Atomic Visual Actions