1. 程式人生 > >Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

本文是deepmind出品,目的,就一個,放出個關於視訊方面的訓練集kinetics,一個四百個類,每個類有至少四百個clips,每個clips十秒鐘,屬於從youtube上剪下的視訊,然後對比了幾種現在存在的用於行為識別的幾種框架,具體如下圖:

在這裡插入圖片描述 其中,a,b,c,d是現有的做法,作者提出了e,唉,這種框架 ,感覺有點和前面沒啥區別。然後,神奇的事情出現了:這個資料集上訓練的模型,通過遷移學習到UCF101和HMDB51上,準確率驚人。 具體的網路: 在這裡插入圖片描述

在這裡插入圖片描述 做了如下幾個事情:

第一:卷積核和pooling的核由二維擴充套件到三維。

第二:大的資料視訊資料集上訓練。

第三:遷移到UCF101,HMDB51,識別結果好。

實驗結果 在這裡插入圖片描述