1. 程式人生 > >【論文閱讀】Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?

【論文閱讀】Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?

【論文閱讀】Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?

之前提出的3D卷積網路的深度都很淺,因為當時的資料集都小,很容易過擬合。但是現在有了kinetics,那麼這個資料集在訓練3D卷積網路時還會過擬合嗎?本文經過實驗發現,kinetics資料集即使在訓練非常深的3DCNN時也不會過擬合。我們知道在影象領域,通常都會使用Imagenet預訓練的網路,所以受此啟發,可以將在kinetics預訓練的網路應用到視訊分析相關的應用中。所以我在這裡再次安利一下作者的github地址,做視訊相關內容的一定要關注一下。
論文地址:

下載地址
作者的github(極力安利):下載地址

正文

3DCNN很早之前就提出來了,但是一直受限於資料集,所以一直無法超越基於雙流網路的方法,最近kinetics資料集提出來了,那麼視訊中的kinetics資料集是否可以比肩影象中的ImageNet資料集呢?如果非常深的3DCNN在kinetics上訓練不會過擬合,那麼回答就是肯定的。所以基於此,作者做了許多的相關實驗。

實驗網路結構

首先需要確定實驗的3D卷積網路結構,因為殘差結構在2D影象中表現非常好,所以所有的3D卷積網路都是以殘差結構為基礎的。本文實驗的3D模型分別以 ResnetPre-activation Resnet

Wide ResnetResnext以及Densenet等5種基本2D網路為基礎。具體的結構如下圖和下表所示(如果瞭解基本的網路結構還是很容易看懂的,如果哪裡看不懂可以留言或者去看一下原文,這裡就不做過多地介紹了):
在這裡插入圖片描述
在這裡插入圖片描述

相關實驗

較小的資料集是否出現了過擬合?

文章首先在較小的資料集上訓練較淺的3DCNN(Resnet-18)網路,來判斷是否較淺的3D卷積網路也會出現過擬合,實驗結果如下圖所示:
在這裡插入圖片描述
從上圖可以看出,其他三個資料集上驗證損失快速地變化到一個較高的值,而且與訓練損失之間有一個很大的gap,所以很明顯地過擬合了。然後看kinetics的結果,可以看到驗證損失比訓練損失還要低,所以沒有出現過擬合,這值得我們對kinetics資料集進行進一步探索。

kinetics上能訓練多深的3D網路?

文章緊接著實驗了在kinetics資料集上,基於resnet的網路隨著網路深度的增加,識別準確率的變化,是否出現了過擬合,實驗結果如下表所示:
在這裡插入圖片描述
根據上表可以看出,準確率是隨著網路深度的增加而逐漸提升的,說明之前18層的網路在kinetics上欠擬合了。然後在到達200層時,準確率結果和152層差不多,這個和2Dresnet在ImageNet上的表現是相似的。然後再看一下其他網路結構在kinetics上的結果,可以看到其他網路在kinetics上的結果對比與對應的2D網路在ImageNet上的表現是一致的,所以可以判斷kinetics資料集中的資料量是足夠地大的。

kinetics上預訓練的效果?

我們知道使用在ImageNet上預訓練的網路是一種非常普遍的方法,那麼使用kinetics上預訓練的網路是否依然有效呢?文章最後實驗了在kinetics上預訓練,然後在ucf101和hmdb51上微調的效果,微調的時候只微調conv5_x和全連線層,可以看到微調的結果遠遠地大於train from scratch。如下圖所示:
在這裡插入圖片描述

總結

這篇文章很簡單,我解讀的最主要的原因是安利文章的github,哈哈。