【論文閱讀】Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
【論文閱讀】Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet?
之前提出的3D卷積網路的深度都很淺,因為當時的資料集都小,很容易過擬合。但是現在有了kinetics,那麼這個資料集在訓練3D卷積網路時還會過擬合嗎?本文經過實驗發現,kinetics資料集即使在訓練非常深的3DCNN時也不會過擬合。我們知道在影象領域,通常都會使用Imagenet預訓練的網路,所以受此啟發,可以將在kinetics預訓練的網路應用到視訊分析相關的應用中。所以我在這裡再次安利一下作者的github地址,做視訊相關內容的一定要關注一下。
論文地址:
作者的github(極力安利):下載地址
正文
3DCNN很早之前就提出來了,但是一直受限於資料集,所以一直無法超越基於雙流網路的方法,最近kinetics資料集提出來了,那麼視訊中的kinetics資料集是否可以比肩影象中的ImageNet資料集呢?如果非常深的3DCNN在kinetics上訓練不會過擬合,那麼回答就是肯定的。所以基於此,作者做了許多的相關實驗。
實驗網路結構
首先需要確定實驗的3D卷積網路結構,因為殘差結構在2D影象中表現非常好,所以所有的3D卷積網路都是以殘差結構為基礎的。本文實驗的3D模型分別以 Resnet,Pre-activation Resnet
相關實驗
較小的資料集是否出現了過擬合?
文章首先在較小的資料集上訓練較淺的3DCNN(Resnet-18)網路,來判斷是否較淺的3D卷積網路也會出現過擬合,實驗結果如下圖所示:
從上圖可以看出,其他三個資料集上驗證損失快速地變化到一個較高的值,而且與訓練損失之間有一個很大的gap,所以很明顯地過擬合了。然後看kinetics的結果,可以看到驗證損失比訓練損失還要低,所以沒有出現過擬合,這值得我們對kinetics資料集進行進一步探索。
kinetics上能訓練多深的3D網路?
文章緊接著實驗了在kinetics資料集上,基於resnet的網路隨著網路深度的增加,識別準確率的變化,是否出現了過擬合,實驗結果如下表所示:
根據上表可以看出,準確率是隨著網路深度的增加而逐漸提升的,說明之前18層的網路在kinetics上欠擬合了。然後在到達200層時,準確率結果和152層差不多,這個和2Dresnet在ImageNet上的表現是相似的。然後再看一下其他網路結構在kinetics上的結果,可以看到其他網路在kinetics上的結果對比與對應的2D網路在ImageNet上的表現是一致的,所以可以判斷kinetics資料集中的資料量是足夠地大的。
kinetics上預訓練的效果?
我們知道使用在ImageNet上預訓練的網路是一種非常普遍的方法,那麼使用kinetics上預訓練的網路是否依然有效呢?文章最後實驗了在kinetics上預訓練,然後在ucf101和hmdb51上微調的效果,微調的時候只微調conv5_x和全連線層,可以看到微調的結果遠遠地大於train from scratch。如下圖所示:
總結
這篇文章很簡單,我解讀的最主要的原因是安利文章的github,哈哈。