【深度學習】經典神經網路 VGG 論文解讀

阿新 • • 發佈：2019-01-12

VGG 在深度學習領域中非常有名，很多人 fine-tune 的時候都是下載 VGG 的預訓練過的權重模型，然後在次基礎上進行遷移學習。VGG 是 ImageNet 2014 年目標定位競賽的第一名，影象分類競賽的第二名，需要注意的是，影象分類競賽的第一名是大名鼎鼎的 GoogLeNet，那麼為什麼人們更願意使用第二名的 VGG 呢？

因為 VGG 夠簡單

VGG 是 Visual Geometry Group 的縮寫，是這個網路建立者的隊名，作者來自牛津大學。

VGG 最大的特點就是它在之前的網路模型上，通過比較徹底地採用 3x3 尺寸的卷積核來堆疊神經網路，從而加深整個神經網路的層級。

VGG 不是橫空出世

我們都知道，最早的卷積神經網路 LeNet，但 2012 年 Krizhevsk 在 ISRVC 上使用的 AlexNet 一戰成名，極大鼓舞了世人對神經網路的研究，後續人們不斷在 AlexNet 的架構上進行改良，並且成績也越來越好。

下面是 AlexNet 的網路結構圖。
在這裡插入圖片描述
對於 AlexNet 的改進的手段有 2 個：

在第一層卷積層上採用感受野更小的的尺寸，和更小的 stride。
在 AlexNet 的基礎上加深它的卷積層數量。

VGG 選擇的是在 AlexNet 的基礎上加深它的層數，但是它有個很顯著的特徵就是持續性的新增 3x3 的卷積核。

VGG 的網路結構

VGG 更多是被試驗出來的，這是我最直觀的看法

AlexNet 的改造

AlexNet 有 5 層卷積層，而 VGG 就是針對這 5 層卷積層進行改造，共進行了 6 種配置，得到了 6 中網路結構，下面是配置圖。

在這裡插入圖片描述

VGG 的細節之 3x3 卷積核

VGG 和 AlexNet 最大的不同就是 VGG 用大量的 3x3 卷積核替換了 AlexNet 的卷積核。

3x3 卷積核是能夠感受到上下、左右、重點的最小的感受野尺寸。

並且，2 個 3x3 的卷積核疊加，它們的感受野等同於 1 個 5x5 的卷積核，3 個疊加後，它們的感受野等同於 1 個 7x7 的效果

既然，感受野的大小是一樣的，那麼用 3x3 有什麼好處呢?

答案有 2，一是引數更少，二是層數加深了。

現在解釋引數變少的問題。

假設現在有 3 層 3x3 卷積核堆疊的卷積層，卷積核的通道是 C 個，那麼它的引數總數是 3x(3Cx3C) = 27C^2

同樣和它感受野大小一樣的一個卷積層，卷積核是 7x7 的尺寸，通道也是 C 個，那麼它的引數總數就是 49C^2
通過計算很容易得出結論，3x3 卷積方案的引數數量比 7x7 方案少了 81% 多，並且它的層級還加深了。

VGG 的細節之 1x1 卷積核

堆疊後的 3x3 卷積層可以對比之前的常規網路的基礎上，減少引數數量，而加深網路。

但是，如果我們還需要加深網路，怎麼辦呢？

堆疊更多的的卷積層，但有 2 個選擇。

選擇 1：繼續堆疊 3x3 的卷積層，比如連續堆疊 4 層或者以上。

選擇 2：在 3x3 的卷積層後面堆疊一層 1x1 的卷積層。

1x1 卷積核的好處是不改變感受野的情況下，進行升維和降維，同時也加深了網路的深度。

VGG 其它細節彙總

大家一般會聽說 VGG-16 和 VGG-19 這兩個網路，其中 VGG-16 更受歡迎。

16 和 19 對應的是網路中包含權重的層級數，如卷積層和全連線層，大家可以仔細觀察文章前面貼的配置圖資訊。

所有的 VGG 網路中，卷積核的 stride 是 1，padding 是 1.

max-pooling 的滑動視窗大小是 2x2 ，stride 也是 2.

VGG 不同配置的表現

在這裡插入圖片描述
VGG-19 表現的結果自然最好。

但是，VGG-19 的引數比 VGG-16 的引數多了好多。
在這裡插入圖片描述

所以，綜合考慮大家似乎更喜歡 VGG-16。

VGG 與其他模型的比較

在這裡插入圖片描述
VGG 在當時非常優秀，僅次於 GoogLeNet，但 VGG 結構更簡單易懂。

總結

VGG 在深度學習的歷史上還是很有意義的，它在當時證明了神經網路更深表現會更好，雖然後來 ResNet 進一步革命了，不過那是後話，最重要的是 VGG 向世人證明了更小的卷積核尺寸的重要性。

【深度學習】經典神經網路 VGG 論文解讀

VGG 不是橫空出世