寫在前面

VGG(2014)網路出自paper《Very Deep Convolutional Networks for Large-Scale Image Recognition》，為ILSVRC2014 localization冠軍和classification亞軍方法（冠軍為GoogLeNet），首次提交arXiv時間為2014年9月，後發表在ICLR2015，截止20191011引用量達27612。因為出自牛津大學Visual Geometry Group，所以網路被命名為VGG，根據層數不同，又分為VGG16、VGG19等。

論文的主要貢獻：

探究了網路深度對效能的影響，通過疊加捲積層來增加深度，效能變好——“Our results yet again confirm the importance of depth in visual representations”。
只使用$3\times 3$的卷積核，通過多個$3 \times 3$卷積層疊加來獲得與大卷積核相同的感受野，同時引入更多的非線性，減少了引數。若有$C$個channel，3個$3\times 3$的卷積層引數量為$3(3^2C^2)=27C^2$，1個$7\times 7$卷積層的引數量為$7^2C^2=49C^2$，兩者的感受野相同。

網路結構

文中列舉了配置不同的5個網路，分別命名為A、A-LRN、B、C、D、E，網路結構及引數量如下圖所示，

這些網路配置的特點是：

A-LRN與A相比，僅在第一個卷積層後加入LRN層，A和A-LRN含可學習引數的層數均為11層
B比A多了2個$3 \times 3$卷積層，為13層
C比B多了3個$1\times 1$卷積層，為16層
D將C的3個$1\times 1$卷積層替換為$3\times 3$卷積層，仍為16層
E在D的基礎上又增加了3個$3\times 3$卷積層，為19層
每次maxpool後，feature map尺寸減半，緊隨其後的卷積層會將feature map的數量加倍，64→128→256→512

B網路有個特點，每2個$3\times 3$卷積層一組，再接maxpool。實際上，在實驗中還配置了另一個網路——將B的“each pair of $3\times 3$ conv”替換為1個$5\times 5$卷積層，其效能要比B差7%，所以paper認為小卷積核深網路要比大卷積核淺網路好。

paper中的實驗均在上述網路中進行，下面具體看一下。

multi-scale training and testing

在訓練階段，VGG的輸入固定為$224\times 224$，對尺寸不同的影象需要先scale再crop到$224\times 224$，理論上只需要將影象最短的邊scale到大於等於224即可進行crop，paper中設定了2種scale方式，第一種scale到256或384，第二種隨機scale到$[256, 512]$之間——384恰好位於256和512的中間，做了對比實驗。

測試階段，不再進行crop操作，而是採用了Overfeat中的一個技巧，將網路最後的3個全連線層在實現上轉化成卷積層，以適應不同尺寸的輸入，這個技巧在paper中稱之為dense。全連線層的運算方式是輸入向量與權重矩陣相乘，當權重矩陣的尺寸確定了，輸入向量的長度就不可改變了，而卷積的運算方式是權重在輸入上滑動內積，所以只需要輸入的尺寸大於kernel的視窗即可。具體地，如果輸入恰好為$224\times 224$，經歷過5次maxpool後，feature map尺寸變為$7 \times 7$，當輸入尺寸大於224時，這個feature map將大於等於$7\times 7$。將3個全連線層依次轉化為$7\times 7$卷積和2個$1\times 1$卷積，這種轉化並不改變權重，只是實現方式上的變化，此時整個網路為全卷積網路。如果輸入影象大於$224\times 224$，網路最後輸出的class score map將大於$1000 \times 1$，為了得到固定長度為1000的class score vetor，只需將其進行spatially average(sum-pooled)，然後再softmax。更多可以參見Converting Fully-Connected Layers to Convolutional Layers的解釋。

預測階段的multi scale，即將輸入影象做不同scale，分別輸入網路，對預測結果取平均。

下圖分別為single scale和mutiple scale測試的結果，測試庫為ILSVRC-2012 dataset，

上面的對比實驗，可得出以下結論：

隨著深度增加，效能變好
與A相比，A-LRN效能沒有改善，LRN用途不大
無論是training還是testing，multiple scale均能改善效能，兩者結合使用效果更佳
在當前資料集和網路結構配置上，VGG16（D）和VGG19（E）效能基本一樣，接近飽和

對於multi scale對效能的改善，想來也是合理的，因為影象中目標的尺寸並不確定，有大有小，在訓練階段通過scale jittering來增廣資料，可讓網路在一定程度上cover這種變化，而在預測階段，multi scale可以看成在輸入資料上做的整合學習，亦是提升效能的常規操作。

其他有意思的點

論文中還有一些其他有意思的點，簡單總結如下，

為了網路能正常收斂，權重的初始化很重要，原來是先訓練淺層網路A，然後用A的權重初始化後面深層網路前4個卷積層和最後3個全連線層，其他層從高斯分佈中隨機初始化。在paper submission後發現，直接採用Understanding the difficulty of training deep feedforward neural networks中的初始化方法就可以，即Xavier方法。
paper中評論，因為A-LRN中的Local Response Normalisation(LRN)沒有效果，還增加了記憶體使用和計算量，所以後面的BCDE網路就不用了（微笑）。
在ILSVRC-2014 challenge中，VGG提交的是7模型融合結果，提交後他們測試2模型的融合結果要更好，top1 val好1%，top5 val好0.5%，不過是在multi-scale traing、multi-crop和dense一起加成下取得的結果。
VGG (1 net, multi-crop & dense eval) 單網路比GoogLeNet單網路的效能要好約1%。
2014年，ImageNet競賽Top5錯誤率首次進入0~10%區間。

以上。

參考

arXiv: Very Deep Convolutional Networks for Large-Scale Image Recognition
Large Scale Visual Recognition Challenge 2014 (ILSVRC2014)
Review: VGGNet — 1st Runner-Up (Image Classification), Winner (Localization) in ILSVRC 2014

相關推薦

VGG(2014)，3x3卷積的勝利

目錄寫在前面網路結構 multi-scale training and testing 其他有意思的點參考部落格：blog.shinelee.me | 部

【模型解讀】從LeNet到VGG，看卷積+池化串聯的網路結構

文章首發於微信公眾號《與有三學AI》從本篇開始，我們將帶領大家解讀深度學習中的網路的發展 01 這是深度學習模型解讀第一篇，本篇我們將介紹LeNet，AlexNet，VGGNet，它們都是卷積+池化串聯的基本網路結構。 01 LeNet5 LeN

CNN 中， 1X1卷積核到底有什麽作用

復雜論文減少 tail 單個並行 work inception con 轉自https://blog.csdn.net/u014114990/article/details/50767786 從NIN 到Googlenet mrsa net 都是用了這個，為什麽呢發

如何儲存Tensorflow中的Tensor引數，儲存訓練中的中間引數，儲存卷積層的資料

在自己構建的卷積神經時，我想把卷積層的資料提取出來，但是這些資料是Tensor型別的網上幾乎找不到怎麼儲存的例子，然後被我發下了一下解決辦法 https://stackoverflow.com/questions/41587689/how-to-save-a-tensor-in-checkp

ResNet, AlexNet, VGG, Inception: 理解各種卷積網路的結構

卷計神經網路（Convolutional Neural Networks, CNN）對於視覺識別任務是絕佳的。好的卷積網路具有上百萬引數和很多隱藏層。事實上，一個糟糕的經驗法則（？，a bad rule of thumb）是：“隱藏層的個數越多

(轉載)感受野和座標對映的計算，以及卷積層跟全連線層的區別

轉自：http://blog.cvmarcher.com/posts/2015/05/17/cnn-trick/ 這篇文章主要講一下Convolutional Neural Network(CNN)裡面的一些概念以及技巧。 Receptive Field (感

CNN 中， 1X1卷積核到底有什麼作用呢？

我來說說我的理解，我認為1×1的卷積大概有兩個方面的作用吧：1. 實現跨通道的互動和資訊整合2. 進行卷積核通道數的降維和升維下面詳細解釋一下：1. 這一點孫琳鈞童鞋講的很清楚。1×1的卷積層（可能）引起人們的重視是在NIN的結構中，論文中林敏師兄的想法是利用MLP代替傳統的線性卷積核，從而提高網路的表達能力

數字影象處理2--數學基礎（傅立葉，拉普拉斯,卷積，差分計算）

本文是為了方便各位在影象處理中理解基本的數學模型及其表示式等，所以我們不對該類數學基礎在訊號與系統等方面的運用。歡迎評論補充！影象的頻率是表徵影象中灰度變化劇烈程度的指標，是灰度在平面空間上的梯度。

DeepLab：深度卷積網路，多孔卷積和全連線條件隨機場的影象語義分割 Semantic Image Segmentation with Deep Convolutional Nets, Atro

深度卷積網路，多孔卷積和全連線條件隨機場的影象語義分割 Taylor Guo, 2017年5月03日星期三摘要本文的主要任務是深度學習的影象語義分割，主要有3個方面的貢獻，有重要的實踐價值。首先，用上取樣濾波器進行卷積，或“多孔卷積”,

LSTM的備胎，用卷積處理時間序列——TCN與因果卷積（理論+Python實踐）

## 什麼是TCN TCN全稱Temporal Convolutional Network，時序卷積網路，是在2018年提出的一個卷積模型，但是可以用來處理時間序列。 ## 卷積如何處理時間序列時間序列預測，最容易想到的就是那個馬爾可夫模型： $$P(y_k|x_k,x_{k-1},...,x_1)$$

深度學習方法（五）：卷積神經網路CNN經典模型整理Lenet，Alexnet，Googlenet，VGG，Deep Residual Learning

歡迎轉載，轉載請註明：本文出自Bin的專欄blog.csdn.net/xbinworld。技術交流QQ群：433250724，歡迎對演算法、技術感興趣的同學加入。關於卷積神經網路CNN，網路和文獻中有非常多的資料，我在工作/研究中也用了好一段時間各種常見的model了，就想著

卷積神經網路之VGG(2014)

VGG(2014) 文章書寫匆忙，有些使用了網上其他朋友的文字以及圖片，但是沒有及時複製對應的連結，在此深表歉意，以及深深的感謝。如有朋友看到了對應的出處，或者作者發現，可以留言，小弟馬上修改，新增引用。前言 2014年是個綻放年，出了兩篇重要的論文

【Python圖像特征的音樂序列生成】深度卷積網絡，以及網絡核心

img 對比 images 兩個避免 pytho lam 其中 src 這個項目主要涉及到兩個網絡，其中卷積神經網絡用來提取圖片表達的情緒，提取出一個二維向量。網絡結構如圖：詞向量采用預訓練的glove模型，d=50，其他信息包括了圖片的“空曠程度”、亮度、

基於深度學習的病毒檢測技術無需沙箱環境，直接將樣本文件轉換為二維圖片，進而應用改造後的卷積神經網絡 Inception V4 進行訓練和檢測

進制思科開發主題需求做的病毒無法大於話題 3: 基於深度學習的二進制惡意樣本檢測分享主題：全球正在經歷一場由科技驅動的數字化轉型，傳統技術已經不能適應病毒數量飛速增長的發展態勢。而基於沙箱的檢測方案無法滿足 APT 攻擊的檢測需求，也受到多種反沙箱技術的

學習筆記TF057:TensorFlow MNIST，卷積神經網絡、循環神經網絡、無監督學習

back ide str 描述 com 類別 bat softmax 比例 MNIST 卷積神經網絡。https://github.com/nlintz/TensorFlow-Tutorials/blob/master/05_convolutional_net.py 。Te

卷積神經網絡系列之softmax，softmax loss和cross entropy的講解

caff 這一卷積神經網絡 bsp rop 技術分享有一個技術位置我們知道卷積神經網絡（CNN）在圖像領域的應用已經非常廣泛了，一般一個CNN網絡主要包含卷積層，池化層（pooling），全連接層，損失層等。雖然現在已經開源了很多深度學習框架（比如MxNet，Ca

經典卷積神經網絡（LeNet、AlexNet、VGG、GoogleNet、ResNet）的實現（MXNet版本）

lns dataset frame outer soft 想法 object googlenet bat 　　卷積神經網絡（Convolutional Neural Network, CNN）是一種前饋神經網絡，它的人工神經元可以響應一部分覆蓋範圍內的周圍單元，對於大型圖像

深度學習——卷積神經網絡的經典網絡（LeNet-5、AlexNet、ZFNet、VGG-16、GoogLeNet、ResNet）

足夠論文 ogl 相關性 spa 原因線性 pad fan 一、CNN卷積神經網絡的經典網絡綜述下面圖片參照博客：http://blog.csdn.net/cyh_24/article/details/51440344 二、LeNet-5網絡

卷積層，池化層等，前向/反向傳播原理講解

簡單代碼構建 range expand 使用場景神經網絡右下角 body 今天閑來無事，考慮到以前都沒有好好研究過卷積層、池化層等等的前向/反向傳播的原理，所以今天就研究了一下，參考了一篇微信好文，講解如下：參考鏈接：https://www.zybuluo.co

第十五節，卷積神經網絡之AlexNet網絡詳解(五)

主成分分析 ron 內容 too 步長節點隨機梯度 fc7 分辨原文 ImageNet Classification with Deep ConvolutionalNeural Networks 下載地址：http://papers.nips.cc/paper/4

VGG(2014)，3x3卷積的勝利

寫在前面

網路結構

multi-scale training and testing

其他有意思的點

參考

相關推薦