VGGnet論文總結（VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION）

阿新 • • 發佈：2017-09-12

lrn cli 共享融合 loss sca 得到同時 works

VGGNet的主要貢獻：

　　1、增加了網絡結構的深度

　　2、使用了更小的filter（3*3）

1 introduction

這部分主要說明了，由於在所有的卷積網絡上使用了3*3的filter，所以使整體網絡的深度加深。最後在ILSVRC取得的成績也是十分明顯的。

2 Convent Configuration

2.1 ARCHITECTURE

　　在前邊的卷積層上，使用3*3的filter，有時也使用1*1的filter（相當於在輸入channels上進行線性變換）。卷積操作的步長是1。總共有5個max-pooling層，大小是2*2，步長設定為2，跟在一些卷積層之後。在所有卷積層之後，跟著3個全連接層，前兩個全連接層有4096個channels，最後一個全連接層有1000個channels對應1000種分類。最後一層是soft-max層。

所有的隱藏層都有整流函數(ReLU)。

2.2 CONFIGURATIONS

　　配置了A-E五種結構的網絡，深度分別對應11,11,13,16,19。卷積層的寬度從64開始，每經過一個max-pooling層，大小乘2，直到512。

2.3 DISCUSSION

　　1、VGGnet使用了3個非線性整流層，相比於只使用單個，決策函數更具有判別力。

　　2、使用3層疊加的3*3的filter的卷積層，要比使用一個7*7的filter的卷積層的參數要減少81%。

　　另外，使用1*1的filter的卷積層可以增加決策函數的非線性特征。

3 CLASSIFICATION FRAMEWORK

3.1 TRAINING

用momentum方法的mini-batch方法，batch的大小為256，momentum設為0.9。weight decay采用L2正則化方法，懲罰因子為0.0005。對於全連接層的前兩層采用dropout的正則化方法，dropout的大小設為0.5。學習率設為0.01。

對A這樣深度不算深的網絡來說，使用隨機初始化去訓練參數，然後用A訓練得到的參數去初始化其他更深的網絡。

用來訓練的圖片的規格大小：第一步設定要訓練的圖片的規格S = 256，當訓練規格S=384的網路時，先用S=256的結果初始化，然後使用0.001的訓練速率。第二步，在一定的範圍內隨機截取要訓練的圖片，然後用S=384訓練得到的結果去初始化這個網絡。

3.2 TESTING

在測試過程中，使用了兩種方法，第一種是dense evaluation，使用FCN。第二種是multi-cripevaluation，通過截取獲得一個大的數據集，能是提高結果的精確度。

3.3 IMPLEMENTATION DETAILS

實現基於caffe，做了一定的修改，允許在單操作系統的多核GPU上進行訓練。用多GPU進行並行計算每個batch的梯度，當所有的GPU都計算完成之後，求所有batch得到梯度的平均值。

4 CLASSIFICATION EXPERIMENTS

4.1 SINGLE SCALE EVALUATION

1.LRN不能降低錯誤率，後續網絡中不再使用

2.隨著網絡層數的加深，分類錯誤率逐漸降低

3.scale jittering可以使表現結果更好

4.2 MULTI-SCALE EVALUATION

在訓練時用scale jittering可以使結果表現的更好，比使用單一規模

4.3 MULTI-CROP EVALUATION

單一使用multi-crop evaluation 要比單一使用dense evaluation效果好，兩個方法同時使用時，要比單一使用任意都好。

4.4 CONVNET FUSION

將幾個模型的soft-max分類策略的輸出求平均後再用於識別，這樣可以提高最後的表現。

5 CONCLUSION

通過在大規模的圖片分類上評估深度卷積神經網絡，表明深度有益於分類的精確度，並且通過使用加深了的傳統卷積神經網絡，能達到在ImageNet數據集上的最好表現。

附錄A LOCALISATION

A.1 LOCALISATION CONVNET

與分類的區別是，在最後一個全連接層，使用bounding box代替 class scores。如果bounding box的在所有類交叉共享的，那麽最後一層就是4-D，如果是特定類，那最後一層就是4000-D。

Training. 和分類主要的不同是，用Euclidean loss替換logistic regression objective，在懲罰bounding box預測偏差的時候。訓練模型時，不使用scale jittering

Testing. 測試使用兩種不同的測試方法，

1、bounding box只在圖像裁剪中心得到，用於比較在驗證集下不同的網絡限制，bounding box的預測效果。

2、在整個圖像上，密集的應用定位網絡。與分類任務不同的是，用一組bounding box的預測代替class score map。為了提出最後的結果，使用貪婪融合過程，先融合相近的預測，然後用class scores進行估計。

A.2 LOCALISATION EXPERIMENTS

Settings comparison. 1、使用PCR的效果要比使用SCR的效果好。2、微調所有層比僅微調全連接層的效果好

Fully-fledged evaluation 使用最優的設置（PCR, fine-tuning of all ayers），圖像的scale對結果有影響。

Comparison with the state of the art.

附錄B GENERALISATION OF VERY DEEP FEATURES

VGGnet論文總結（VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION）

lrn cli 共享融合 loss sca 得到同時 works VGGNet的主要貢獻：　　1、增加了網絡結構的深度　　2、使用了更小的filter（3*3） 1 introduction 這部分主要說明了，由於在所有的卷積網絡上使用了3*3的filter，所以使

VGGnet論文總結（VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION）

VGGnet論文總結（VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION）

深度學習論文隨記（二）---VGGNet模型解讀-2014年（Very Deep Convolutional Networks for Large-Scale Image Recognition）

論文筆記《Very Deep Convolutional Networks for Large-Scale Image Recognition》

VGG學習筆記-Very Deep Convolutional Networks for Large-Scale Image Recognition

深度學習研究理解10：Very Deep Convolutional Networks for Large-Scale Image Recognition

VGG——Very deep convolutional networks for large-scale image recognition

論文閱讀筆記四十一：Very Deep Convolutional Networks For Large-Scale Image Recongnition（VGG ICLR2015）

VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNTION（翻譯）

論文閱讀筆記二十四：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition（SPPNet CVPR2014）

【論文閱讀】Accurate Image Super-Resolution Using Very Deep Convolutional Networks

深度學習論文翻譯解析（九）：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

論文DenseNet（Densely Connected Convolutional Networks）解讀

【CV論文閱讀】Two stream convolutional Networks for action recognition in Vedios

SPP-net(Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition)

[論文閱讀筆記]Two-Stream Convolutional Networks for Action Recognition in Videos

【筆記】SPP-Net : Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

SPP(Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition)

【論文筆記】Region-based Convolutional Networks for Accurate Object Detection and Segmentation

[論文閱讀筆記]U-Net: Convolutional Networks for Biomedical Image Segmentation

深度學習論文翻譯解析（五）：Siamese Neural Networks for One-shot Image Recognition

VGGnet論文總結（VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION）

相關推薦