1. 程式人生 > >VGGnet論文總結(VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION)

VGGnet論文總結(VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION)

lrn cli 共享 融合 loss sca 得到 同時 works

VGGNet的主要貢獻:

  1、增加了網絡結構的深度

  2、使用了更小的filter(3*3)

1 introduction

這部分主要說明了,由於在所有的卷積網絡上使用了3*3的filter,所以使整體網絡的深度加深。最後在ILSVRC取得的成績也是十分明顯的。

2 Convent Configuration

2.1 ARCHITECTURE

  在前邊的卷積層上,使用3*3的filter,有時也使用1*1的filter(相當於在輸入channels上進行線性變換)。卷積操作的步長是1。總共有5個max-pooling層,大小是2*2,步長設定為2,跟在一些卷積層之後。在所有卷積層之後,跟著3個全連接層,前兩個全連接層有4096個channels,最後一個全連接層有1000個channels對應1000種分類。最後一層是soft-max層。

所有的隱藏層都有整流函數(ReLU)。

2.2 CONFIGURATIONS

  配置了A-E五種結構的網絡,深度分別對應11,11,13,16,19。卷積層的寬度從64開始,每經過一個max-pooling層,大小乘2,直到512。

2.3 DISCUSSION

  1、VGGnet使用了3個非線性整流層,相比於只使用單個,決策函數更具有判別力。

  2、使用3層疊加的3*3的filter的卷積層,要比使用一個7*7的filter的卷積層的參數要減少81%。

  另外,使用1*1的filter的卷積層可以增加決策函數的非線性特征。

3 CLASSIFICATION FRAMEWORK

3.1 TRAINING

用momentum方法的mini-batch方法,batch的大小為256,momentum設為0.9。weight decay采用L2正則化方法,懲罰因子為0.0005。對於全連接層的前兩層采用dropout的正則化方法,dropout的大小設為0.5。學習率設為0.01。

對A這樣深度不算深的網絡來說,使用隨機初始化去訓練參數,然後用A訓練得到的參數去初始化其他更深的網絡。

用來訓練的圖片的規格大小:第一步設定要訓練的圖片的規格S = 256,當訓練規格S=384的網路時,先用S=256的結果初始化,然後使用0.001的訓練速率。第二步,在一定的範圍內隨機截取要訓練的圖片,然後用S=384訓練得到的結果去初始化這個網絡。

3.2 TESTING

在測試過程中,使用了兩種方法,第一種是dense evaluation,使用FCN。第二種是multi-cripevaluation,通過截取獲得一個大的數據集,能是提高結果的精確度。

3.3 IMPLEMENTATION DETAILS

實現基於caffe,做了一定的修改,允許在單操作系統的多核GPU上進行訓練。用多GPU進行並行計算每個batch的梯度,當所有的GPU都計算完成之後,求所有batch得到梯度的平均值。

4 CLASSIFICATION EXPERIMENTS

4.1 SINGLE SCALE EVALUATION

1.LRN不能降低錯誤率,後續網絡中不再使用

2.隨著網絡層數的加深,分類錯誤率逐漸降低

3.scale jittering可以使表現結果更好

4.2 MULTI-SCALE EVALUATION

在訓練時用scale jittering可以使結果表現的更好,比使用單一規模

4.3 MULTI-CROP EVALUATION

單一使用multi-crop evaluation 要比單一使用dense evaluation效果好,兩個方法同時使用時,要比單一使用任意都好。

4.4 CONVNET FUSION

將幾個模型的soft-max分類策略的輸出求平均後再用於識別,這樣可以提高最後的表現。

5 CONCLUSION

通過在大規模的圖片分類上評估深度卷積神經網絡,表明深度有益於分類的精確度,並且通過使用加深了的傳統卷積神經網絡,能達到在ImageNet數據集上的最好表現。

附錄A LOCALISATION

A.1 LOCALISATION CONVNET

與分類的區別是,在最後一個全連接層,使用bounding box代替 class scores。 如果bounding box的在所有類交叉共享的,那麽最後一層就是4-D,如果是特定類,那最後一層就是4000-D。

Training. 和分類主要的不同是,用Euclidean loss替換logistic regression objective,在懲罰bounding box預測偏差的時候。訓練模型時,不使用scale jittering

Testing. 測試使用兩種不同的測試方法,

1、bounding box只在圖像裁剪中心得到,用於比較在驗證集下不同的網絡限制,bounding box的預測效果。

2、在整個圖像上,密集的應用定位網絡。與分類任務不同的是,用一組bounding box的預測代替class score map。為了提出最後的結果,使用貪婪融合過程,先融合相近的預測,然後用class scores進行估計。

A.2 LOCALISATION EXPERIMENTS

Settings comparison. 1、使用PCR的效果要比使用SCR的效果好。2、微調所有層比僅微調全連接層的效果好

Fully-fledged evaluation 使用最優的設置(PCR, fine-tuning of all ayers),圖像的scale對結果有影響。

Comparison with the state of the art.

附錄B GENERALISATION OF VERY DEEP FEATURES

VGGnet論文總結(VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION)