論文學習-系統評估卷積神經網路各項超引數設計的影響-Systematic evaluation of CNN advances on ...

神經網路大資料 · 發表 2018-11-13 10:10:00

摘要：寫在前面論文狀態：Published in CVIU Volume 161 Issue C, August 2017 論文地址： https://arxiv.org/abs/1606.02228 github地址： https://github.com/ducha-aiki...

寫在前面

論文狀態：Published in CVIU Volume 161 Issue C, August 2017

論文地址： ofollow,noindex" target="_blank">https://arxiv.org/abs/1606.02228

github地址： https://github.com/ducha-aiki/caffenet-benchmark

在這篇文章中，作者在ImageNet上做了大量實驗，對比卷積神經網路架構中各項超引數選擇的影響，對如何優化網路效能很有啟發意義，對比實驗包括 啟用函式 （sigmoid、ReLU、ELU、maxout等等）、 Batch Normalization (BN) 、 池化方法與視窗大小 （max、average、stochastic等）、 學習率decay策略 （step, square, square root, linear 等）、輸入影象顏色空間與預處理、分類器設計、網路寬度、 Batch size 、 資料集大小 、 資料集質量 等等，具體見下圖

實驗時所有的網路都是在ImageNet網路上訓練得到，分1000類，訓練集1.2M，驗證集50K，測試集100K。實驗所用的基礎架構（Baseline）從CaffeNet修改而來，有以下幾點不同：

輸入影象resize為128（出於速度考慮）
fc6和fc7神經元數量從4096減半為2048
網路使用 LSUV 進行初始化
移除了LRN層（對準確率無貢獻，出於速度考慮移除）

所有效能比較均以基礎架構為Baseline，Baseline accuracy為47.1%，Baseline網路結構如下

論文實驗結論

論文通過 控制變數 的方式進行實驗，最後給出瞭如下建議：

不加 BN時使用 ELU，加BN時使用ReLU （加BN時，兩者其實差不多）
對輸入RGB圖學習一個顏色空間變換，再接網路
使用linear decay學習策略
池化層將average與max求和
BatchSize使用128或者256，如果GPU記憶體不夠大，在調小BatchSize的同時同比減小學習率
用卷積替換全連線層，在最後決策時對輸出取平均
當決定要擴大訓練集前，先檢視是否到了“平坦區”——即 評估增大資料集能帶來多大收益
資料清理比增大資料集更重要
如果不能提高輸入影象的大小，減小隱藏層的stride有近似相同的效果
如果網路結構複雜且高度優化過，如GoogLeNet，做修改時要小心——即將 上述修改在簡單推廣到複雜網路時不一定有效

需要注意的是，在Batch Size和學習率中，文章僅做了兩個實驗，一個是固定學習調整BatchSize，另一個學習率與Batch Size同比增減，但兩者在整個訓練過程中的Batch Size都保持不變，在這個條件下得出了 學習率與Batch Size同比增減策略是有效的 結論。最近Google有一篇文章《Don't Decay the Learning Rate, Increase the Batch Size》提出了在訓練過程中逐步增大Batch Size的策略。

論文實驗量非常大，每項實驗均通過控制變數測試單一或少數因素變化的影響，相當於通過貪心方式一定意義上獲得了每個區域性最優的選擇，最後將所有區域性最優的選擇彙總在一起仍極大地改善了效能（但 不意味著找到了所有組合中的最優選擇 ）。實驗結果主要是在CaffeNet（改）上的得出的，並不見得能推廣到所有其他網路。

但是，總的來講，本篇文章做了很多筆者曾經想過但“沒敢”做的實驗，實驗結果還是很有啟發意義的，值得一讀。

文章全部實驗彙總如下， github 上有更多實驗結果：

論文細節

一圖勝千言，本節主要來自論文圖表。

啟用函式

在計算複雜度與ReLU相當的情況下， ELU的單一表現最好，ELU（卷積後）+maxout（全連線後）聯合表現最好，前者提升約2個百分點，後者約4個百分點。值得注意的是，不使用非線性啟用函式時，效能down了約8個百分點，並非完全不能用。

池化

方法上， max和average池化結合取得最好效果 （結合方式為 element-wise 相加），作者推測是因為同時具備了max的選擇性和average沒有扔掉資訊的性質。尺寸上，在保證輸出尺寸一樣的情況下，non-overlapping優於overlapping——前者的kernel size更大。