1. 程式人生 > >深度學習在影象分類等任務中的發展

深度學習在影象分類等任務中的發展

本文簡單介紹一下2012年以來幾篇重要的影象分類論文。

2012年AlexNet[1],證明了深層CNN網路能提升影象分類的效果。該文章使用了8層的網路,獲得了2012年ImageNet資料集上影象分類的冠軍。核心trick就是relu+local response normalization + overlapping pooling。為了避免過擬合使用了data augmentation + dropout。

針對單純通過增大網路結構來提升效果的問題,2014年GoogLeNet[2]另闢蹊蹺,通過從設計網路結構的角度來提升效果。論文設計了Iception這種結構來捕捉不同scale的特徵,同時又通過1乘1的卷積來降維。為了緩解梯度消失的問題,又使用了auxiliary classifiers的trick。論文的主要貢獻是證明了不同scale特徵級聯使用可以提升效果。2015年又有基於GoogLeNet的改進版[[3],主要是提出了一些網路設計準則,並根據準則改進Inception。

2015年VGG[4],進一步證明了depth在計算機視覺中的重要性。論文中使用的卷積核大小為3乘3,通過對比不同depth的網路,來證明depth大時效果更好。論文中分別對比的depth為11,13,16,19。

2015年更為重要的兩個工作是高速公路網路[5]和深度殘差網路[6]。高速公路網路有點借鑑LSTM門單元的思想,通過門控制shortcut connections,從而控制資訊傳播,從而可以訓練更深層的網路。深度殘差網路首先提出深層網路存在degradation的現象,受該現象的啟發,提出了擬合殘差網路的方法。核心思想是shortcut connection時恆為identity,根據輸入x去擬合F(x)=H(x)-x,最後再把F(x)與shortcut connection相加。當x與F(x)的維度不一樣時,對x有補0和projection兩種方式,projection的方式效果會稍微好一點點但是引數會多很多,因此論文使用了補0的方式。通過這種擬合殘差網路的方法,隨著網路的增加就沒有再觀測到degradation的現象了。該方法是2015年的大贏家,在ImageNet和COCO等資料集上的多種任務中獲得冠軍。

[1]. ImageNet Classification with Deep ConvolutionalNeural Networks 

[2]. Going deeper with convolutions 

[3]. Rethinking the Inception Architecture for Computer Vision 

[4]. VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION 

[5]. Highway Networks 

[6]. Deep Residual Learning for Image Recognition