1. 程式人生 > >「Deep Learning」ILSVRC2012-2017影象分類經典卷積網路

「Deep Learning」ILSVRC2012-2017影象分類經典卷積網路

    分道揚鑣說的是牛津大學VGG設計的網路和谷歌設計的網路在表徵能力的增強上採用不同的思路。殊途同歸說的是兩者的分類效能差不多,前者是亞軍,後者是冠軍。VGGNet-16和-19是基於網路加深會增強表徵能力的思路,如圖6。可是,在訓練上帶來了不少麻煩,比如需要先訓練淺網路和再逐漸加深,如果要end2end訓練需要精心設計的初始化方法,常用的是Xavier(基於線性假設)和MSRA(基於ReLU非線性假設)。如圖7所示,Kaiming給了我們4點經驗。GoogLeNet是基於多尺度特徵融合的思路,先設計Inception模組,後堆疊這些模組構成分類網路,如圖8。論文中使用的輔助分類器(圖8前面兩個黃色的矩形框)思路是為了解決深層網路網路難以訓練的問題。該網路的特點如Kaiming總結為又準又開銷小,所以Inception後面就有Xception和MobileNet,這些網路考慮推理過程的efficiency,好部署在移動裝置上。Kaiming總結了三點,第一點是Inception模組中的多分支,第二點是shortcuts: 單獨1*1卷積分支,第三點是bottlenecks: 先進行1*1卷積降維,再升維。shortcuts和resnet的identity mapping一樣,可以幫助相關的block訓練。這是第一版,有了BatchNorm是第二版,Rethinking是第三版,結合residual block是第四版。