深度學習在影象分類等任務中的發展

阿新 • • 發佈：2019-02-02

本文簡單介紹一下2012年以來幾篇重要的影象分類論文。

2012年AlexNet[1]，證明了深層CNN網路能提升影象分類的效果。該文章使用了8層的網路，獲得了2012年ImageNet資料集上影象分類的冠軍。核心trick就是relu+local response normalization + overlapping pooling。為了避免過擬合使用了data augmentation + dropout。

針對單純通過增大網路結構來提升效果的問題，2014年GoogLeNet[2]另闢蹊蹺，通過從設計網路結構的角度來提升效果。論文設計了Iception這種結構來捕捉不同scale的特徵，同時又通過1乘1的卷積來降維。為了緩解梯度消失的問題，又使用了auxiliary classifiers的trick。論文的主要貢獻是證明了不同scale特徵級聯使用可以提升效果。2015年又有基於GoogLeNet的改進版[[3]，主要是提出了一些網路設計準則，並根據準則改進Inception。

2015年VGG[4]，進一步證明了depth在計算機視覺中的重要性。論文中使用的卷積核大小為3乘3，通過對比不同depth的網路，來證明depth大時效果更好。論文中分別對比的depth為11，13，16，19。

2015年更為重要的兩個工作是高速公路網路[5]和深度殘差網路[6]。高速公路網路有點借鑑LSTM門單元的思想，通過門控制shortcut connections，從而控制資訊傳播，從而可以訓練更深層的網路。深度殘差網路首先提出深層網路存在degradation的現象，受該現象的啟發，提出了擬合殘差網路的方法。核心思想是shortcut connection時恆為identity，根據輸入x去擬合F(x)=H(x)-x，最後再把F(x)與shortcut connection相加。當x與F(x)的維度不一樣時，對x有補0和projection兩種方式，projection的方式效果會稍微好一點點但是引數會多很多，因此論文使用了補0的方式。通過這種擬合殘差網路的方法，隨著網路的增加就沒有再觀測到degradation的現象了。該方法是2015年的大贏家，在ImageNet和COCO等資料集上的多種任務中獲得冠軍。

[1]. ImageNet Classification with Deep ConvolutionalNeural Networks

[2]. Going deeper with convolutions

[3]. Rethinking the Inception Architecture for Computer Vision

[4]. VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

[5]. Highway Networks

[6]. Deep Residual Learning for Image Recognition

深度學習在影象分類等任務中的發展

深度學習在影象分類等任務中的發展

深度學習影象分類（一）——AlexNet論文理解

無監督深度學習影象分類思路

深度學習影象分類技術最近進展（以面板癌影象分類為例）

深度學習影象處理（分類or檢測）中結果的評價方法-mAP簡介

用深度學習解決自然語言處理中的7大問題，文字分類、語言建模、機器翻譯

機器學習之分類器——Matlab中各種分類器的使用總結（隨機森林、支援向量機、K近鄰分類器、樸素貝葉斯等）

【王曉剛】深度學習在圖像識別中的研究進展與展望

openSUSE 多個GPU設置深度學習 Caffe PyTorch 等

【深度學習篇】--神經網絡中的調優

深度學習—線性分類器理解

深度學習在CTR預估中的應用

【讀書1】【2017】MATLAB與深度學習——多元分類(3)

【讀書1】【2017】MATLAB與深度學習——多元分類(2)

【讀書1】【2017】MATLAB與深度學習——多元分類(1)

【讀書1】【2017】MATLAB與深度學習——二元分類(2)

【讀書1】【2017】MATLAB與深度學習——二元分類(1)

學習筆記之——基於深度學習的分類網路

深度學習影象標註工具LabelImg安裝說明

深度學習在視訊動作識別中的應用

深度學習在影象分類等任務中的發展

相關推薦