吳恩達深度學習第四課：卷積神經網路（學習筆記2）

阿新 • • 發佈：2019-01-12

前言

1.之所以堅持記錄，是因為看到其他人寫的優秀部落格，內容準確詳實，思路清晰流暢，這也說明了作者對知識的深入思考。我也希望能儘量將筆記寫的準確、簡潔，方便自己回憶也方便別人參考；
2.昨天看到兩篇關於計算機視覺的發展介紹的文章：[觀點|朱鬆純：初探計算機視覺三個源頭兼談人工智慧]、如何做好計算機視覺的研究[轉]。
花了將近一個小時認真閱讀，讓我對自身思考問題的方式重新產生了思考：我在解決一個問題的時候，有沒有想過它為什麼發生？解決它有什麼意義？有前人解決過這個問題嗎？這個問題的解決思路有哪些？現在的研究趨勢是什麼？這種種的最基本、最重要的問題我卻從來都沒有思考過，也就是我對問題的思考深度和廣度還遠遠不夠，而只是想著如何快速借鑑別人的模型來完成訓練並得到結果，而這種方式對於我的思考習慣卻毫無用處，甚至十分危險！

學習內容

經典網路

上一篇文章中記錄了卷積神經網路中的基礎結構，如卷積層、池化層、全連線層和分類器softmax，這篇文章先講講卷積神經網路的第一個用途——分類。

LeNet-5

最經典、最遠古的分類器（上古神器），也是其基礎結構。該網路結構為：
卷積層——池化層——卷積層——池化層——全連線層——全連線層——分類器——概率輸出
這裡寫圖片描述

LeNet-5架構十分簡單清晰，作為傳統的經典網路，其思路是通過卷積操作和池化操作將原始輸入特徵用濾波器抓取並儲存在通道之中。輸出的寬度和高度都在減小，通道數在不斷加深，作為識別黑白手寫十種字型的目地，其效果不錯。
不同之處：啟用函式為sigmoid和tanh；過濾器使用的是5*5，過濾器個數由6個增加到16個；使用的池化層為平均池化；引數60K。

AlexNet

AlexNet是進階版，因為輸入更加複雜，需要加入的卷積操作更多，需要記住的影象特徵資訊也更多。
這裡寫圖片描述

圖中可以看到組成：卷積1—最大池化1—卷積same2—最大池化2—卷積same3—池化3—卷積same4—最大池化4—全分類1—全分類2—全分類3—分類器softmax
這張圖中很詳細的標明瞭其操作變化過程，相比Lenet-5的不同之處：
- 第一個過濾器尺寸較大：11 * 11，其後均為3 * 3或者5 * 5，網路更深
- 池化層加入了填充，padding=same，即池化後尺寸高度和寬度不變，僅調整通道數
- 使用啟用函式Relu
- 引數個數增加至60million
- 使用了LRN，但是效果不太明顯

VGG16

此網路還是比較適合個人實現和使用的，可以用tensorflow一步步實現，增加直觀理解和提高程式設計能力，也能用於實際生活中的分類問題。
這裡寫圖片描述

相比於AlexNet，VGG-16變得更加深入，在嘗試了許多不同的模型之後，他們選擇了16層的模型提供最好的效果，上圖也很清楚的展現了卷積和池化過程，簡而言之，讓原始輸入的高度和寬度變得越來越小，讓其通道變得越來越深，最後全連線分類。
特點：
- 深度增加到16層，引數大量增加：138million
- 卷積層均使用的3*3，s=1和same，簡便明瞭

Residual CNN

囉嗦半天，重點在接下來兩個，ResCNN是2015年何愷明和孫健等提出模型，針對深度神經網路在網路結構變深之後梯度消失的問題提出了非常棒的解決方法。
這裡寫圖片描述

簡而言之，大神的思路是將上一層輸入結果通過額外增加一條shot cut“小路”直接傳遞給下一層的啟用函式，也就意味著在下一層的啟用函式不是g（z[l+2]）而是g（z[l+2]+a[l]），這樣一來，在回傳過程中即使在常規路線上梯度消失，但還有shot cut存在，可以有效的提高訓練速度和效率。

Inception

在介紹Inception之前還需要介紹下1*1卷積操作，示意圖如下：

1*1卷積操作特點是保證輸入的寬度和高度不變而調整其通道大小，可以有效減少計算引數

這裡寫圖片描述

此為Inception模組的典型結構，區別於傳統的單通道卷積結構，它使用的是多路徑卷積的思想，可有效獲取高度非線性特徵，同時加入1* 1卷積可有效降低計算引數，圖中已經標註了每個卷積轉換後的輸出，通過四個路徑的結果疊加，最終將輸入的28* 28* 192轉換為28* 28*256。
這裡寫圖片描述

整體結構如圖所示，先將輸入卷積操作後輸入3大塊Inception模組，同時在其側面和最後共有三個分類器，他們分別計算分類結果並去加權平方值，保證結果的準確性。GoogleNet共有四個進化版本，有興趣可以進一步瞭解。

總結

1.經典模型：三大部件組成，網路深度逐漸增加，啟用函式改變，但仍然很難達到超越人類的識別準確率；
2.進階模型：殘差網路在加入了shot cut之後，可有效地解決了反向傳播梯度消失的問題，使得網路加深並保持穩定效能成為可能，且在imagenet比賽中，準確率超過人類3.5%錯誤率；
Inception網路利用了多路傳播和1*1卷積，大幅度減少計算引數（減少10倍），大大提高訓練速度，同時三個分類器也在一定程度上提高了結果的準確率。

回顧

卷積神經網路的根本任務是：建立效能良好且具有泛化能力的模型，通過訓練模型引數來提高表現效能，模型深度越深，表達能力越強，但引數計算量大和梯度消失問題難以解決！

從經典神經網路到Resnet網路，都是在努力提高模型效能，但1998年的Letnet-5因計算能力和資料限制，只能建立相對簡單的卷積網路；2012年的Alexnet和2015年的VGG16都是在有了一定資料和計算能力之後才開始逐步加深，但隨著網路加深，出現了反向傳播梯度消失和爆炸的問題，這就限制了網路的深度。

2015年提出的ResNet採用加入shot cut的思路保證了梯度順利傳播，有效解決了提出消失的問題，使得卷積神經網路的深度可以達到上百近千層，這也大大加強了卷積神經網路的表達能力，不僅僅是為影象分類問題，還有場景識別、人體骨骼點定位等提供了有力的架構支援。

當然，好的網路架構是必須的，還有更多的超引數除錯優化技術逐漸加入，如BN、dropout、正則化L2等等，既能保證模型的高效訓練，也能減少模型的過擬合問題，大大促進了卷積神經網路甚至是計算機視覺領域的發展！

吳恩達深度學習第四課：卷積神經網路（學習筆記2）

前言

學習內容

經典網路

LeNet-5

AlexNet

VGG16

Residual CNN

Inception

總結

回顧

吳恩達深度學習第四課：卷積神經網路（學習筆記2）

第四課：兩種監聽器方法（基於AndroidStudio3.2）

吳恩達deeplearning.ai第四課學習心得：卷積神經網路與計算機視覺

吳恩達深度學習系列課程筆記：卷積神經網路（一）

深度學習UFLDL教程翻譯之卷積神經網路（一）

TensorFlow學習筆記（5）--實現卷積神經網路（MNIST資料集）

機器學習13：卷積神經網路（CNN）

Tensorflow基礎：卷積神經網路遷移學習

Pytorch_第十篇_卷積神經網路（CNN）概述

吳恩達深度學習筆記（deeplearning.ai）之卷積神經網路（CNN）（上）

吳恩達Deeplearning.ai 第五課 Sequence Model 第一週------Deep RNNs

吳恩達Deeplearning.ai 第五課 Sequence Model 第一週------Sampling novel sequence

吳恩達Deeplearning.ai 第五課 Sequence Model 第一週------Recurrent Neural Network Model

吳恩達Deeplearning.ai 第五課 Sequence Model 第一週------Long Short Term Memory(LSTM)

Coursera 吳恩達DeepLearning.AI 第五課 sequence model 序列模型第一週 Improvise a Jazz Solo with an LSTM Network

吳恩達Deeplearning.ai 第五課 Sequence Model 第一週------Backpropagation through time

Coursera 吳恩達DeepLearning.AI 第五課 sequence model 序列模型第二週 Emofify

Deep Learning.ai學習筆記_第四門課_卷積神經網路

卷積神經網路（3）:目標檢測學習筆記[吳恩達Deep Learning]

【學習筆記1】吳恩達_卷積神經網路_第一週卷積神經網路（1）

吳恩達深度學習第四課：卷積神經網路（學習筆記2）

前言

學習內容

經典網路

LeNet-5

AlexNet

VGG16

Residual CNN

Inception

總結

回顧

相關推薦