深度學習核心技術實戰——影象分類模型
影象分類模型
1.LeNet-5: 每一個卷積核都會形成一個特徵圖,3個通道則是每個通道是不同的卷積核,但是最後是將三通道的卷積值相加,最後變成一個通道,所以5*5*64的卷積核,感知範圍是5*5,最後出來是64層(個特徵圖)。每個卷積核都包括w(權重)和b(bias偏置)。LeNet-5最初用於手寫數字識別。
2.AlexNet:5個卷積層和3個全連線層 最後輸出層是1000類的Softmax。
使用如下創新:
1) ReLU 非線性啟用函式
2) 多GPU訓練
3) 區域性響應歸一化
4) 重疊池化
3.降低過擬合的方法:
1) 資料增強:對影象資料進行變換
2) Dropout 隨機的關閉一定比例的節點(神經元)
4.VGGnet:最後輸出為4096維,全連線層是1000維(1000類別)。最後一層是Softmax層
隱層使用ReLU
5.GoogleNet:2014ILSVRC分類任務冠軍。22層
創新點:用全域性平均池化層取代全連線層,借鑑了NIN(network in network)的做法
MLP網路能夠更好的擬合局部特徵,也增強了輸入區域性的表達能力,NIN不在分類層前使用全連線,而是採用全域性平均池化。
提高深度網路效果的方式是:增大網路尺寸。但是帶來了更多的引數和計算資源需求。
改善方案:
1) 引入稀疏性
2) Hebbin原則:兩個神經元同步激發,則他們之間的權重增加,如果單獨激發,則權重減少。
GoogleNet就是利用Inception自動構建非一致結構的神經網路。
ResNet:殘差網路shortcut 一定程度上解決了過深模型梯度發散導致無法訓練的問題。
DenseNet 從第一層開始每層都作為後面各層的輸入。
Dual Path Network:雙通道神經網路