1. 程式人生 > >深度學習核心技術實戰——影象分類模型

深度學習核心技術實戰——影象分類模型

                                                                              影象分類模型

1.LeNet-5: 每一個卷積核都會形成一個特徵圖,3個通道則是每個通道是不同的卷積核,但是最後是將三通道的卷積值相加,最後變成一個通道,所以5*5*64的卷積核,感知範圍是5*5,最後出來是64層(個特徵圖)。每個卷積核都包括w(權重)和b(bias偏置)。LeNet-5最初用於手寫數字識別。

2.AlexNet:5個卷積層和3個全連線層 最後輸出層是1000類的Softmax。

使用如下創新:

1) ReLU 非線性啟用函式

2) 多GPU訓練

3) 區域性響應歸一化

4) 重疊池化

3.降低過擬合的方法:

1) 資料增強:對影象資料進行變換

2) Dropout  隨機的關閉一定比例的節點(神經元)

4.VGGnet:最後輸出為4096維,全連線層是1000維(1000類別)。最後一層是Softmax層

隱層使用ReLU

5.GoogleNet:2014ILSVRC分類任務冠軍。22層

創新點:用全域性平均池化層取代全連線層,借鑑了NIN(network in network)的做法

MLP網路能夠更好的擬合局部特徵,也增強了輸入區域性的表達能力,NIN不在分類層前使用全連線,而是採用全域性平均池化。

提高深度網路效果的方式是:增大網路尺寸。但是帶來了更多的引數和計算資源需求。

改善方案:

1) 引入稀疏性

2) Hebbin原則:兩個神經元同步激發,則他們之間的權重增加,如果單獨激發,則權重減少。

GoogleNet就是利用Inception自動構建非一致結構的神經網路。

ResNet:殘差網路shortcut  一定程度上解決了過深模型梯度發散導致無法訓練的問題。

DenseNet 從第一層開始每層都作為後面各層的輸入。

Dual Path Network:雙通道神經網路