1. 程式人生 > >讀《一天搞懂深度學習》ppt的筆記

讀《一天搞懂深度學習》ppt的筆記

讀《一天搞懂深度學習》ppt筆記

softmax

輸出層:
一般情況下,輸出層可以輸出任何值:

在輸出層前加Softmax Layer:

推薦的開發工具:


tips


不要總是將原因歸到過擬合,下圖中,56層的網路在訓練集誤差大,所以這個就是沒訓練好,而不是在測試集的過擬合。
20層的是過擬合。

對訓練過程:

(1)選擇合適的損失


(2)需要mini batch


也就是批梯度下降法。快而且好的方法。

每100個數據進行一次梯度下降
整個訓練集資料拿來訓練20輪
- 每輪整個資料集迭代結束後,對資料進行一次打亂,即shuffle

(3)選擇合適的激勵函式


可以解決梯度消失問題
很多都是用relu作為激勵函式。

(4)恰當的學習率


Adagrad可以達到學習率由大變小:

(5)momentum



對測試資料:


早停:

權重消失

L1正則化其實就是這個

dropput

在訓練集上:
在每一個mini batch 資料迭代更新完權重後,重新抽樣dropout的神經元。這樣,每個mini batch 訓練的都是一個新結構的網路。網路的結構在重新抽樣中被改變了。
在測試集上:
不能dropout
dropout和maxout在一起可以工作的更好



網路結構