讀《一天搞懂深度學習》ppt的筆記
阿新 • • 發佈:2019-01-27
讀《一天搞懂深度學習》ppt筆記
softmax
輸出層:
一般情況下,輸出層可以輸出任何值:
在輸出層前加Softmax Layer:
推薦的開發工具:
tips
不要總是將原因歸到過擬合,下圖中,56層的網路在訓練集誤差大,所以這個就是沒訓練好,而不是在測試集的過擬合。
20層的是過擬合。
對訓練過程:
(1)選擇合適的損失
(2)需要mini batch
也就是批梯度下降法。快而且好的方法。
每100個數據進行一次梯度下降
整個訓練集資料拿來訓練20輪
- 每輪整個資料集迭代結束後,對資料進行一次打亂,即shuffle
(3)選擇合適的激勵函式
可以解決梯度消失問題
很多都是用relu作為激勵函式。
(4)恰當的學習率
Adagrad可以達到學習率由大變小:
(5)momentum
對測試資料:
早停:
權重消失
L1正則化其實就是這個
dropput
在訓練集上:
在每一個mini batch 資料迭代更新完權重後,重新抽樣dropout的神經元。這樣,每個mini batch 訓練的都是一個新結構的網路。網路的結構在重新抽樣中被改變了。
在測試集上:
不能dropout
dropout和maxout在一起可以工作的更好