1. 程式人生 > >第二篇:基於梯度的學習

第二篇:基於梯度的學習

線性模型和神經網路模型的最大區別,在於神經網路的非線性導致大多數我們感興趣的代價函式都變得非凸。這意味著神經網路的訓練通常使用迭代的,基於梯度優化,僅僅使得代價函式達到一個非常小的值;而不是像訓練線性迴歸模型的線性方程求解器,活著用於訓練邏輯迴歸或SVM的凸優化演算法那樣可以保證全域性收斂。凸優化從任意一種初始引數出發都會收斂(理論上如此,在實踐過程中也很魯棒但可能會遇到數值問題)。用於非凸損失函式的隨機梯度下降沒有這種收斂性的保證,並且對引數的初始值很敏感。對於前饋神經網路,將所有的權重值初始化為小隨機數是很重要的。偏置可以初始化為零活著小的正值。