1. 程式人生 > >深度學習網絡結構中超參數momentum了解

深度學習網絡結構中超參數momentum了解

操作 如何 moment 新的 定性 nbsp 結果 初始化 結構

訓練網絡時,通常先對網絡的初始權值按照某種分布進行初始化,如:高斯分布。初始化權值操作對最終網絡的性能影響比較大,合適的網絡初始權值能夠使得損失函數在訓練過程中的收斂速度更快,從而獲得更好的優化結果。但是按照某類分布隨機初始化網絡權值時,存在一些不確定因素,並不能保證每一次初始化操作都能使得網絡的初始權值處在一個合適的狀態。不恰當的初始權值可能使得網絡的損失函數在訓練過程中陷入局部最小值,達不到全局最優的狀態。因此,如何消除這種不確定性,是訓練深度網絡是必須解決的一個問題。 momentum 動量能夠在一定程度上解決這個問題。momentum 動量是依據物理學的勢能與動能之間能量轉換原理提出來的。當 momentum 動量越大時,其轉換為勢能的能量也就越大,就越有可能擺脫局部凹域的束縛,進入全局凹域。momentum 動量主要用在權重更新的時候。一般,神經網絡在更新權值時,采用如下公式:
                         w = w - learning_rate * dw
引入momentum後,采用如下公式:
               v = mu * v - learning_rate * dw w = w + v

其中,v初始化為0,mu是設定的一個超變量,最常見的設定值是0.9。可以這樣理解上式:如果上次的momentum(v)與這次的負梯度方向是相同的,那這次下降的幅度就會加大,從而加速收斂。


深度學習網絡結構中超參數momentum了解