1. 程式人生 > >卷積神經網路(四):學習率、權重衰減、動量

卷積神經網路(四):學習率、權重衰減、動量

學習率、權重衰減、動量被稱為超引數,因為他們不是由網路訓練而得到的引數

權重衰減

L2正則化就是在代價函式後面再加上一個正則化項:

img

C0代表原始的代價函式,後面那一項就是L2正則化項,λ就是權重衰減項。

作用:防止過擬合

原理

一個所謂“顯而易見”的解釋就是:更小的權值w,從某種意義上說,表示網路的複雜度更低,對資料的擬合剛剛好(這個法則也叫做奧卡姆剃刀),而在實際應用中,也驗證了這一點,L2正則化的效果往往好於未經正則化的效果。當然,對於很多人(包括我)來說,這個解釋似乎不那麼顯而易見,所以這裡新增一個稍微數學一點的解釋(引自知乎):

過擬合的時候,擬合函式的係數往往非常大,為什麼?如下圖所示,過擬合,就是擬合函式需要顧忌每一個點,最終形成的擬合函式波動很大。在某些很小的區間裡,函式值的變化很劇烈。這就意味著函式在某些小區間裡的導數值(絕對值)非常大,由於自變數值可大可小,所以只有係數足夠大,才能保證導數值很大。

效果

權重衰減項對Wi的導數正比於Wi的值,因此所有Wi在每次迭代中會等比縮小

學習率

這裡寫圖片描述

作用:控制梯度下降的速度

注意點:如果學習速率過小,則會導致收斂速度很慢。如果學習速率過大,那麼其會阻礙收斂,即在極值點附近會振盪,因此通常會控制學習率使其在多次迭代後衰減,使得網路可以順利收斂

動量(Momentum)

這裡寫圖片描述

v表示每次更新的變化量,上一個時刻的變化量乘以的係數γ,就是動量新增的部分。

作用

對於那些當前的梯度方向與上一次梯度方向相同的引數,那麼進行加強,即這些方向上更快了;對於那些當前的梯度方向與上一次梯度方向不同的引數,那麼進行削減,即在這些方向上減慢了。

原理

從公式上看,相當於每次更新的時候,都會考慮上次的更新值,如果方向一樣就變得越來越快,如果方向不同,就會相互抵消,以便收斂。