卷積神經網路（四）：學習率、權重衰減、動量

阿新 • • 發佈：2019-01-08

學習率、權重衰減、動量被稱為超引數，因為他們不是由網路訓練而得到的引數

權重衰減

L2正則化就是在代價函式後面再加上一個正則化項：

C0代表原始的代價函式，後面那一項就是L2正則化項，λ就是權重衰減項。

作用：防止過擬合

原理：

一個所謂“顯而易見”的解釋就是：更小的權值w，從某種意義上說，表示網路的複雜度更低，對資料的擬合剛剛好（這個法則也叫做奧卡姆剃刀），而在實際應用中，也驗證了這一點，L2正則化的效果往往好於未經正則化的效果。當然，對於很多人（包括我）來說，這個解釋似乎不那麼顯而易見，所以這裡新增一個稍微數學一點的解釋（引自知乎）：

過擬合的時候，擬合函式的係數往往非常大，為什麼？如下圖所示，過擬合，就是擬合函式需要顧忌每一個點，最終形成的擬合函式波動很大。在某些很小的區間裡，函式值的變化很劇烈。這就意味著函式在某些小區間裡的導數值（絕對值）非常大，由於自變數值可大可小，所以只有係數足夠大，才能保證導數值很大。

效果：

權重衰減項對Wi的導數正比於Wi的值，因此所有Wi在每次迭代中會等比縮小

學習率

這裡寫圖片描述

作用：控制梯度下降的速度

注意點：如果學習速率過小，則會導致收斂速度很慢。如果學習速率過大，那麼其會阻礙收斂，即在極值點附近會振盪，因此通常會控制學習率使其在多次迭代後衰減，使得網路可以順利收斂

動量（Momentum）

這裡寫圖片描述

v表示每次更新的變化量，上一個時刻的變化量乘以的係數γ，就是動量新增的部分。

作用：

對於那些當前的梯度方向與上一次梯度方向相同的引數，那麼進行加強，即這些方向上更快了；對於那些當前的梯度方向與上一次梯度方向不同的引數，那麼進行削減，即在這些方向上減慢了。

原理：

從公式上看，相當於每次更新的時候，都會考慮上次的更新值，如果方向一樣就變得越來越快，如果方向不同，就會相互抵消，以便收斂。

卷積神經網路（四）：學習率、權重衰減、動量

權重衰減

學習率

動量（Momentum）

卷積神經網路（四）：學習率、權重衰減、動量

十四、卷積神經網路（1）：介紹卷積神經網路

卷積神經網路（二）：應用簡單卷積網路實現MNIST數字識別

（CNN）卷積神經網路（四）dropout

卷積神經網路（三）：權值初始化方法之Xavier與MSRA

10分鐘看懂全卷積神經網路（ FCN ）：語義分割深度模型先驅

卷積神經網路（三）：卷積神經網路CNN的簡單實現（部分Python原始碼）

MatConvNet卷積神經網路（四）——用自己的資料訓練

吳恩達深度學習系列課程筆記：卷積神經網路（一）

Deep learning with Theano 官方中文教程（翻譯）（四）—— 卷積神經網路（CNN）

機器學習13：卷積神經網路（CNN）

tensorflow 學習專欄（六）：使用卷積神經網路（CNN）在mnist資料集上實現分類

TensorFlow實戰：Chapter-6（CNN-4-經典卷積神經網路（ResNet）)

Deep Learning模型之：CNN卷積神經網路（一）深度解析CNN

卷積神經網路（CNN）標準模型分析（四）

TensorFlow實戰：Chapter-5（CNN-3-經典卷積神經網路（GoogleNet）)

卷積神經網路（CNN）在語音識別中的應用

卷積神經網路（CNN）_相關知識

卷積神經網路（CNN）一之概念原理

機器學習之卷積神經網路（九）

卷積神經網路（四）：學習率、權重衰減、動量

權重衰減

學習率

動量（Momentum）

相關推薦