深度學習優化函式詳解（5）-- Nesterov accelerated gradient (NAG)

阿新 • • 發佈：2019-01-05

深度學習優化函式詳解系列目錄

上一篇文章講解了猶如小球自動滾動下山的動量法（momentum）這篇文章將介紹一種更加“聰明”的滾動下山的方式。動量法每下降一步都是由前面下降方向的一個累積和當前點的梯度方向組合而成。於是一位大神（Nesterov）就開始思考，既然每一步都要將兩個梯度方向（歷史梯度、當前梯度）做一個合併再下降，那為什麼不先按照歷史梯度往前走那麼一小步，按照前面一小步位置的“超前梯度”來做梯度合併呢？如此一來，小球就可以先不管三七二十一先往前走一步，在靠前一點的位置看到梯度，然後按照那個位置再來修正這一步的梯度方向。如此一來，有了超前的眼光，小球就會更加”聰明“, 這種方法被命名為Nesterov accelerated gradient 簡稱 NAG。

這裡寫圖片描述

↑這是momentum下降法示意圖
這裡寫圖片描述
↑這是NAG下降法示意圖
看上面一張圖仔細想一下就可以明白，Nesterov動量法和經典動量法的差別就在B點和C點梯度的不同。

公式推導

上圖直觀的解釋了NAG的全部內容。
第一次看到NAG的梯度下降公式的時候我是懵的，梯度下降的流程比較明白，公式上不太理解。後來推導了好半天才得到NAG的公式，下面就把我推導的過程寫出來。我推導公式的過程完全符合上面NAG的示意圖，可以對比參考。
記 $v_t$ 為第t次迭代梯度的累積
$v_0=0$
$v_1=\eta \nabla_{\theta}J(\theta)$

v_2=\gamma v_1+\eta \nabla_{\theta}J(\theta-\gamma v_1)

\downarrow

v_t=\gamma v_{t-1}+\eta \nabla_{\theta}J(\theta-\gamma v_{t-1})

引數更新公式

\theta_{new} = \theta - v_t

公式裡的 $-\gamma v_{t-1}$

- γ v_{t - 1}

就是圖中B到C的那一段向量，

\theta-\gamma v_{t-1}

就是C點的座標（引數）

\gamma

代表衰減率，

\eta

代表學習率。

實驗

實驗選擇了學習率 $\eta=0.01$ , 衰減率 $\gamma = 0.9$
這裡寫圖片描述
↑ 這是Nesterov方法

↑ 這是動量法（momentum)

沒有對比就沒有傷害，NAG方法收斂速度明顯加快。波動也小了很多。實際上NAG方法用到了二階資訊，所以才會有這麼好的結果。

深度學習優化函式詳解（5）-- Nesterov accelerated gradient (NAG)

公式推導

實驗

深度學習優化函式詳解（5）-- Nesterov accelerated gradient (NAG)

深度學習 --- BP演算法詳解（BP演算法的優化）

深度學習 --- BP演算法詳解（誤差反向傳播演算法）

深度學習 --- BP演算法詳解（流程圖、BP主要功能、BP演算法的侷限性）

python 學習彙總27：itertools函式詳解（ tcy）

AngularJs自定義指令詳解（5） - link

指標詳解（5）-- 布林線指標（BOLL）詳解

git 使用詳解（5）—— get log 查看提交歷史

三大框架（ssh）學習——配置檔案詳解（二）

ajax error 函式詳解（jquery）

oracle的Instr函式詳解（轉載）

EasyPR--開發詳解（5）顏色定位與偏斜扭轉

XILINX_zynq_詳解（5）

第四章 Controller介面控制器詳解（5）

C++常物件，常變數，長成員函式詳解（轉）

Java定時任務排程工具詳解（5）— Quartz 之 Trigger

linux下的Makefile詳解（5）

C++ 中malloc函式詳解（轉載）

AWGN函式詳解（matlab）

深度學習與人臉識別系列（5）__vgg人臉識別模型測試

深度學習優化函式詳解（5）-- Nesterov accelerated gradient (NAG)

公式推導

實驗

相關推薦