【TensorFlow】優化方法optimizer總結(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam)解析(十三)
本文僅對一些常見的優化方法進行直觀介紹和簡單的比較,主要是一階的梯度法,包括SGD, Momentum, Nesterov Momentum, AdaGrad, RMSProp, Adam。 其中SGD,Momentum,Nesterov Momentum是手動指定學習速率的,而後面的AdaGrad, RMSProp, Adam,就能夠自動調節學習速率。
1、SGD
SGD全名 stochastic gradient descent, 即隨機梯度下降。不過這裡的SGD其實跟MBGD(minibatch gradient descent)是一個意思,現在的SGD一般都指mini-batch gradient descent,即隨機抽取一批樣本,以此為根據來更新引數。
具體實踐:
需要:學習速率 ϵ, 初始引數 θ
每步迭代過程:
- 從訓練集中的隨機抽取一批容量為m的樣本{x1,…,xm},以及相關的輸出yi
- 計算梯度和誤差並更新引數:
優點:
- 訓練速度快,對於很大的資料集,也能夠以較快的速度收斂.SGD應用於凸問題時,k次迭代後泛化誤差的數量級是O(1/sqrt(k)),強凸下是O(1/k)。
- 可能由於SGD在學習中增加了噪聲,有正則化的效果
缺點: 由於是抽取,因此不可避免的,得到的梯度肯定有誤差.因此學習速率需要逐漸減小.否則模型無法收斂 ,因為誤差,所以每一次迭代的梯度受抽樣的影響比較大,也就是說梯度含有比較大的噪聲,不能很好的反映真實梯度.
ϵ學習率如何衰減以保證SGD收斂,在實踐中,一般是進行線性衰減:
其中ϵ0是初始學習率, ϵτ是最後一次迭代的學習率. τ自然代表迭代次數.一般來說,ϵτ 設為ϵ0的1%比較合適.而τ一般設為讓訓練集中的每個資料都輸入模型上百次比較合適.那麼初始學習率ϵ0怎麼設定呢?書上說,你先用固定的學習速率迭代100次,找出效果最好的學習速率,然後ϵ0設為比它大一點就可以了.
2、Momentum
SGD方法的一個缺點是,其更新方向完全依賴於當前的batch,因而其更新十分不穩定,每次迭代計算的梯度含有比較大的噪音。解決這一問題的一個簡單的做法便是引入momentum。
momentum即動量,它模擬的是物體運動時的慣性,即更新的時候在一定程度上保留之前更新的方向,同時利用當前batch的梯度微調最終的更新方向。這樣一來,可以在一定程度上增加穩定性,從而學習地更快,並且還有一定擺脫區域性最優的能力。
具體實現:
需要:學習速率 ϵ, 初始引數 θ, 初始速率v, 動量衰減引數α
每步迭代過程:
- 從訓練集中的隨機抽取一批容量為m的樣本{x1,…,xm},以及相關的輸出yi
- 計算梯度和誤差,並更新速度v和引數θ:
其中引數α表示每回合速率v的衰減程度.如果每次迭代得到的梯度都是g,那麼最後得到的v的穩定值為:
也就是說,Momentum最好情況下能夠將學習速率加速1/(1−α)倍.一般α的取值有0.5,0.9,0.99這幾種,分別表示最大速度2倍,10倍,100倍於SGD的演算法。.當然,也可以讓α的值隨著時間而變化,一開始小點,後來再加大.不過這樣一來,又會引進新的引數.
特點:
- 前後梯度方向一致時,能夠加速學習
- 前後梯度方向不一致時,能夠抑制震盪
3、Nesterov Momentum
這是對傳統momentum方法的一項改進,由Ilya Sutskever(2012 unpublished)在Nesterov工作的啟發下提出的。
具體實現:
需要:學習速率 ϵ, 初始引數 θ, 初始速率v, 動量衰減引數α
每步迭代過程:
- 從訓練集中的隨機抽取一批容量為m的樣本{x1,…,xm},以及相關的輸出yi
- 計算梯度和誤差,並更新速度v和引數θ:
注意在估算梯度g的時候,引數變成了θ+αv而不是之前的θ,與Momentum唯一區別就是,計算梯度的不同,Nesterov先用當前的速度v更新一遍引數,在用更新的臨時引數計算梯度。
其基本思路如下圖(轉自Hinton的coursera公開課lecture 6a):
4、AdaGrad
AdaGrad可以自動變更學習速率,只是需要設定一個全域性的學習速率ϵ,但是這並非是實際學習速率,實際的速率是與以往引數的模之和的開方成反比的.也許說起來有點繞口,不過用公式來表示就直白的多:
其中δ是一個很小的常亮,大概在10^−7,防止出現除以0的情況.
具體實現:
需要:全域性學習速率 ϵ, 初始引數 θ, 數值穩定量δ
中間變數: 梯度累計量r(初始化為0)
每步迭代過程:
- 從訓練集中的隨機抽取一批容量為m的樣本{x1,…,xm},以及相關的輸出yi
- 計算梯度和誤差,更新r,再根據r和梯度計算引數更新量:
優點: 能夠實現學習率的自動更改。如果這次梯度大,那麼學習速率衰減的就快一些;如果這次梯度小,那麼學習速率衰減的慢一些。對於每個引數,隨著其更新的總距離增多,其學習速率也隨之變慢。
缺點: 任然要設定一個變數ϵ ,經驗表明,在普通演算法中也許效果不錯,但在深度學習中,深度過深時會造成訓練提前結束。
5、RMSProp
RMSProp通過引入一個衰減係數,讓r每回合都衰減一定比例,類似於Momentum中的做法,是對AdaGrad演算法的改進。
具體實現:
需要:全域性學習速率 ϵ, 初始引數 θ, 數值穩定量δ,衰減速率ρ
中間變數: 梯度累計量r(初始化為0)
每步迭代過程:
- 從訓練集中的隨機抽取一批容量為m的樣本{x1,…,xm},以及相關的輸出yi
- 計算梯度和誤差,更新r,再根據r和梯度計算引數更新量:
優點:
- 相比於AdaGrad,這種方法很好的解決了深度學習中過早結束的問題
- 適合處理非平穩目標,對於RNN效果很好
缺點:
- 又引入了新的超參,衰減係數ρ
- 依然依賴於全域性學習速率
6、RMSProp with Nesterov Momentum
此方法是將RMSProp和Nesterov Momentum結合起來
具體實現:
需要:全域性學習速率 ϵ, 初始引數 θ, 初始速率v,動量衰減係數α, 梯度累計量衰減速率ρ
中間變數: 梯度累計量r(初始化為0)
每步迭代過程:
- 從訓練集中的隨機抽取一批容量為m的樣本{x1,…,xm},以及相關的輸出yi
- 計算梯度和誤差,更新r,再根據r和梯度計算引數更新量 :
7、Adam
Adam(Adaptive Moment Estimation)本質上是帶有動量項的RMSprop,它利用梯度的一階矩估計和二階矩估計動態調整每個引數的學習率。Adam的優點主要在於經過偏置校正後,每一次迭代學習率都有個確定範圍,使得引數比較平穩。
具體實現:
需要:步進值 ϵ, 初始引數 θ, 數值穩定量δ,一階動量衰減係數ρ1, 二階動量衰減係數ρ2
其中幾個取值一般為:δ=10^−8,ρ1=0.9,ρ2=0.999
中間變數:一階動量s,二階動量r,都初始化為0
每步迭代過程:
- 從訓練集中的隨機抽取一批容量為m的樣本{x1,…,xm},以及相關的輸出yi
- 計算梯度和誤差,更新r和s,再根據r和s以及梯度計算引數更新量 :
8、各個方法的比較
Karpathy做了一個這幾個方法在MNIST上效能的比較,其結論是:
adagrad相比於sgd和momentum更加穩定,即不需要怎麼調參。而精調的sgd和momentum系列方法無論是收斂速度還是precision都比adagrad要好一些。在精調引數下,一般Nesterov優於momentum優於sgd。而adagrad一方面不用怎麼調參,另一方面其效能穩定優於其他方法。
Loss vs. Number of examples seen
Testing Accuracy vs. Number of examples seen
Training Accuracy vs. Number of examples seen