1. 程式人生 > >2018.11.15——學習率和梯度系列,Momentum、AdaGrad、RMSProp、Adam

2018.11.15——學習率和梯度系列,Momentum、AdaGrad、RMSProp、Adam

Momentum:即前幾次梯度也會參與運算。新梯度 = 原始梯度  和  之前的梯度的累加 的運算。前後梯度方向一致時,能夠加速學習;前後方向不一致時,能夠抑制震盪。

--------------------------------------------------------學習率和梯度有關-------------------------------------------------------------------------------

AdaGrad:自適應學習率,只需要設定一個全域性的學習率,但是這並非是實際學習速率,實際的速率是與以往引數的模之和的開方成反比的。如果梯度大,那麼學習速率就大;梯度小,那麼學習速率小。缺點:在普通演算法中也許效果不錯,但深度學習中,深度過深時會造成訓練提前結束。(由於一會快一會慢的學習速率)

RMSProp:在AdaGrad基礎上,對學習率改進,每回合學習速率都有一定比例的衰減,衰減係數r。

Adam:帶有Momentum動量項的RMSProp,它利用梯度的一階矩估計和二階矩估計動態調整每個引數的學習速率。為不同的引數計算不同的自適應學習速率。