AdamOptimizer和隨機梯度下降法SGD的區別

阿新 • • 發佈：2019-01-20

Adam 這個名字來源於adaptive moment estimation，自適應矩估計，如果一個隨機變數 X 服從某個分佈，X 的一階矩是 E(X)，也就是樣本平均值，X 的二階矩就是 E(X^2)，也就是樣本平方的平均值。Adam 演算法根據損失函式對每個引數的梯度的一階矩估計和二階矩估計動態調整針對於每個引數的學習速率。TensorFlow提供的tf.train.AdamOptimizer可控制學習速度。Adam 也是基於梯度下降的方法，但是每次迭代引數的學習步長都有一個確定的範圍，不會因為很大的梯度導致很大的學習步長，引數的值比較穩定。it does not require stationary objective, works with sparse gradients, naturally performs a form of step size annealing。

AdamOptimizer通過使用動量（引數的移動平均數）來改善傳統梯度下降，促進超引數動態調整。

SGD介紹

假如我們要優化一個函式 $f(x)$ ，即找到它的最小值, 常用的方法叫做Gradient Descent (GD), 也就是最速下降法. 說起來很簡單, 就是每次沿著當前位置的導數反方向走一小步, 走啊走啊就能夠走到一個好地方了.

什麼是鞍點

AdamOptimizer和隨機梯度下降法SGD的區別

AdamOptimizer和隨機梯度下降法SGD的區別

梯度下降法和隨機梯度下降法和小批量梯度對比

隨機梯度下降法（Stochastic Gradient Descent）和批量梯度下降法（Batch Gradient Descent ）總結

隨機梯度下降法，批量梯度下降法和小批量梯度下降法以及程式碼實現

學習筆記13：隨機梯度下降法（Stochastic gradient descent, SGD）

機器學習---用python實現最小二乘線性回歸並用隨機梯度下降法求解（Machine Learning Least Squares Linear Regression Application SGD）

Hulu機器學習問題與解答系列 | 二十四：隨機梯度下降法

谷歌機器學習速成課程---降低損失 (Reducing Loss)：隨機梯度下降法

隨機梯度下降法

隨機梯度下降法求解SVM（附matlab程式碼）

梯度、梯度下降法、隨機梯度下降法

深度學習必備：隨機梯度下降（SGD）優化演算法及視覺化

深度學習反向傳播---隨機梯度下降法

梯度下降法、隨機梯度下降法、批量梯度下降法及牛頓法、擬牛頓法、共軛梯度法

線性迴歸和批量梯度下降法python

一種並行隨機梯度下降法

深度學習筆記之【隨機梯度下降（SGD）】

監督學習：隨機梯度下降算法（sgd）和批梯度下降算法（bgd）

最小二乘法和梯度下降法有哪些區別？

梯度下降法的三種形式BGD（批量梯度下降）、SGD（隨機梯度下降）以及MBGD（小批量梯度下降）

AdamOptimizer和隨機梯度下降法SGD的區別

相關推薦