學習筆記13：隨機梯度下降法（Stochastic gradient descent, SGD）

阿新 • • 發佈：2019-01-11

假設我們提供了這樣的資料樣本（樣本值取自於y=3*x1+4*x2）：
x1x2y
1419
2526
5119
4229

x1和x2是樣本值，y是預測目標，我們需要以一條直線來擬合上面的資料，待擬合的函式如下：

我們的目的就是要求出θ1和θ2的值，讓h(θ)儘量逼近目標值y。

這是一個線性迴歸問題，若對線性迴歸有所瞭解的同學就知道：利用最小二乘法則和梯度下降法可以求出兩個引數，而深度學習也同樣可以利用這兩種方法求得所有的網路引數，因此，在這裡用這個數學模型來解釋BGD、SGD、MSGD這幾個概念。

梯度下降法原理

我們首先確定損失函式：

其中，J(θ)是損失函式，m代表每次取多少樣本進行訓練，如果採用SGD進行訓練，那每次隨機取一組樣本，m=1；如果是批處理，則m等於每次抽取作為訓練樣本的數量。θ是引數，對應（1式）的θ1和θ2。求出了θ1和θ2，h(x)的表示式就出來了：

我們的目標是讓損失函式J(θ)的值最小，根據梯度下降法，首先要用J(θ)對θ求偏導：

由於是要最小化損失函式，所以引數θ按其負梯度方向來更新：

示例：

BGD(Batch gradient descent)批量梯度下降法：每次迭代使用所有的樣本

每次迭代都需要把所有樣本都送入，這樣的好處是每次迭代都顧及了全部的樣本，做的是全域性最優化。

#-*- coding: utf-8 -*-
import random
#用y = Θ1*x1 + Θ2*x2來擬合下面的輸入和輸出
#input1 1 2 5 4
#input2 4 5 1 2
#output 19 26 19 20
input_x = [[1

,4], [2,5], [5,1], [4,2]] #輸入
y = [19,26,19,20] #輸出
theta = [1,1] #θ引數初始化
loss = 10#loss先定義一個數，為了進入迴圈迭代
step_size = 0.01#步長
eps =0.0001#精度要求
max_iters = 10000#最大迭代次數
error =0#損失值
iter_count = 0#當前迭代次數
err1=[0,0,0,0] #求Θ1梯度的中間變數1
err2=[0,0,0,0] #求Θ2梯度的中間變數2
while( loss > eps and iter_count < max_iters): #迭代條件
loss = 0
err1sum = 0
err2sum = 0
for i in range (4): #每次迭代所有的樣本都進行訓練
pred_y = theta[0]*input_x[i][0]+theta[1]*input_x[i][1] #預測值
err1[i]=(pred_y-y[i])*input_x[i][0]
err1sum=err1sum+err1[i]
err2[i]=(pred_y-y[i])*input_x[i][1]
err2sum=err2sum+err2[i]
theta[0] = theta[0] - step_size * err1sum/4#對應5式
theta[1] = theta[1] - step_size * err2sum/4#對應5式
for i in range (4):
pred_y = theta[0]*input_x[i][0]+theta[1]*input_x[i][1] #預測值
error = (1/(2*4))*(pred_y - y[i])**2#損失值
loss = loss + error #總損失值
iter_count += 1
print ("iters_count", iter_count)
print ('theta: ',theta )
print ('final loss: ', loss)
print ('iters: ', iter_count)

theta:  [3.0044552563214433, 3.9955447274498894]
final loss:  9.428456066652548e-05
iters:  97

SGD（Stochastic gradientdescent）隨機梯度下降法：每次迭代使用一組樣本

針對BGD演算法訓練速度過慢的缺點，提出了SGD演算法，普通的BGD演算法是每次迭代把所有樣本都過一遍，每訓練一組樣本就把梯度更新一次。而SGD演算法是從樣本中隨機抽出一組，訓練後按梯度更新一次，然後再抽取一組，再更新一次，在樣本量及其大的情況下，可能不用訓練完所有的樣本就可以獲得一個損失值在可接受範圍之內的模型了。

#-*- coding: utf-8 -*-
import random
#用y = Θ1*x1 + Θ2*x2來擬合下面的輸入和輸出
#input1 1 2 5 4
#input2 4 5 1 2
#output 19 26 19 20
input_x = [[1,4], [2,5], [5,1], [4,2]] #輸入
y = [19,26,19,20] #輸出
theta = [1,1] #θ引數初始化
loss = 10#loss先定義一個數，為了進入迴圈迭代
step_size = 0.01#步長
eps =0.0001#精度要求
max_iters = 10000#最大迭代次數
error =0#損失值
iter_count = 0#當前迭代次數
while( loss > eps and iter_count < max_iters): #迭代條件
loss = 0
i = random.randint(0,3) #每次迭代在input_x中隨機選取一組樣本進行權重的更新
pred_y = theta[0]*input_x[i][0]+theta[1]*input_x[i][1] #預測值
theta[0] = theta[0] - step_size * (pred_y - y[i]) * input_x[i][0]
theta[1] = theta[1] - step_size * (pred_y - y[i]) * input_x[i][1]
for i in range (3):
pred_y = theta[0]*input_x[i][0]+theta[1]*input_x[i][1] #預測值
error = 0.5*(pred_y - y[i])**2
loss = loss + error
iter_count += 1
print ('iters_count', iter_count)
print ('theta: ',theta )
print ('final loss: ', loss)
print ('iters: ', iter_count)

MBGD（Mini-batch gradient descent）小批量梯度下降：每次迭代使用b組樣本

SGD相對來說要快很多，但是也有存在問題，由於單個樣本的訓練可能會帶來很多噪聲，使得SGD並不是每次迭代都向著整體最優化方向，因此在剛開始訓練時可能收斂得很快，但是訓練一段時間後就會變得很慢。在此基礎上又提出了小批量梯度下降法，它是每次從樣本中隨機抽取一小批進行訓練，而不是一組。

#-*- coding: utf-8 -*-
import random
#用y = Θ1*x1 + Θ2*x2來擬合下面的輸入和輸出
#input1 1 2 5 4
#input2 4 5 1 2
#output 19 26 19 20
input_x = [[1,4], [2,5], [5,1], [4,2]] #輸入
y = [19,26,19,20] #輸出
theta = [1,1] #θ引數初始化<

學習筆記13：隨機梯度下降法（Stochastic gradient descent, SGD）

梯度下降法原理

示例：

學習筆記13：隨機梯度下降法（Stochastic gradient descent, SGD）

隨機梯度下降法（Stochastic Gradient Descent）和批量梯度下降法（Batch Gradient Descent ）總結

批量梯度下降法（Batch Gradient Descent）

【python學習筆記】13：用梯度下降法求解最優值問題

Hulu機器學習問題與解答系列 | 二十四：隨機梯度下降法

谷歌機器學習速成課程---降低損失 (Reducing Loss)：隨機梯度下降法

Bobo老師機器學習筆記第六課-梯度下降法

【機器學習筆記04】隨機梯度下降

深度學習筆記之【隨機梯度下降（SGD）】

監督學習：隨機梯度下降算法（sgd）和批梯度下降算法（bgd）

深度學習之（十一）Deep learning中的優化方法：隨機梯度下降、受限的BFGS、共軛梯度法

吳恩達深度學習筆記（8）-重點-梯度下降法（Gradient Descent）

深度學習必備：隨機梯度下降（SGD）優化演算法及視覺化

斯坦福大學機器學習筆記——單變數的線性迴歸以及損失函式和梯度下降法（包含程式碼）

深度學習反向傳播---隨機梯度下降法

機器學習與高數：梯度（Gradient）與梯度下降法（Gradient Descent）

機器學習---用python實現最小二乘線性回歸並用隨機梯度下降法求解（Machine Learning Least Squares Linear Regression Application SGD）

機器學習筆記 1 LMS和梯度下降（批梯度下降） 20170617

Kali學習筆記13：Scapy在二層發現中的使用

Kali學習筆記13：操作系統識別

學習筆記13：隨機梯度下降法（Stochastic gradient descent, SGD）

梯度下降法原理

示例：

相關推薦