batch gradient descent（批量梯度下降）和 stochastic gradient descent（隨機梯度下降）

阿新 • • 發佈：2019-01-08

批量梯度下降是一種對引數的update進行累積，然後批量更新的一種方式。用於在已知整個訓練集時的一種訓練方式，但對於大規模資料並不合適。

隨機梯度下降是一種對引數隨著樣本訓練，一個一個的及時update的方式。常用於大規模訓練集，當往往容易收斂到區域性最優解。

詳細參見：Andrew Ng 的Machine Learning的課件（見參考1）

可能存在的改進

1）樣本可靠度，特徵完備性的驗證

例如可能存在一些outlier，這種outlier可能是測量誤差，也有可能是未考慮樣本特徵，例如有一件衣服色彩評分1分，料子1分，確可以賣到10000萬元，原來是上面有一個姚明的簽名，這個特徵沒有考慮，所以出現了訓練的誤差，識別樣本中outlier產生的原因。

2）批量梯度下降方法的改進

並行執行批量梯度下降

3）隨機梯度下降方法的改進

找到一個合適的訓練路徑（學習順序），去最大可能的找到全域性最優解

4）假設合理性的檢驗

H（X)是否合理的檢驗

5）維度放大

維度放大和過擬合問題，維度過大對訓練集擬合會改善，對測試集的適用性會變差，如果找到合理的方法？

下面是我做的一個實驗

假定有這樣一個對衣服估價的訓練樣本，程式碼中matrix表示，第一列表示色彩的評分，第二列表示對料子質地的評分，例如第一個樣本1,4表示這件衣服色彩打1分，料子打4分。我們需要訓練的是theta，其表示在衣服的估價中，色彩和料子的權重，這個權重是未知量，是需要訓練的，訓練的依據是這四個樣本的真實價格已知，分別為19元，...20元。

通過批量梯度下降和隨機梯度下降的方法均可得到theta_C={3,4}T

/*
Matrix_A
1 4
2 5
5 1
4 2
theta_C

?
Matrix_A*theta_C
19
26
19
20
*/

批量梯度下降法：

#include "stdio.h"
int main(void)
{
float matrix[4][2]={{1,4},{2,5},{5,1},{4,2}};
float result[4]={19,26,19,20};
float theta[2]={2,5};

//initialized theta {2,5}, we use the algorithm to get {3,4} to fit the model
float learning_rate = 0.01;
float loss = 1000.0; //set a loss big enough
for(int i = 0;i<100&&loss>0.0001;++i)
{
float error_sum = 0.0;
for(int j = 0;j<4;++j)
{
float h = 0.0;
for(int k=0;k<2;++k)
{
h += matrix[j][k]*theta[k];
}
error_sum = result[j]-h;
for(int k=0;k<2;++k)
{
theta[k] += learning_rate*(error_sum)*matrix[j][k];
}
}
printf("*************************************\n");
printf("theta now: %f,%f\n",theta[0],theta[1]);
loss = 0.0;
for(int j = 0;j<4;++j)
{
float sum=0.0;
for(int k = 0;k<2;++k)
{
sum += matrix[j][k]*theta[k];
}
loss += (sum-result[j])*(sum-result[j]);
}
printf("loss now: %f\n",loss);
}
return 0;
}

隨機梯度下降法

int main(void)
{
float matrix[4][2]={{1,4},{2,5},{5,1},{4,2}};
float result[4]={19,26,19,20};
float theta[2]={2,5};
float loss = 10.0;
for(int i =0 ;i<100&&loss>0.001;++i)
{
float error_sum=0.0;
int j=i%4;
{
float h = 0.0;
for(int k=0;k<2;++k)
{
h += matrix[j][k]*theta[k];
}
error_sum = result[j]-h;
for(int k=0;k<2;++k)
{
theta[k] = theta[k]+0.01*(error_sum)*matrix[j][k];
}
}
printf("%f,%f\n",theta[0],theta[1]);
float loss = 0.0;
for(int j = 0;j<4;++j)
{
float sum=0.0;
for(int k = 0;k<2;++k)
{
sum += matrix[j][k]*theta[k];
}
loss += (sum-result[j])*(sum-result[j]);
}
printf("%f\n",loss);
}
return 0;
}

參考：

【2】http://www.cnblogs.com/rocketfan/archive/2011/02/27/1966325.html

【3】http://www.dsplog.com/2011/10/29/batch-gradient-descent/

【4】http://ygc.name/2011/03/22/machine-learning-ex2-linear-regression/

batch gradient descent（批量梯度下降）和 stochastic gradient descent（隨機梯度下降）

batch gradient descent（批量梯度下降）和 stochastic gradient descent（隨機梯度下降）

VMware workstation批量建立虛擬機器和自動化安裝作業系統（一）

vxlan vs GRE（三層組播和二層組播如何對應起來）

用戶（user）和用戶組（group）相關的配置文件、命令或目錄；

java異常—檢查異常（checked exception）和未檢查異常（unchecked exception）

laravel服務容器-----深入理解控制反轉（IoC）和依賴註入（DI）

python面向對象（ item系列，enter 和exit，call方法，元類）

java中接口（interface）和虛基類（abstract class）的區別

集中式（SVN）和分布式（Git）版本控制系統的簡單比較

數據庫字符集（AL32UTF8）和客戶端字符集（2%）是不同的

PHP控制反轉（IOC）和依賴註入（DI）

python學習--如何實現可叠代對象（itearable）和叠代器（iterator）

Java——Link接口（ArrayList，LinkList）和Set接口（HashSet）

共享鎖（S鎖）和排它鎖（X鎖）

有效防止softmax計算時上溢出（overflow）和下溢出（underflow）的方法

Access（表的創建和管理）和CorelDRAW課程總結（對象的操作和管理）

Java 檢查異常（checked exception）和未檢查異常（unchecked exception）區別理解

linux用戶管理 -- 創建用戶（adduser和useradd）和刪除用戶（userdel）

一個類，有新增元素（add）和獲取元素數量（size）方法。啟動兩個線程。線程1向容器中新增數據。線程2監聽容器元素數量，當容器元素數量為5時，線程2輸出信息並終止

面向報文（UDP）和面向字節流（TCP）的區別

batch gradient descent（批量梯度下降） 和 stochastic gradient descent（隨機梯度下降）

相關推薦

batch gradient descent（批量梯度下降）和 stochastic gradient descent（隨機梯度下降）