【深度學習】線性迴歸（二）小批量隨機梯度下降及其python實現

阿新 • • 發佈：2018-12-15

文章目錄

概述
小批量隨機梯度下降

解析解和數值解
小批量隨機梯度下降

python實現

需要的先驗知識
程式碼和實驗

概述

本文在我的前一篇部落格（【深度學習】線性迴歸（一）原理及python從0開始實現）的基礎上，介紹一下深度學習中的小批量隨機梯度下降方法（mini-batch stochastic gradient descent），將其應用線上性迴歸中。在不使用深度學習框架的前提下，使用Python進行了實現。

本文主要包括以下內容：

解析解和數值解；
小批量隨機梯度下降演算法；
python實現小批量隨機梯度下降和線性迴歸
相比於前一篇部落格，這裡會注重對程式碼的封裝

小批量隨機梯度下降

解析解和數值解

在【深度學習】線性迴歸（一）原理及python從0開始實現一文中，介紹了線性迴歸的原理，我們最終的目的就是求解模型中的引數。在具體求解過程中，我們將誤差（或損失）表示為引數的函式，通過最小化誤差來找到合適的引數值。

當模型和損失函式形式較為簡單時，上面的誤差最小化問題的解可以直接用公式表達出來。這類解叫做解析解（analytical solution），如最小二乘法。然而，大多數深度學習模型並沒有解析解，只能通過優化演算法有限次迭代模型引數來儘可能降低損失函式的值。這類解叫做數值解（numerical solution），如梯度下降方法。

小批量隨機梯度下降

在求數值解的優化演算法中，小批量隨機梯度下降（mini-batch stochastic gradient descent）在深度學習中被廣泛使用。它的演算法很簡單：

我們先選取一組模型引數的初始值，一般採用隨機選取；
接下來對引數進行多次迭代，使得每次迭代都可能降低損失函式的值；
在每次迭代中，我們先隨機均勻取樣一個由固定數目訓練資料樣本所組成的小批量（mini-batch）；
然後求小批量中資料樣本的平均損失有關模型引數的導數（梯度）；
最後用此結果與學習率的乘積作為模型引數在本次迭代的減小量。

python實現

需要的先驗知識

本文以一個簡單的線性模型： $y=w_1x_1+w_2x_2+b$ 為例，生成模擬資料集進行實驗。我們令 $w_1=2, w_2=-3.4, b=4.2$ ，以一個隨機噪聲 $\epsilon$ 生成訓練資料集。

這裡涉及到MXNet中的NDArray和自動求解梯度操作，可以參考我之前的部落格：

程式碼和實驗

# coding=utf-8
# author: BebDong
# 2018.12.11
# 從0開始實現線性迴歸，擬合y=w1x1+w2x2+b


from IPython import display
from matplotlib import pyplot as plt
from mxnet import autograd, nd
import random


# 向量圖顯示
def use_svg_display():
    display.set_matplotlib_formats('svg')


# 設定圖片尺寸
def set_figsize(figsize=(3.5, 2.5)):
    use_svg_display()
    plt.rcParams['figure.figsize'] = figsize


# 返回batch_size個隨機樣本
def data_iter(batch_size, features, labels):
    num_examples = len(features)
    indices = list(range(num_examples))
    random.shuffle(indices)                                               # 隨機讀取樣本，打亂索引順序
    for i in range(0, num_examples, batch_size):
        j = nd.array(indices[i:min(i + batch_size, num_examples)])
        yield features.take(j), labels.take(j)                            # take函式根據索引返回元素


# 定義需要擬合線性模型
def linreg(X, w, b):
    return nd.dot(X, w) + b


# 定義損失函式
def squared_loss(y_predict, y):
    return (y_predict - y.reshape(y_predict.shape)) ** 2 / 2


# 定義優化演算法：小批量隨機梯度下降
def mini_batch_gd(params, lr, batch_size):
    for param in params:
        param[:] = param - lr * param.grad / batch_size


# 生成資料集：y=w1x1+w2x2+b+e，其中e表示隨機噪聲，服從均值為0標準差為0.01的正態分佈
num_inputs = 2                              # 特徵數為2，x1和x2兩個特徵
num_example = 1000                          # 訓練資料集1000個樣本
true_w = [2, -3.4]                          # 模型中的真實引數
true_b = 4.2

features = nd.random.normal(scale=1, shape=(num_example, num_inputs))           # 隨機生成測試資料集
labels = true_w[0] * features[:, 0] + true_w[1] * features[:, 1] + true_b
labels += nd.random.normal(scale=0.01, shape=labels.shape)                      # 新增隨機噪聲

# set_figsize()                                                                   # x2和y的散點圖
# plt.scatter(features[:, 1].asnumpy(), labels.asnumpy(), 1)
# plt.show()

# batch_size = 10                                                                 # 列印一個batch的樣本
# for X, y in data_iter(batch_size, features, labels):
#     print(X, y)
#     break

# 初始化引數並建立梯度
w = nd.random.normal(scale=0.01, shape=(num_inputs, 1))
w.attach_grad()
b = nd.zeros(shape=(1,))
b.attach_grad()

# 訓練模型
lr = 0.05
epochs = 10
batch_size = 10
net = linreg
loss = squared_loss

for epoch in range(epochs):
    # 在每一次迭代中需要使用訓練集的所有樣本一次
    for X, y in data_iter(batch_size, features, labels):
        with autograd.record():
            l = loss(net(X, w, b), y)                         # l表示小批量的損失
        if len(y) < batch_size:                               # 最後一個批次的資料可能小於設定的batch_size
            l = l * batch_size / len(y)
        l.backward()                                          # 小批量損失對模型引數求導
        mini_batch_gd([w, b], lr, batch_size)                 # 調整引數
    train_l = loss(net(features, w, b), labels)                                # 列印當前迭代週期的平均誤差
    print('epoch %d, loss %f' % (epoch + 1, train_l.mean().asnumpy()))


# 輸出得到的模型引數
print(true_w, w)
print(true_b, b)

結果如下圖，紅圈圈出來的是使用小批量隨機梯度下降得到的引數值，和真實值已經相當接近了。這裡的模型和資料集比較簡單，實際應用中，超引數（學習率、迭代次數等人為設定的引數）需要多次調節。
在這裡插入圖片描述

【深度學習】線性迴歸（二）小批量隨機梯度下降及其python實現

文章目錄概述小批量隨機梯度下降解析解和數值解小批量隨機梯度下降 python實現需要的先驗知識程式碼和實驗概述本文

【深度學習】線性迴歸（一）原理及python從0開始實現

文章目錄線性迴歸單個屬性的情況多元線性迴歸廣義線性模型實驗資料集介紹相關連結 Python實現環境編碼

【深度學習】線性迴歸（三）使用MXNet深度學習框架實現線性迴歸

文章目錄概述程式碼概述這篇文章使用MXNet深度學習框架中的Gluon包實現小批量隨機梯度下降的線性迴歸問題。可以參考我的上一篇文章【深度學習】線性迴歸（二）小批量隨機梯度下降及其python實現。主要包

【機器學習】softmax迴歸（二）

通過上篇softmax迴歸已經知道大概了，但是有個缺點，現在來仔細看看 Softmax迴歸模型引數化的特點 Softmax 迴歸有一個不尋常的特點：它有一個“冗餘”的引數集。為了便於闡述這一特點，假設我們從引數向量中減去了向量，這時，每一個

【深度學習】Softmax迴歸（一）概念和原理

文章目錄概述 Softmax Softmox迴歸模型向量形式 Softmax運算交叉熵損失函式真實標籤的變換平方損失函式交叉熵損失函式

【機器學習】softmax迴歸（一）

在 softmax迴歸中，我們解決的是多分類問題（相對於 logistic 迴歸解決的二分類問題），類標可以取個不同的值（而不是 2 個）。因此，對於訓練集，我們有。（注意此處的類別下標從 1 開始，而不是 0）。例如，在 M

【機器學習】人像識別（二）——PCA降維

　　降維沒有什麼祕訣。我用了python裡sklearn.decomposition模組的IncrementalPCA。　　程式碼如下： X = np.array(dots) # do

【機器學習】決策樹（二）——通過例子理解構建過程

回顧前面我們簡單介紹了決策樹，以及資訊熵和條件熵的概念。提到構建決策樹的過程，那麼我們是如何根據特徵來構建決策樹的呢？決策樹的構建過程決策樹演算法的重點就是決策樹的構造；決策樹的構造就是進行屬性選擇度量確定各個特徵之間的樹結構；構建決策樹的關鍵步驟就是分

【機器學習】線性迴歸演算法的過擬合比較

回顧過擬合與欠擬合主要介紹了什麼是欠擬合什麼是過擬合對抗過擬合主要介紹了線性迴歸中對抗過擬合的方法，主要包括：L1-norm的LASSO迴歸、L2-norm的Ridge迴歸，此外還有一個沒有提到，L1-norm和L2-norm結合的Elasitc Net(彈性網

【機器學習】線性迴歸模型分析

具體原理不講了，線性迴歸模型，代價損失函式 COST是均方誤差，梯度下降方法。屬性取值。模型的屬性取值設定需要根據每一個引數的取值範圍來確定，將所有的屬性的取值統一正則化normalization，統一規定在0~1的範圍，或者-1~1的範圍內，這樣在進行線性迴歸時不會造成

【機器學習】線性迴歸+程式碼實現

參考：《機器學習實戰》原始碼地址以及資料：https://github.com/JieruZhang/MachineLearninginAction_src 1. 標準線性迴歸(LR) y

深度學習數學基礎介紹（二）概率與數理統計

特征數字特征抽樣分布第5章最大中心 3.4 獨立知識第1章隨機事件與概率§1.1 隨機事件§1.2 隨機事件的概率§1.3 古典概型與幾何概型§1.4 條件概率§1.5 事件的獨立性第2章隨機變量的分布與數字特征§2.1 隨機變量及其分布§2.2 隨機變

【Absible學習】Ansible playbook （一）

tags 列表最好 test list playbook ppi -m color * 簡介執行一些簡單的任務，使用ad-hoc命令可以方便的解決問題，但是有時一個設施過於復雜，需要大量的操作時候，執行的ad-hoc命令是不適合的，這時最好使用playbook。play

深度學習論文翻譯解析（二）：An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

論文標題：An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition 論文作者： Baoguang Shi, Xiang B

【深度學習】線性迴歸（二）小批量隨機梯度下降及其python實現

文章目錄

概述

小批量隨機梯度下降

解析解和數值解

小批量隨機梯度下降

python實現

需要的先驗知識

程式碼和實驗

【深度學習】線性迴歸（二）小批量隨機梯度下降及其python實現

【深度學習】線性迴歸（一）原理及python從0開始實現

【深度學習】線性迴歸（三）使用MXNet深度學習框架實現線性迴歸

【機器學習】softmax迴歸（二）

【深度學習】Softmax迴歸（一）概念和原理

【機器學習】softmax迴歸（一）

【機器學習】人像識別（二）——PCA降維

【機器學習】決策樹（二）——通過例子理解構建過程

【機器學習】線性迴歸演算法的過擬合比較

【機器學習】線性迴歸模型分析

【機器學習】線性迴歸+程式碼實現

深度學習數學基礎介紹（二）概率與數理統計

【Absible學習】Ansible playbook （一）

深度學習論文翻譯解析（二）：An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

線性迴歸（二）

【強化學習】MOVE37-Introduction（導論）

深度學習分散式訓練實戰（二）——TF

基於深度學習的推薦系統（二）MLP based

深度學習入門logistic迴歸（一）

【Redis學習】Redis筆記（一）——特點、基礎命令和資料結構

【深度學習】線性迴歸（二）小批量隨機梯度下降及其python實現

文章目錄

概述

小批量隨機梯度下降

解析解和數值解

小批量隨機梯度下降

python實現

需要的先驗知識

程式碼和實驗

相關推薦