1. 程式人生 > >【深度學習】線性迴歸(二)小批量隨機梯度下降及其python實現

【深度學習】線性迴歸(二)小批量隨機梯度下降及其python實現

文章目錄

概述

本文在我的前一篇部落格(【深度學習】線性迴歸(一)原理及python從0開始實現)的基礎上,介紹一下深度學習中的小批量隨機梯度下降方法(mini-batch stochastic gradient descent),將其應用線上性迴歸中。在不使用深度學習框架的前提下,使用Python進行了實現。

本文主要包括以下內容:

  1. 解析解和數值解;
  2. 小批量隨機梯度下降演算法;
  3. python實現小批量隨機梯度下降和線性迴歸
  4. 相比於前一篇部落格,這裡會注重對程式碼的封裝

小批量隨機梯度下降

解析解和數值解

【深度學習】線性迴歸(一)原理及python從0開始實現一文中,介紹了線性迴歸的原理,我們最終的目的就是求解模型中的引數。在具體求解過程中,我們將誤差(或損失)表示為引數的函式,通過最小化誤差來找到合適的引數值。

當模型和損失函式形式較為簡單時,上面的誤差最小化問題的解可以直接用公式表達出來。這類解叫做解析解(analytical solution),如最小二乘法。然而,大多數深度學習模型並沒有解析解,只能通過優化演算法有限次迭代模型引數來儘可能降低損失函式的值。這類解叫做數值解(numerical solution),如梯度下降方法。

小批量隨機梯度下降

在求數值解的優化演算法中,小批量隨機梯度下降(mini-batch stochastic gradient descent)在深度學習中被廣泛使用。它的演算法很簡單:

  1. 我們先選取一組模型引數的初始值,一般採用隨機選取;
  2. 接下來對引數進行多次迭代,使得每次迭代都可能降低損失函式的值;
  3. 在每次迭代中,我們先隨機均勻取樣一個由固定數目訓練資料樣本所組成的小批量(mini-batch) ;
  4. 然後求小批量中資料樣本的平均損失有關模型引數的導數(梯度);
  5. 最後用此結果與學習率的乘積作為模型引數在本次迭代的減小量。

python實現

需要的先驗知識

本文以一個簡單的線性模型: y = w 1 x 1 + w 2 x 2 + b y=w_1x_1+w_2x_2+b 為例,生成模擬資料集進行實驗。我們令 w 1 = 2 , w 2 = 3.4 , b = 4.2 w_1=2, w_2=-3.4, b=4.2 ,以一個隨機噪聲 ϵ \epsilon 生成訓練資料集。

這裡涉及到MXNet中的NDArray和自動求解梯度操作,可以參考我之前的部落格:

程式碼和實驗

# coding=utf-8
# author: BebDong
# 2018.12.11
# 從0開始實現線性迴歸,擬合y=w1x1+w2x2+b


from IPython import display
from matplotlib import pyplot as plt
from mxnet import autograd, nd
import random


# 向量圖顯示
def use_svg_display():
    display.set_matplotlib_formats('svg')


# 設定圖片尺寸
def set_figsize(figsize=(3.5, 2.5)):
    use_svg_display()
    plt.rcParams['figure.figsize'] = figsize


# 返回batch_size個隨機樣本
def data_iter(batch_size, features, labels):
    num_examples = len(features)
    indices = list(range(num_examples))
    random.shuffle(indices)                                               # 隨機讀取樣本,打亂索引順序
    for i in range(0, num_examples, batch_size):
        j = nd.array(indices[i:min(i + batch_size, num_examples)])
        yield features.take(j), labels.take(j)                            # take函式根據索引返回元素


# 定義需要擬合線性模型
def linreg(X, w, b):
    return nd.dot(X, w) + b


# 定義損失函式
def squared_loss(y_predict, y):
    return (y_predict - y.reshape(y_predict.shape)) ** 2 / 2


# 定義優化演算法:小批量隨機梯度下降
def mini_batch_gd(params, lr, batch_size):
    for param in params:
        param[:] = param - lr * param.grad / batch_size


# 生成資料集:y=w1x1+w2x2+b+e,其中e表示隨機噪聲,服從均值為0標準差為0.01的正態分佈
num_inputs = 2                              # 特徵數為2,x1和x2兩個特徵
num_example = 1000                          # 訓練資料集1000個樣本
true_w = [2, -3.4]                          # 模型中的真實引數
true_b = 4.2

features = nd.random.normal(scale=1, shape=(num_example, num_inputs))           # 隨機生成測試資料集
labels = true_w[0] * features[:, 0] + true_w[1] * features[:, 1] + true_b
labels += nd.random.normal(scale=0.01, shape=labels.shape)                      # 新增隨機噪聲

# set_figsize()                                                                   # x2和y的散點圖
# plt.scatter(features[:, 1].asnumpy(), labels.asnumpy(), 1)
# plt.show()

# batch_size = 10                                                                 # 列印一個batch的樣本
# for X, y in data_iter(batch_size, features, labels):
#     print(X, y)
#     break

# 初始化引數並建立梯度
w = nd.random.normal(scale=0.01, shape=(num_inputs, 1))
w.attach_grad()
b = nd.zeros(shape=(1,))
b.attach_grad()

# 訓練模型
lr = 0.05
epochs = 10
batch_size = 10
net = linreg
loss = squared_loss

for epoch in range(epochs):
    # 在每一次迭代中需要使用訓練集的所有樣本一次
    for X, y in data_iter(batch_size, features, labels):
        with autograd.record():
            l = loss(net(X, w, b), y)                         # l表示小批量的損失
        if len(y) < batch_size:                               # 最後一個批次的資料可能小於設定的batch_size
            l = l * batch_size / len(y)
        l.backward()                                          # 小批量損失對模型引數求導
        mini_batch_gd([w, b], lr, batch_size)                 # 調整引數
    train_l = loss(net(features, w, b), labels)                                # 列印當前迭代週期的平均誤差
    print('epoch %d, loss %f' % (epoch + 1, train_l.mean().asnumpy()))


# 輸出得到的模型引數
print(true_w, w)
print(true_b, b)

結果如下圖,紅圈圈出來的是使用小批量隨機梯度下降得到的引數值,和真實值已經相當接近了。這裡的模型和資料集比較簡單,實際應用中,超引數(學習率、迭代次數等人為設定的引數)需要多次調節。
在這裡插入圖片描述