Bobo老師機器學習筆記第六課-梯度下降法線上性迴歸中的應用

阿新 • • 發佈：2018-12-17

在上一篇部落格中大概介紹了一下梯度下降法，那麼梯度下降法線上性迴歸中如何更好的應用了，本篇部落格做一介紹。

在BoBo老師的課程中，梯度下降法主要講了2中，批量梯度下降法(Batch Gradient Descent)和隨機梯度下降法(Stochastic Gradient Descent)。

一、理論介紹

1、批量梯度下降法（Batch Gradient Descent）

損失函式以及未使用向量化的方程：

進行向量化後的梯度方程：

從上圖方程中可以看出，每一次求theta的值都要把所有的樣本遍歷一遍，所以這是為什麼成為批量梯度下降法。

2、隨機梯度下降法（Stonastic Gradient Descent）

損失函式不變，但計算計算梯度的方法如下：

從上圖的公式可以看出，計算梯度是隨機取出其中一個樣本進行計算的。此外還要注意學習率的區別：

a一般取5,b為50，i_iters表示當前迭代的次數。而這個值在批量梯度學習演算法中是一個常量，一般是0.01

二、線上性迴歸中的應用

# -*- coding: utf-8 -*-
import numpy as np
from metrics import r2_score


class LinearRegression(object):
    def __init__(self):
        self.coef_ = None  # 表示係數
        self.intercept_ = None  # 表示截距
        self._theta = None  # 過程計算值，不需要暴露給外面

    def fit_normal(self, X_train, y_train):
        """根據訓練資料集X_train, y_train， 利用正規方程進行訓練Linear Regression模型，利用正規方程訓練的時候就不需要對資料進行向量化"""
        assert X_train is not None and y_train is not None, "訓練集X和Y不能為空"
        assert X_train.shape[0] == y_train.shape[0], "訓練集X和Y的樣本數要相等"
        # np.linalg.inv(X) 表示求X的逆矩陣

        # 不能忘了X要增加一列，第一列資料為0
        ones = np.ones(shape=(len(X_train), 1))
        X_train = np.hstack((ones, X_train))
        self._theta = np.linalg.inv(X_train.T.dot(X_train)).dot(X_train.T).dot(y_train)
        self.intercept_ = self._theta[0]
        self.coef_ = self._theta[1:]

    def fit_gd(self, X_train, y_train, eta=0.01, n_iters=1e4):
        """
        用批量梯度下降法訓練模型
        :param X_train: 經過向量化的特徵資料
        :param y_train:
        :param eta: 步長
        :param n_iters: 迭代次數
        :return:
        """
        def J(theta, X_b, y):
            """
            損失函式
            此處要注意：X_b相對於原特徵矩陣多了一列 n * 1的列向量， 所以X_b是(m, n+1)的矩陣
            :return:
            """
            return np.sum((y - X_b.dot(theta)) ** 2) / len(y)

        def DJ(theta, X_b, y):
            """
            獲取梯度
            :return:
            """
            # 註釋掉的演算法是不用向量計算的實現
            # res = np.empty(len(theta))
            # res[0] = np.sum(X_b.dot(theta) - y)
            # for i in range(1, len(theta)):
            #     res[i] = (X_b.dot(theta) - y).dot(X_b[:, i])
            # return res * 2 / len(X_b)
            return X_b.T.dot(X_b.dot(theta) - y) * 2 / len(X_b)

        def gredient_descent(X_b, y, theta, n_inters=1e4, eta=0.01, epsilon=1e-8):
            """
            利用批量梯度下降法訓練線性迴歸
            :param X_b: 是（m, n+1）的矩陣
            :param y:
            :param init_ethta: etha初始化值
            :param n_inters: 迭代次數
            :param eta: 變化率步長， 預設是0.01
            :param epsilon: 精度，用來比較當前etha和上一次etha差值
            :return:
            """
            cur_inter = 0
            while cur_inter < n_inters:
                last_theta = theta
                theta = theta - eta * DJ(theta, X_b, y)
                if abs(J(theta, X_b, y) - J(last_theta, X_b, y)) < epsilon:
                    break
                cur_inter += 1
            return theta

        X_b = np.hstack([np.ones((len(X_train), 1)), X_train])
        init_ethta = np.zeros(X_b.shape[1])
        self._theta = gredient_descent(X_b, y_train, init_ethta, eta=eta, n_inters=n_iters)
        self.coef_ = self._theta[1:]
        self.intercept_ = self._theta[0]

        return self

    def fit_sgd(self, X_train, y_train, n_iters=5, t0=5.0, t1=50.0):
        """
        利用隨機梯度下降法訓練線性迴歸
        :param X_train: 向量化的特徵值
        :param y_train:
        :param n_iters: 迭代次數
        :param t0: 用來計算學習率
        :param t1: 用來計算學習率
        :return:
        """

        def DJ(theta, X_b_i, y_i):
            """
            獲取梯度
            X_b_i: 是X_b向量中的一個樣本
            :return:
            """
            return X_b_i.T.dot(X_b_i.dot(theta) - y_i) * 2


        def sgd(X_b, y, theta, n_inters, t0, t1):
            def learning_rate(t):
                return t0 / (t + t1)

            m = len(X_b)
            for cur_index in range(n_inters):
                indexs = np.random.permutation(m)
                X_b_new = X_b[indexs]
                y_new = y[indexs]
                for i in range(m):
                    gradient = DJ(theta, X_b_new[i], y_new[i])
                    theta = theta - learning_rate(cur_index * m + i) * gradient
            return theta

        X_b = np.hstack([np.ones((len(X_train), 1)), X_train])
        initial_theta = np.random.randn(X_b.shape[1])
        self._theta = sgd(X_b, y_train, initial_theta, n_iters, t0, t1)
        self.coef_ = self._theta[1:]
        self.intercept_ = self._theta[0]

    def predict(self, X_test):
        """給定待預測資料集X_test，返回表示X_test的結果向量"""
        assert X_test.shape[1] == self.coef_.shape[0], '測試集X的特徵值個數不對'
        ones = np.ones(shape=(len(X_test), 1))
        X_test = np.hstack((ones, X_test))
        return X_test.dot(self._theta)

    def score(self, X_test, y_test):
        """根據測試資料集 X_test 和 y_test 確定當前模型的準確度"""
        assert X_test.shape[0] == y_test.shape[0], '測試集X和Y的個數不相等'
        return r2_score(y_test, self.predict(X_test))

    def __repr__(self):
        return '%s(coef_:%s, intercept_:%s)' % (self.__class__.__name__, self.coef_, self.intercept_)


def test_regession_using_gd():
    from linearregression import LinearRegression
    # step 1: 建立訓練資料
    m = 10000  # 假設10000個樣本
    x = np.random.normal(size=m)
    X = x.reshape(-1, 1)
    y = 4. * x + 3. + np.random.normal(0, 3, size=m)

    # step 2: 資料標準化
    X_train, X_test, y_train, y_test = train_test_split(X, y)
    standardscaler = StandardScaler()
    standardscaler.fit(X_train)
    x_train_standard = standardscaler.transform(X_train)

    # step 3: 訓練模型
    lrg = LinearRegression()
    # 批量梯度下降法
    # lrg.fit_gd(x_train_standard, y_train, eta=0.001, n_iters=1e6)
    # 隨機梯度下降法
    lrg.fit_sgd(x_train_standard, y_train)

    # step 4： 獲取評分
    x_test_standard = standardscaler.transform(X_test)
    print 'score:', lrg.score(x_test_standard, y_test)

執行結果：

批量梯度下降法

LinearRegression(coef_:[4.01485425], intercept_:3.0079330321024687) score: 0.6569687845397328

隨機梯度下降法 LinearRegression(coef_:[3.96601229], intercept_:3.030732598906986) score: 0.644882902625483

Bobo老師機器學習筆記第六課-梯度下降法線上性迴歸中的應用

在上一篇部落格中大概介紹了一下梯度下降法，那麼梯度下降法線上性迴歸中如何更好的應用了，本篇部落格做一介紹。在BoBo老師的課程中，梯度下降法主要講了2中，批量梯度下降法(Batch Gradient Descent)和隨機梯度下降法(Stochastic Gradient

Bobo老師機器學習筆記第六課-梯度下降法

思維導圖筆記數學基礎連結：為什麼梯度方向是函式值增大最快的方向為什麼沿著梯度方向函式值上升的最快?為什麼梯度反方向是函式值下降最快的方向？練習程式碼 # -*- coding: utf-8 -*- import numpy as np import matplot

Bobo老師機器學習筆記第五課-多元線性迴歸

思維導圖學習筆記自己參考BoBo老師課程講解實現： # -*- coding: utf-8 -*- import numpy as np from metrics import r2_score class LinearRegression(object): def __

Bobo老師機器學習筆記第五課-線性迴歸演算法的評估指標

評價線性迴歸的指標有四種，均方誤差（Mean Squared Error）、均方根誤差（Root Mean Squared Error）、平均絕對值誤差（Mean Absolute Error）以及R Squared方法。 sklearnz中使用的，也是大家推薦的方法是R Squared方法。

Bobo老師機器學習筆記第五課-簡單線性迴歸

課程地址：https://coding.imooc.com/class/169.html 最小二乘法的推導部落格點選此處程式碼實現（參考Bobo實現，如果要看BoBo老師原始碼，請點選此處）： # -*- encoding: utf-8 -*- """ 實現簡單的線性迴歸, 自己

bobo老師機器學習筆記-第四課：KNN演算法

自己參考Bobo老師寫得程式碼：主要分為四個檔案： knn.py中實現KNN演算法、model_selection.py封裝了樣本資料的一些工具方法，比如切分為訓練集和測試集； metrics用來對模型進行評估、client用來呼叫演算法進行執行 # -*- encoding:

Bobo老師機器學習筆記第八課-方差、偏差、嶺迴歸、LASSO迴歸？

對誤差分類問題一、什麼是偏差和方差？先看下面這幅圖圖：方差：都是圍著資料中心的，方差越大則表示距離資料中心分佈的越分散，越小說明越近越集中偏差：偏離資料中心，偏差越大，說明整個資料距離中心越遠，偏差越小，說明距離資料中心越近。這兩者的關係通常是矛盾的，降低偏

Bobo老師機器學習筆記第八課-什麼是交叉驗證？

1、測試資料的真正意義是什麼？在上篇部落格中，我們看到測試集和訓練集在同一個模型上會表現不同的結果。我們通過學習曲線可以直觀的看到具體是過擬合還是欠擬合，從而調整引數，進行不斷驗證，直到找到一個在訓練集表現好的資料。總結一句話，就是通過測試資料進行對模型的調優。 2、依

Bobo老師機器學習筆記第八課-如何防止過擬合和欠擬合？

問題一、什麼是過擬合和欠擬合？首先擬合是一個統計學概念，它表示所求函式逼近目標函式的遠近程度。應用的機器學習中，就是我們所求的函式與未知的對映函式之間的相似度。如何求得函式引數與潛在的函式引數越逼近，說明效果越好。假設我們用上篇部落格中的資料，原始碼可以見上文：通

Bobo老師機器學習筆記第八課-多項式迴歸

問題1: 什麼是多項式迴歸？以前我們學習了線性迴歸，但是線性迴歸比較適用於資料之間明顯線性關係的。但有時我們使用的資料不一定它們之間有線性關係。那麼這時候就要用到多項式迴歸。多項式我們以前學過，那麼多項式的迴歸方程就類似於問題2: 那麼非線性的資料，我們如何做呢，比如下面資料？

Bobo老師機器學習筆記第五課-邏輯迴歸理論

1、什麼是邏輯迴歸？（Logistic Regresssion）邏輯迴歸（Logistic Regression）是一種用於解決二分類（0 or 1）問題的機器學習方法，用於估計某種事物的可能性。邏輯迴歸既可以看做是一個迴歸演算法，也可以看作是一個分類問題，通常是用過分類，並且是二分類。分類

Bobo老師機器學習筆記第七課-如何通過PCA實現高維資料向低維資料的轉換

在上一篇部落格中我們總結如何求出前N個主成分，這篇部落格中我們主要講述如何通過PCA實現高維資料向低維資料的轉變。高維資料向低維資料的轉變的核心是重新建立新的座標系，而這個座標系就是前K個主成分構成矩陣。所以問題簡化為如何通過高位矩陣和前K主成分矩陣，找出新座標下的地

Bobo老師機器學習筆記第七課-使用PCA對MNIST資料集進行降噪

問題1：什麼是MNIST資料集？ MNIST 資料集來自美國國家標準與技術研究所, National Institute of Standards and Technology (NIST). 訓練集 (training set) 由來自 250 個不同人手寫的數字構成

Bobo老師機器學習筆記第九課-邏輯迴歸新增多項式

在上面部落格中我們主要使用邏輯迴歸進行線性資料的分類，那麼邏輯如何處理非線性資料分類呢？比如下面的資料： 1、利用邏輯迴歸如何處理非線性資料迴歸？針對上面的資料，我們首先嚐試迴歸一下，看看獲取的結果是： 0.605，這個評分不是很高，讓後我們繪製一下決策邊界：

Bobo老師機器學習筆記第九課-邏輯迴歸程式碼展示

在上一篇部落格中我們學習了邏輯迴歸（LogisticRegression）的理論。那麼在這篇部落格中，我們用程式碼展示一下，如何用梯度下降法獲取邏輯迴歸的引數步驟1：我們載入sklearn中的鳶尾花資料進行測試，由於為了資料視覺化，我們選擇2種類型的鳶尾花，並且只選擇2個特徵。

Bobo老師機器學習筆記第九課-PR曲線和ROC曲線

在上篇文章中，我們已經概述了PR曲線。現在做個簡單的迴歸 1、什麼是PR曲線？ PR曲線是精準率（Precision）和召回率（Recall）的縮寫，精準率表示在預測的關注事件中，其中預測正確的有多少。 Precision = TP / (TP + FP)

Bobo老師機器學習筆記第九課-分類演算法的評價指標

1、以前學習分類演算法時候，一直用分類準確度進行演算法的好壞，準確度一定準確嗎？對於極度偏斜（Skewed data）的資料，只使用分類準確度是不夠的。比如一種癌症的發病率是0.01%，那麼我們系統即使在不分類的情況下，預測健康的情況準確率就可以達到99.99%。這個明顯是不符合實際情況的。

Bobo老師機器學習筆記第九課-如何處理多分類任務？

1、什麼是多分類任務？針對多類問題的分類中，具體講有兩種，即multiclass classification和multilabel classification。 multiclass是指分類任務中包含不止一個類別時，每條資料僅僅對應其中一個類別，不會對應多個類

機器學習筆記第13課

（1）關於EM演算法的另一種理解方式根據Jensen不等式可以得出不等式構造要優化的最大似然函式 l（sita）的下界，而每一次的重複E、M步驟，實際上是一個座標上升的過程。E步驟，使Qi（z）最大化，M步驟使引數最大化。這也從另一方面驗證了EM演算法是收斂的。其實一開始提到的K-

機器學習筆記第12課

開始非監督學習的篇章（1）K-means 演算法，一個很經典且簡約的非監督學習演算法。演算法過程不再敘述。 K-means演算法的兩個過程：（1）將點分配到相應的類；（2）以均值作為新的類的類中心。實際上反覆的迭代這兩個過程，就是一個座標上升的過程。初始聚類中心的個數對演算法的效果有

Bobo老師機器學習筆記第六課-梯度下降法線上性迴歸中的應用

一、理論介紹

二、線上性迴歸中的應用

相關推薦