ML學習筆記 3 梯度下降法及其線上性迴歸中的應用

阿新 • • 發佈：2019-01-08

背景

上一篇文章用最小二乘法（即公式法）求出了線性迴歸的引數 theta ；本篇程式碼介紹用梯度下降法求極小值。

原理

實在不知道怎麼描述啊，okay，從山頂走向山腳有 n 條路，問題來了：

捷徑？最快的那條路徑。
以多大的步伐走比較合適？比較走的太快，容易走過頭。
用計算機模擬實現，我們要容易想到 x = x - deta

求解過程模擬

已知：y = (x-2.5)^2 -1 ，求 y 的最小值。
當然極小值（這裡也是最小值）一眼就能看出是 -1 ，但對於三次曲線等更復雜的函式，怎麼求極小值呢？這裡我們模擬梯度下降法搜尋拋物線極小值的過程：

import numpy as np
import matplotlib.pyplot as plt

plot_x = np.linspace(-1.,6.,141) #  資料準備
plot_y = (plot_x-2.5)**2 - 1 # 生成一個目標二次函式

def J(theta):  # 即待求最小值的二次函式；模擬損失函式
    try:
        return (theta-2.5)**2 -1
    except:
        return float('inf')
    
def dJ(theta): # 二次函式的導數
    return 2*(theta-2.5)

theta_history = []
def gradient_descent(initial_theta, eta, n_iters = 1e4, epsilon=1e-8):
    theta = initial_theta
    i_iter = 0
    theta_history.append(initial_theta)

    while i_iter < n_iters: # 保證方法能退出？eta值過大，可能無法收斂
        gradient = dJ(theta)
        last_theta = theta
        theta = theta - eta * gradient
        theta_history.append(theta)
        if(abs(J(theta) - J(last_theta)) < epsilon):  
            break           
        i_iter += 1
        
    return

def plot_theta_history():
    plt.plot(plot_x, J(plot_x))
    plt.plot(np.array(theta_history), J(np.array(theta_history)), color="r", marker='+')
    plt.show()

測試結果：

eta = 0.8 
theta_history = []
gradient_descent(0,eta)
plot_theta_history()

eta = 0.3
theta_history = []
gradient_descent(0,eta)
plot_theta_history()

eta = 1.1
theta_history = []
gradient_descent(0, eta, n_iters=10)
plot_theta_history()

輸出：
在這裡插入圖片描述

eta = 0.8 時的搜尋路徑

在這裡插入圖片描述

eta = 0.3 時的搜尋路徑

在這裡插入圖片描述

eta = 1.1 時的搜尋路徑：無法收斂，J值越來越大

紅色折線點描述 theta 的取值，對應min(J)的搜尋路徑
eta ：步長，對應下降速度
n_iters ：保證 gradient_descent 方法可以退出？eta 過大可能導致演算法不收斂，一直執行
epsilon ：計算機取值浮點誤差

線上性迴歸中的應用

先推導一下求偏導數的公式：
在這裡插入圖片描述

向量化偏導數求解公式

import numpy as np
class LinearRegression:
    def __init__(self):
        """初始化Linear Regression模型"""
        self.coef_ = None
        self.intercept_ = None
        self._theta = None
        
    def fit_gd(self, X_train, y_train, eta=0.01, n_iters=1e4):
        def J(theta, X_b, y):
            try:
                return np.sum((y - X_b.dot(theta)) ** 2) / len(y)
            except:
                return float('inf') 
        def dJ(theta, X_b, y):
            return X_b.T.dot(X_b.dot(theta) - y) * 2. / len(y)

        def gradient_descent(X_b, y, initial_theta, eta, n_iters=1e4, epsilon=1e-8):
            theta = initial_theta
            cur_iter = 0
            while cur_iter < n_iters:
                gradient = dJ(theta, X_b, y)
                last_theta = theta
                theta = theta - eta * gradient
                if (abs(J(theta, X_b, y) - J(last_theta, X_b, y)) < epsilon):
                    break
                cur_iter += 1

            return theta

        X_b = np.hstack([np.ones((len(X_train), 1)), X_train])
        initial_theta = np.zeros(X_b.shape[1])
        self._theta = gradient_descent(X_b, y_train, initial_theta, eta, n_iters)
        self.intercept_ = self._theta[0]
        self.coef_ = self._theta[1:]

        return self

    def predict(self, X_predict):
        X_b = np.hstack([np.ones((len(X_predict), 1)), X_predict])
        return X_b.dot(self._theta)

    def score(self, X_test, y_test):
        """根據測試資料集 X_test 和 y_test 確定當前模型的準確度"""
        y_predict = self.predict(X_test)
        return r2_score(y_test, y_predict)

import numpy as np
from math import sqrt

def mean_squared_error(y_true, y_predict):
    """計算y_true和y_predict之間的MSE"""
    assert len(y_true) == len(y_predict), \
        "the size of y_true must be equal to the size of y_predict"

    return np.sum((y_true - y_predict)**2) / len(y_true)

def r2_score(y_true, y_predict):
    """計算y_true和y_predict之間的R Square"""
    return 1 - mean_squared_error(y_true, y_predict)/np.var(y_true)

測試：

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

boston = datasets.load_boston()
X = boston.data
y = boston.target

X = X[y < 50.0]
y = y[y < 50.0]

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=666)

standardScaler = StandardScaler()
standardScaler.fit(X_train)
X_train_standard = standardScaler.transform(X_train)
X_test_standard = standardScaler.transform(X_test)

lin_reg = LinearRegression()
lin_reg.fit_gd(X_train_standard, y_train)
lin_reg.score(X_test_standard, y_test)  # 輸出：0.80087954605863654

注：使用梯度下降法求最小值，一般要將資料歸一化。

批量梯度下降 VS 隨機梯度下降法

粗糙的理解一下，Batch Gradient Descent (bgd) 正如上面所做的那樣，每走一步，都需要考慮所有的樣本;而Stochastic Gradient Descent (sgd) 每走一步，只考慮其中一個樣本，So ：

SGD 速度比 BGD快（迭代次數少）
BGD一定能得到一個區域性最優解（線上性迴歸模型中一定是得到一個全域性最優解），SGD由於隨機性的存在,可能導致最終結果比BGD的差
SGD有可能跳出某些小的區域性最優解，所以不會比BGD差
BGD 能保證每次 J 的值都向最快的方向減少，SGD 可能存在使 J 值增加的步法
注：SGD為了保證收斂，步驟 eta 值需要漸漸減少

其中 i_iters 為迴圈的次數，為了保證第1次與第100迴圈時，eta值相差不那麼大，額外增加兩個平衡引數 a與b,經驗值：a = 5 ; b = 50

總結

梯度下降法是一種基於搜尋的最優化方法（不是一個機器學習演算法），主要用於最小化一個損失函式；
使用梯度下降法前，為了提高收斂（求出極小值）的速度，需要對資料進行歸一化；
梯度上升法，使用者最大化一個效用函式

ML學習筆記 3 梯度下降法及其線上性迴歸中的應用

背景上一篇文章用最小二乘法（即公式法）求出了線性迴歸的引數 theta ；本篇程式碼介紹用梯度下降法求極小值。原理實在不知道怎麼描述啊，okay，從山頂走向山腳有 n 條路，問題來了：捷徑？最快的那條路徑。以多大的步伐走比較合適？比較走的太快，容易

Andrew Ng機器學習筆記2——梯度下降法and最小二乘擬合

今天正式開始學習機器學習的演算法，老師首先舉了一個例項：已知某地區的房屋面積與價格的一個數據集，那麼如何預測給定房屋面積的價格呢？我們大部分人可以想到的就是將畫出房屋面積與價格的散點圖，然後擬合出價格關於面積的曲線，那麼對於一個已知的房屋面積，就可以在擬合的曲線上得到預測的

機器學習筆記之梯度下降法

梯度下降法/批量梯度下降法BGD 梯度下降法是一種基於搜尋的最優化方法,即通過不斷地搜尋找到函式的最小值.並不是機器學習專屬的方法.但是在機器學習演算法中求解損失函式的最小值時很常用. 還記得之前說過的機器學習演算法的普遍套路嗎？定義一個合理的損失函式優化這個損失函式,求解最小值.

CNN學習筆記：梯度下降法

png 技術 bsp src com 梯度下降技術分享 http alt CNN學習筆記：梯度下降法梯度下降法　　梯度下降法用於找到使損失函數盡可能小的w和b，如下圖所示，J(w,b)損失函數是一個在水平軸w和b上面的曲面，曲面的高度表示了損失函數在某一個點的值

吳恩達機器學習筆記10-梯度下降法實踐1-特征縮放

alt style span 技術分享嘗試最簡學習梯度下降法實踐　　在我們面對多維特征問題的時候，我們要保證這些特征都具有相近的尺度，這將幫助梯度下降算法更快地收斂。　　以房價問題為例，假設我們使用兩個特征，房屋的尺寸和房間的數量，尺寸的值為 0-2000 平方

吳恩達機器學習筆記11-梯度下降法實踐2-學習率

測試根據圖片提前 size 技術分享次數梯度下降 mage 　　梯度下降算法收斂所需要的叠代次數根據模型的不同而不同，我們不能提前預知，我們可以繪制叠代次數和代價函數的圖表來觀測算法在何時趨於收斂。也有一些自動測試是否收斂的方法，例如將代價函數的變化值與某

【機器學習】基於梯度下降法的自線性迴歸模型

回顧關於梯度下降法以及線性迴歸的介紹，我們知道了：線性迴歸的損失函式為： J (

梯度下降原理及線上性迴歸、邏輯迴歸中的應用

1 基本概念 1）定義梯度下降法，就是利用負梯度方向來決定每次迭代的新的搜尋方向，使得每次迭代能使待優化的目標函式逐步減小。梯度下降法是2範數下的最速下降法。最速下降法的一種簡單形式是：x(k+1)=x(k)-a*g(k),其中a稱為學習速率，可以是較小的常數。g（k

機器學習的訓練演算法(優化方法)彙總——梯度下降法及其改進演算法

Introduce 今天會說兩個問題，第一，建議大腳多看看大牛的部落格，可以漲姿勢。。。例如： 1、側重於語言程式設計和應用的廖雪峰 2、側重於高大上演算法和開源庫介紹的莫煩第二，加深對機器學習演算法的理解。個人理解：經典機器學習演算法，例如SVM，邏輯迴歸，決策樹

（轉）梯度下降法及其Python實現

radi 減少 fill 叠代 bbs 方法風險 ews 展示梯度下降法（gradient descent），又名最速下降法（steepest descent）是求解無約束最優化問題最常用的方法，它是一種叠代方法，每一步主要的操作是求解目標函數的梯度向量，將當前位置的負

[ML學習筆記] 回歸算法

mage part sigma sum class 建立方法 inline display [ML學習筆記] 回歸算法回歸分析：在一系列已知自變量與因變量之間相關關系的基礎上，建立變量之間的回歸方程，把回歸方程作為算法模型，實現對新自變量得出因變量的關系。回歸與分類的

梯度下降法及其實現【轉】

梯度下降的場景假設梯度梯度下降演算法的數學解釋梯度下降演算法的例項梯度下降演算法的實現 Further reading 本文將從一個下山的場景開始，先提出梯度下降演算法的基本思想，進而從數學上解釋梯度下降演算法的原理，最

梯度下降法及其實現

【機器學習三】梯度下降法K-means優化演算法

K-means演算法延伸對於之前的一篇文章中說過K-means雖然效果可以，但是對給定的K值敏感，簇中心位置敏感以及計算量大。所以針對以上兩點有了一些優化的方法。對於給定的K值偏大或者偏小都將影響聚類效果。而由於對於需要聚類的資料本身沒有一個y值即分類值，這正是需要演算法最後得出的。所以

【機器學習二】梯度下降法KMeans

KMeans聚類的思想: 給定一個有M個物件的資料集，構建一個具有k個簇的模型，其中k<=M。滿足以下條件： • 每個簇至少包含一個物件 • 每個物件屬於且僅屬於一個簇 • 將滿足上述條件的k個簇成為一個合理的聚類劃分 • 基本思想：對於給定的類別數目k，首先給定初始劃分，通過迭代改

深入淺出--梯度下降法及其實現

梯度下降的場景假設梯度梯度下降演算法的數學解釋梯度下降演算法的例項梯度下降演算法的實現Further reading本文將從一個下山的場景開始，先提出梯度下降演算法的基本思想，進而從數學上解釋梯度下降演算法的原理，最後實現一個簡單的梯度下降演算法的例項！梯度下降的場景假設梯度下降法的基本思想可以類比為一個下山

【八】機器學習之路——梯度下降法python實現

前面的部落格線性迴歸python實現講了如何用python裡sklearn自帶的linearRegression()函式來擬合數據的實現方式。今天咱們來介紹下，如何用梯度下降法擬合數據。還記得梯度下降法是怎麼做的嗎？忘記的同學可以回頭看下前面的部落格

Python梯度下降法實現二元邏輯迴歸

Python梯度下降法實現二元邏輯迴歸二元邏輯迴歸假設函式定義當函式值大於等於0.5時，結果為1，當函式值小於0.5時，結果為0.函式的值域是(0, 1)。二元邏輯迴歸的損失函式上圖為二元邏輯迴歸的概率公式，則代價函式可以表示為損失函式求偏倒數為可以發

梯度下降法求多元線性迴歸及Java實現

對於資料分析而言，我們總是極力找數學模型來描述資料發生的規律，有的資料我們在二維空間就可以描述，有的資料則需要對映到更高維的空間。資料表現出來的分佈可能是完全離散的，也可能是聚整合堆的，那麼機器學習的任務就是讓計算機自己在資料中學習到資料的規律。那麼這個規律通常是可以用一些函式來描述，

梯度下降法解多元線性迴歸(C++)

提供測試題意：已知有資料集包含多個工程師的資訊，而對於每個工程師有engineer -> [y,x1,x2] 表示當其XP的值為x1，解決的題目為x2個時，可以開出y的薪水。請用多元線

ML學習筆記 3 梯度下降法及其線上性迴歸中的應用

背景

原理

求解過程模擬

線上性迴歸中的應用

批量梯度下降 VS 隨機梯度下降法

總 結

相關推薦

總結