Bobo老師機器學習筆記第五課-簡單線性迴歸

阿新 • • 發佈：2018-11-05

課程地址：https://coding.imooc.com/class/169.html

最小二乘法的推導部落格點選此處

程式碼實現（參考Bobo實現，如果要看BoBo老師原始碼，請點選此處）：

# -*- encoding: utf-8 -*-
"""
實現簡單的線性迴歸,
自己實現SimpleLineRegession1過程中的2個錯誤：
1、deno += (x - x_mean) ** 2 寫成 deno = (x - x_mean) ** 2 這裡要注意： deno是所有計算結果的累計值
2、 方程方式self.a_ * x + self.b_ 寫成 self.a_ * x - self.b_。 計算b的公式b=y_mean - a * x_mean, 但是整個方程是 y = ax+b
"""
import numpy as np


class SimpleLineRegession1(object):
    """
    不使用向量化實現簡單的線性迴歸
    """

    def __init__(self):
        """
        在過程中計算出來的變數統一命令,字尾加上_
        """
        self.a_ = None  # 表示線性的斜率
        self.b_ = None  # 表示線

    def fit(self, X_train, y_train):
        """
        訓練模型
        :param X_train:
        :return:
        """
        assert X_train.ndim == 1 and y_train.ndim == 1, 'X和Y必須為1維'
        assert len(X_train) == len(y_train), 'X和Y的訓練個數不相同'
        x_mean = np.mean(X_train)
        y_mean = np.mean(y_train)
        num = 0.0  # 分子  Numerator and denominator
        deno = 0.0
        for x, y in zip(X_train, y_train):
            num += (x - x_mean) * (y - y_mean)
            deno += (x - x_mean) ** 2
        self.a_ = num / deno
        self.b_ = y_mean - self.a_ * x_mean


    def _predict(self, x):
        """
        預測單個X的結果 線性方程y = a*x + b
        :param x:
        :return:
        """

        return self.a_ * x + self.b_

    def predict(self, X_test):
        """
        預測X，X是一維的資料
        :param X_test:
        :return:
        """
        assert X_test.ndim == 1, 'X_test必須是一維陣列'
        assert self.a_ is not None and self.b_ is not None , '在predict之前請先fit'

        y_pridect = [self._predict(x) for x in X_test]
        return np.array(y_pridect)

    def __repr__(self):
        return ('SimpleLineRegession1(a=%s, b=%s)' %(self.a_, self.b_))


class SimpleLineRegession2(object):
    """
    不使用向量化實現簡單的線性迴歸
    """

    def __init__(self):
        """
        在過程中計算出來的變數統一命令,字尾加上_
        """
        self.a_ = None  # 表示線性的斜率
        self.b_ = None  # 表示線

    def fit(self, X_train, y_train):
        """
        訓練模型
        :param X_train:
        :return:
        """
        assert X_train.ndim == 1 and y_train.ndim == 1, 'X和Y必須為1維'
        assert len(X_train) == len(y_train), 'X和Y的訓練個數不相同'
        x_mean = np.mean(X_train)
        y_mean = np.mean(y_train)
        self.a_ = (X_train - x_mean).dot(y_train - y_mean) / (X_train - x_mean).dot(X_train - x_mean)
        self.b_ = y_mean - self.a_ * x_mean


    def _predict(self, x):
        """
        預測單個X的結果 線性方程y = a*x + b
        :param x:
        :return:
        """

        return self.a_ * x + self.b_

    def predict(self, X_test):
        """
        預測X，X是一維的資料
        :param X_test:
        :return:
        """
        assert X_test.ndim == 1, 'X_test必須是一維陣列'
        assert self.a_ is not None and self.b_ is not None , '在predict之前請先fit'

        y_pridect = [self._predict(x) for x in X_test]
        return np.array(y_pridect)

    def __repr__(self):
        return 'SimpleLineRegession2(a=%s, b=%s)' %(self.a_, self.b_)

測試程式碼：

import numpy as np
from timeit import timeit as timeit
import matplotlib.pyplot as plt
from simplelinerregression import SimpleLineRegession1, SimpleLineRegession2

x = np.random.randint(1.0, 6, 10000) + np.random.normal(size=10000)
y = 0.8 * x + 0.4 + np.random.normal(size=len(x))

def test_reg1():

    reg1 = SimpleLineRegession1()
    reg1.fit(x, y)
    reg1.predict(x)
    print reg1

def test_reg2():
    reg2 = SimpleLineRegession2()
    reg2.fit(x, y)
    reg2.predict(x)
    print reg2

def draw_graph():

    x = np.array([1., 2., 3., 4., 5.])
    y = np.array([1., 3., 2., 3.0, 5.0])
    plt.scatter(x, y)
    plt.scatter(x, y, color='green')
    plt.axis([0, 6, 0, 6])

    reg1 = SimpleLineRegession1()
    reg1.fit(x, y)
    y_predict = reg1.predict(x)

    line_mark = 'y=%sx+%s' % (np.round(reg1.a_, 2), np.round(reg1.b_, 2))
    plt.plot(x, y_predict, color='red', label=line_mark)
    plt.legend()
    plt.show()


if __name__ == '__main__':
    print timeit('test_reg1()', "from __main__ import test_reg1", number=3)
    print timeit('test_reg2()', "from __main__ import test_reg2", number=3)
    draw_graph()

執行結果：

執行結果，明顯SimpleLineRegession2效率要比SimpleLineRegession1高很多
SimpleLineRegession1(a=0.8018889242367586, b=0.39478340695596614)
SimpleLineRegession1(a=0.8018889242367586, b=0.39478340695596614)
SimpleLineRegession1(a=0.8018889242367586, b=0.39478340695596614)
0.0413969199446
SimpleLineRegession2(a=0.8018889242367646, b=0.39478340695594794)
SimpleLineRegession2(a=0.8018889242367646, b=0.39478340695594794)
SimpleLineRegession2(a=0.8018889242367646, b=0.39478340695594794)
0.0128730256884

Bobo老師機器學習筆記第五課-簡單線性迴歸

課程地址：https://coding.imooc.com/class/169.html 最小二乘法的推導部落格點選此處程式碼實現（參考Bobo實現，如果要看BoBo老師原始碼，請點選此處）： # -*- encoding: utf-8 -*- """ 實現簡單的線性迴歸, 自己

Bobo老師機器學習筆記第五課-多元線性迴歸

思維導圖學習筆記自己參考BoBo老師課程講解實現： # -*- coding: utf-8 -*- import numpy as np from metrics import r2_score class LinearRegression(object): def __

Bobo老師機器學習筆記第五課-線性迴歸演算法的評估指標

評價線性迴歸的指標有四種，均方誤差（Mean Squared Error）、均方根誤差（Root Mean Squared Error）、平均絕對值誤差（Mean Absolute Error）以及R Squared方法。 sklearnz中使用的，也是大家推薦的方法是R Squared方法。

Bobo老師機器學習筆記第五課-邏輯迴歸理論

1、什麼是邏輯迴歸？（Logistic Regresssion）邏輯迴歸（Logistic Regression）是一種用於解決二分類（0 or 1）問題的機器學習方法，用於估計某種事物的可能性。邏輯迴歸既可以看做是一個迴歸演算法，也可以看作是一個分類問題，通常是用過分類，並且是二分類。分類

Bobo老師機器學習筆記第六課-梯度下降法

思維導圖筆記數學基礎連結：為什麼梯度方向是函式值增大最快的方向為什麼沿著梯度方向函式值上升的最快?為什麼梯度反方向是函式值下降最快的方向？練習程式碼 # -*- coding: utf-8 -*- import numpy as np import matplot

bobo老師機器學習筆記-第四課：KNN演算法

自己參考Bobo老師寫得程式碼：主要分為四個檔案： knn.py中實現KNN演算法、model_selection.py封裝了樣本資料的一些工具方法，比如切分為訓練集和測試集； metrics用來對模型進行評估、client用來呼叫演算法進行執行 # -*- encoding:

Bobo老師機器學習筆記第八課-方差、偏差、嶺迴歸、LASSO迴歸？

對誤差分類問題一、什麼是偏差和方差？先看下面這幅圖圖：方差：都是圍著資料中心的，方差越大則表示距離資料中心分佈的越分散，越小說明越近越集中偏差：偏離資料中心，偏差越大，說明整個資料距離中心越遠，偏差越小，說明距離資料中心越近。這兩者的關係通常是矛盾的，降低偏

Bobo老師機器學習筆記第八課-什麼是交叉驗證？

1、測試資料的真正意義是什麼？在上篇部落格中，我們看到測試集和訓練集在同一個模型上會表現不同的結果。我們通過學習曲線可以直觀的看到具體是過擬合還是欠擬合，從而調整引數，進行不斷驗證，直到找到一個在訓練集表現好的資料。總結一句話，就是通過測試資料進行對模型的調優。 2、依

Bobo老師機器學習筆記第八課-如何防止過擬合和欠擬合？

問題一、什麼是過擬合和欠擬合？首先擬合是一個統計學概念，它表示所求函式逼近目標函式的遠近程度。應用的機器學習中，就是我們所求的函式與未知的對映函式之間的相似度。如何求得函式引數與潛在的函式引數越逼近，說明效果越好。假設我們用上篇部落格中的資料，原始碼可以見上文：通

Bobo老師機器學習筆記第八課-多項式迴歸

問題1: 什麼是多項式迴歸？以前我們學習了線性迴歸，但是線性迴歸比較適用於資料之間明顯線性關係的。但有時我們使用的資料不一定它們之間有線性關係。那麼這時候就要用到多項式迴歸。多項式我們以前學過，那麼多項式的迴歸方程就類似於問題2: 那麼非線性的資料，我們如何做呢，比如下面資料？

Bobo老師機器學習筆記第六課-梯度下降法線上性迴歸中的應用

在上一篇部落格中大概介紹了一下梯度下降法，那麼梯度下降法線上性迴歸中如何更好的應用了，本篇部落格做一介紹。在BoBo老師的課程中，梯度下降法主要講了2中，批量梯度下降法(Batch Gradient Descent)和隨機梯度下降法(Stochastic Gradient

Bobo老師機器學習筆記第七課-如何通過PCA實現高維資料向低維資料的轉換

在上一篇部落格中我們總結如何求出前N個主成分，這篇部落格中我們主要講述如何通過PCA實現高維資料向低維資料的轉變。高維資料向低維資料的轉變的核心是重新建立新的座標系，而這個座標系就是前K個主成分構成矩陣。所以問題簡化為如何通過高位矩陣和前K主成分矩陣，找出新座標下的地

Bobo老師機器學習筆記第七課-使用PCA對MNIST資料集進行降噪

問題1：什麼是MNIST資料集？ MNIST 資料集來自美國國家標準與技術研究所, National Institute of Standards and Technology (NIST). 訓練集 (training set) 由來自 250 個不同人手寫的數字構成

Bobo老師機器學習筆記第九課-邏輯迴歸新增多項式

在上面部落格中我們主要使用邏輯迴歸進行線性資料的分類，那麼邏輯如何處理非線性資料分類呢？比如下面的資料： 1、利用邏輯迴歸如何處理非線性資料迴歸？針對上面的資料，我們首先嚐試迴歸一下，看看獲取的結果是： 0.605，這個評分不是很高，讓後我們繪製一下決策邊界：

Bobo老師機器學習筆記第九課-邏輯迴歸程式碼展示

在上一篇部落格中我們學習了邏輯迴歸（LogisticRegression）的理論。那麼在這篇部落格中，我們用程式碼展示一下，如何用梯度下降法獲取邏輯迴歸的引數步驟1：我們載入sklearn中的鳶尾花資料進行測試，由於為了資料視覺化，我們選擇2種類型的鳶尾花，並且只選擇2個特徵。

Bobo老師機器學習筆記第九課-PR曲線和ROC曲線

在上篇文章中，我們已經概述了PR曲線。現在做個簡單的迴歸 1、什麼是PR曲線？ PR曲線是精準率（Precision）和召回率（Recall）的縮寫，精準率表示在預測的關注事件中，其中預測正確的有多少。 Precision = TP / (TP + FP)

Bobo老師機器學習筆記第九課-分類演算法的評價指標

1、以前學習分類演算法時候，一直用分類準確度進行演算法的好壞，準確度一定準確嗎？對於極度偏斜（Skewed data）的資料，只使用分類準確度是不夠的。比如一種癌症的發病率是0.01%，那麼我們系統即使在不分類的情況下，預測健康的情況準確率就可以達到99.99%。這個明顯是不符合實際情況的。

Bobo老師機器學習筆記第九課-如何處理多分類任務？

1、什麼是多分類任務？針對多類問題的分類中，具體講有兩種，即multiclass classification和multilabel classification。 multiclass是指分類任務中包含不止一個類別時，每條資料僅僅對應其中一個類別，不會對應多個類

機器學習筆記第5課：線性迴歸演算法

線性迴歸可能是統計學和機器學習中最知名且易於理解的演算法之一。它不就是一項起源於統計學的技術嗎？預測建模主要關注的是讓模型的誤差最小化，或者說，在可以解釋的前提下，儘可能作出最準確的預測。我們會借用，重用，甚至是竊取許多不同領域（包括統計學）的演算法，並將其用於上述的目標。線性迴歸

機器學習筆記第6課：邏輯迴歸演算法

邏輯迴歸是機器學習從統計領域借用的又一項技術。它是二元分類問題（即只有兩種型別的分類問題）的首選方法。邏輯迴歸和線性迴歸的類似之處在於，其目標是找到每個輸入變數的權重係數。與線性迴歸的不同點是，邏輯函式是非線性函式，邏輯迴歸使用非線性的邏輯函式對輸出結果進行轉換。

Bobo老師機器學習筆記第五課-簡單線性迴歸

相關推薦