機器學習實戰——線性迴歸和區域性加權線性迴歸（含python中複製的四種情形！）

阿新 • • 發佈：2019-02-02

書籍：《機器學習實戰》中文版
IDE：PyCharm Edu 4.02

環境：Adaconda3 python3.6

注：本程式相比原書中的程式區別，主要區別在於函式驗證和繪圖部分。

一、一般線性迴歸（最小二乘法OLS）

迴歸係數求解公式：

說明：X矩陣中每一行是一個樣本，y是列向量。只有逆矩陣存在的時候使用，必須在程式碼中進行判斷。

from numpy import *
import matplotlib.pyplot as plt
# 自適應資料載入函式
# 不必指定特徵數目,
def loadDataSet(fileName):     #general function to parse tab -delimited floats
    numFeat = len(open(fileName).readline().split('\t'))-1   #get number of fields
    dataMat = [];labelMat = []
    with open(fileName) as fr:
        for line in fr.readlines():
            lineArr = []
            curLine = line.strip().split('\t')
            for i in range(numFeat):
                lineArr.append(float(curLine[i]))
            dataMat.append(lineArr)
            labelMat.append(float(curLine[-1]))
    return dataMat,labelMat       # 返回列表
# xMat:每一行是一個樣本
def standRegres(xArr,yArr):
    xMat = mat(xArr)
    yMat = mat(yArr).T
    xTx = xMat.T * xMat
    if linalg.det(xTx)==0.0:    #判斷是否可逆
        print('This matrix is singular,cannot do inverse')
        return
    ws = xTx.I * (xMat.T * yMat)
    return ws         #返回矩陣
x,y = loadDataSet('ex0.txt')  # 檔案中第一列全為1
def test(x,y):
    # 繪製散點圖
    xMat = array(x)
    yMat = array(y)
    ws1 = standRegres(x,y)
    fig = plt.figure(1)
    ax = fig.add_subplot(111)
    ax.scatter(xMat[:,1],yMat.transpose())
    # 繪製擬合曲線
    # 排序後在畫擬合直線??
    y_fit = dot(xMat,ws1)  # 矩陣乘法
    # 計算相關序列
    print(corrcoef(y_fit.transpose(),yMat))
    ax.plot(xMat[:,1],y_fit,c='r')
    plt.show()
#print(test(x,y))

二、區域性線性加權迴歸LWLR

線性迴歸的一個問題是欠擬合，考慮加入一些偏差，降低預測的均方誤差。

LWLR方法對待預測的每個點賦予一定的權重，在這樣的一個子集上基於最小均方差來進行普通的迴歸。

因此，會增加計算量，它對每個點做預測時都必須使用整個資料集。

權重常採用“核”函式的方式進行加權，本程式使用高斯核。

說明：等號右邊的W表示權重係數。

# 資料載入函式同上
# 區域性線性加權迴歸
# k:高斯核引數
def lwlr(testPoint,xArr,yArr,k=1.0):
    xMat = mat(xArr)
    yMat = mat(yArr).T
    m = shape(xMat)[0]
    weights = mat(eye(m))
    for j in range(m):
        diffMat = testPoint - xMat[j,:]
        weights[j,j] = exp(diffMat*diffMat.T/(-2.0*k**2))
    xTx = xMat.T * (weights * xMat)
    if linalg.det(xTx) == 0.0:
        print('This matrix is singular,cannot do inverse')
        return
    ws = xTx.I * (xMat.T * (weights * yMat))
    return testPoint*ws
#print(lwlr(x[0],x,y,1.0))
def lwlrTest(testArr,xArr,yArr,k=1.0):
    #獲取所有資料的估計值
    xMat = mat(xArr)
    yMat = mat(yArr)
    m,n = shape(xMat)
    y_fit = zeros(m)
    for i in range(m):
        y_fit[i] = lwlr(testArr[i],xArr,yArr,k)
    # 繪製散點圖
    fig = plt.figure(1)
    ax = fig.add_subplot(111)
    ax.scatter(xMat[:,1].flatten().getA(),yMat.getA())    #必須是陣列的形式
    # 繪製擬合曲線
    # 排序後再畫擬合直線
    srtIndex = xMat[:,1].argsort(axis=0)
    xSort = xMat[srtIndex][:,0,:]
    ySort = y_fit[srtIndex]
    #ax.plot(xMat[:,1],y_fit,c='r')  #未排序，曲線明顯出錯
    ax.plot(xSort[:,1],ySort,c='r')
    plt.show()
    return y_fit
print(lwlrTest(x,x,y,0.03))

註解：

1、繪製圖形時報錯：Masked arrays must be 1-D

解決：scatter()中引數必須是1-D的array，但plot()總引數可以是矩陣。

ax.scatter(xMat[:,1].flatten().getA(),yMat.getA())    #必須是陣列的形式

解釋：http://blog.csdn.net/qq_18433441/article/details/54916991

numpy的flatten()可以將二維矩陣變為一維的矩陣，但此時依然是矩陣型別。

from numpy import *
a=[[1,2,3],[4,5,6]]
mat1 = mat(a)
mat2 = mat1.flatten()  #依然是matrix型別
mat3 = mat2.getA()    # array型別
print(a)
print(mat1)
print(mat2,type(mat2))
print(mat3,type(mat3))

2、copy()方法、引用

情形一：原物件整體改變

結果：引用後物件和copy()後物件不隨原物件而改變

from numpy import *
b1=array([1,2,3,4,5,6])
b2=b1
b3=b1.copy()
b1=b1*2
print(b1)
print(b2)
print(b3)

結果：

[ 2  4  6  8 10 12]
[1 2 3 4 5 6]
[1 2 3 4 5 6]

情形二：原物件部分元素改變

結果：引用物件隨原物件改變，copy()後的物件不變

from numpy import *
b1=array([1,2,3,4,5,6])
b2=b1
b3=b1.copy()
b1[0]=100
print(b1)
print(b2)
print(b3)

結果：

[100   2   3   4   5   6]
[100   2   3   4   5   6]
[1 2 3 4 5 6]

情形三：原物件中有子物件情形

結果：子物件變化時，引用後物件和copy()後物件均隨原物件而改變。但是，非子物件變化的結果同上。

（1）非子物件改變

b1=[1,2,[3,4]]
b2=b1
b3=b1.copy()
b1[0]=100
print(b1)
print(b2)
print(b3)

結果：

[100, 2, [3, 4]]
[100, 2, [3, 4]]
[1, 2, [3, 4]]

（2）子物件改變

b1=[1,2,[3,4]]
b2=b1
b3=b1.copy()
#b1[0]=100
b1[2][0] = 100
print(b1)
print(b2)
print(b3)

結果：

[1, 2, [100, 4]]
[1, 2, [100, 4]]
[1, 2, [100, 4]]

提示：array()中元素型別必須一致。

比如array([1,2,[3,4]]) 錯誤

情形四：完全複製

copy庫函式之deepcopy()，list無deepcopy屬性，因此list.deepcopy()錯誤！

import copy
b1=[1,2,[3,4]]
b2=b1
b3=b1.copy()
b4=copy.deepcopy(b1)
#b1[0]=100
b1[2][0] = 100
print(b1)
print(b2)
print(b3)
print(b4)

執行結果：

[1, 2, [100, 4]]
[1, 2, [100, 4]]
[1, 2, [100, 4]]
[1, 2, [3, 4]]

3、問題：擬合曲線繪製前必須先對資料線進行排序，否則易出錯！！！

未排序繪製的擬合曲線：

排序後再繪製擬合曲線：

機器學習實戰——線性迴歸和區域性加權線性迴歸（含python中複製的四種情形！）

書籍：《機器學習實戰》中文版 IDE：PyCharm Edu 4.02 環境：Adaconda3 python3.6 注：本程式相比原書中的程式區別，主要區別在於函式驗證和繪圖部分。一、一般線

機器學習基礎（三十） —— 線性迴歸、正則化（regularized）線性迴歸、區域性加權線性迴歸（LWLR）

1. 線性迴歸線性迴歸根據最小二乘法直接給出權值向量的解析解（closed-form solution）： w=(XTX)−1XTy 線性迴歸的一個問題就是有可能出現欠擬合現象，因為它求的是具有最小均方誤差（LSE，Least Square Erro

《機器學習實戰》第五章：Logistic迴歸（1）基本概念和簡單例項

最近感覺時間越來越寶貴，越來越不夠用。不過還是抽空看了點書，然後整理到部落格來。加快點節奏，廢話少說。 Keep calm & carry on. ----------------------------------------------------------

機器學習-實戰-入門-linearSVC和SVC,身高體重與胖瘦關係的分類與預測

《機器學習實戰》高清版pdf免費下載（資源分享）

《機器學習實戰》高清版pdf免費下載《機器學習實戰》高清版pdf免費下載下載地址：網盤下載編輯推薦介紹並實現機器學習的主流演算法面向日常任務的高效實戰內容《機器學習實戰》沒有從理論角度來揭示機器學習演算法背後的數學原理，而是通過“原理簡述+問題例項+實際程式碼+執行

【機器學習實戰】第6章支援向量機（Support Vector Machine / SVM）

第6章支援向量機 <script type="text/javascript" src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=default"></script>

《機器學習實戰》第三章：決策樹（1）基本概念

有半個月沒來了。最近一段時間...大多在忙專案組的事（其實就是改一改現有程式碼的bug，不過也挺費勁的，畢竟程式碼不是自己寫的）。另外就是自己租了幾臺美帝的vps，搭了$-$的伺服器，效果還不錯。自己搭的話就不用去買別人的服務了，不過租vps畢竟還是要成本的，光用來番茄

《機器學習實戰》第二章：k-近鄰演算法（3）手寫數字識別

這是k-近鄰演算法的最後一個例子——手寫數字識別！怎樣？是不是聽起來很高大上？呵呵。然而這跟影象識別沒有半毛錢的關係因為每個資料樣本並不是手寫數字的圖片，而是有由0和1組成的文字檔案，就像這樣：嗯，這個資料集中的每一個樣本用圖形軟體處理過，變成了寬高

《機器學習實戰》第二章：k-近鄰演算法（1）簡單KNN

收拾下心情，繼續上路。最近開始看Peter Harrington的《Machine Learning in Action》... 的中文版《機器學習實戰》。準備在部落格裡面記錄些筆記。這本書附帶的程式碼和資料及可以在這裡找到。這本書裡程式碼基本是用python寫的

《機器學習實戰》第二章：k-近鄰演算法（2）約會物件分類

這是KNN的一個新例子。在一個約會網站裡，每個約會物件有三個特徵：（1）每年獲得的飛行常客里程數（額...這個用來判斷你是不是成功人士？）（2）玩視訊遊戲所耗時間百分比（額...這個用來判斷你是不是肥宅？）（3）每週消費的冰激凌公升數（額...這個是何用意我真不知道

【機器學習實戰系列】讀書筆記之KNN演算法（三）

本次讀書筆記在於延續上一篇部落格的工程，做出微小的改動，即使用Matplotlib建立散點圖（散點圖使用DataMat矩陣的第一、第二列資料）。首先還是介紹一個相關知識點，方便程式碼瀏覽。知識點一：1、在使用Matplotlib生成圖表時，預設不支援漢字，所有漢字都會顯示成框

斯坦福大學公開課機器學習：Neural Networks，representation: non-linear hypotheses（為什麽需要做非線性分類器）

繼續例子產生成本 log repr 概率 .cn 成了如上圖所示，如果用邏輯回歸來解決這個問題，首先需要構造一個包含很多非線性項的邏輯回歸函數g(x)。這裏g仍是s型函數（即）。我們能讓函數包含很多像這的多項式，當多項式足夠多時，那麽你也許能夠得到可以

機器學習系列(12)_XGBoost引數調優完全指南（附Python程式碼）

1. 簡介如果你的預測模型表現得有些不盡如人意，那就用XGBoost吧。XGBoost演算法現在已經成為很多資料工程師的重要武器。它是一種十分精緻的演算法，可以處理各種不規則的資料。構造一個使用XGBoost的模型十分簡單。但是，提高這個模型的表現就有些困難(至少我

線性模型-區域性加權線性迴歸機器學習實戰

區域性加權線性迴歸線性迴歸的一個問題是有可能出現欠擬合，因為它求的是具有最小均方誤差的無偏估計，顯然模型欠擬合將無法做出很好的迴歸預測，所以有些方法允許在估計中引入一些偏差，從而降低預測的均方誤差。區域性線性加權的思想是對待預測點附近的每個點賦予一個權重，然後在帶權的樣本上基於最小均方誤差來

【機器學習】區域性加權線性迴歸

一、問題引入我們現實生活中的很多資料不一定都能用線性模型描述。依然是房價問題，很明顯直線非但不能很好的擬合所有資料點，而且誤差非常大，但是一條類似二次函式的曲線卻能擬合地很好。為了解決非線性模型建立線性模型的問題，我們預測一個點的值時，選擇與這個

機器學習之區域性加權、嶺迴歸和前向逐步迴歸

　　都說萬事開頭難，可一旦開頭，就是全新的狀態，就有可能收穫自己未曾預料到的成果。記錄是為了更好的監督、理解和推進，學習過程中用到的資料集和程式碼都將上傳到github 　　迴歸是對一個或多個自變數和因變數之間的關係進行建模，求解的一種統計方法，之前的部落格中總結了線上性迴歸中使用最小二乘法推導最優引

機器學習（六）——區域性加權線性迴歸（Locally weighted linear regression）

考慮從x∈R中預測y的問題。下面最左邊的圖顯示了將擬合到資料集的結果。我們看到資料並不是直線上的，所以擬合不是很好。取代原來的方法，如果我們加上一個額外的特徵 x2x2，並用 y=θ0+θ1x+θ2x2y=θ0+θ1x+θ2x2 來擬合數據，你會發現效果稍微好了那麼一點（看中

機器學習實戰（七）線性迴歸（Linear Regression）

目錄 0. 前言 1. 假設函式（Hypothesis） 2. 標準線性迴歸 2.1. 代價函式（Cost Function） 2.2. 梯度下降（Gradient Descent） 2.3. 特徵縮放（Feat

機器學習實戰----線性迴歸

一介紹線性迴歸演算法是使用線性方程對資料集進行擬合的演算法，是一個非常常見的迴歸演算法。線性迴歸分為為兩種：單變數線性迴歸和多變數線性迴歸。多變數是單變數的一種推廣。 1 單變量回歸演算法：單變數

機器學習實戰教程（十二）：線性迴歸提高篇之樂高玩具套件二手價預測

一、前言本篇文章講解線性迴歸的縮減方法，嶺迴歸以及逐步線性迴歸，同時熟悉sklearn的嶺迴歸使用方法，對樂高玩具套件的二手價格做出預測。二、嶺迴歸如果資料的特徵比樣本點還多應該怎麼辦？很顯然，此時我們不能再使用上文的方法進行計算了，因為矩陣X不是滿秩矩陣，非

機器學習實戰——線性迴歸和區域性加權線性迴歸（含python中複製的四種情形！）

相關推薦