機器學習--線性迴歸演算法預測房價

阿新 • • 發佈：2018-12-11

裡面非常詳細地介紹了微積分基本運演算法則、線性迴歸演算法、梯度下降演算法及改進。

a. 用線性迴歸方法擬合正弦函式

%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np

# 生成200個[-2pi,2pi]區間內的正弦函式上的點
n_dots =200
X = np.linspace(-2*np.pi,2*np.pi,n_dots)
Y = np.sin(X)+0.2*np.random.rand(n_dots)-0.1
X = X.reshape(-1,1)
Y = Y.reshape(-1,1)

from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import Pipeline

def polynomial_model(degree=1):
    # degree表示多項式的階數
    polynomial_features = PolynomialFeatures(degree=degree,include_bias=False)
    # normalize=True將特徵歸一化至[0,1]
    linear_regression = LinearRegression(normalize=True)
    pipeline = Pipeline([("polynomial_features",polynomial_features),("linear_regression",linear_regression)])
    return pipeline

# 分別用2、3、5、10階多項式來擬合數據集
# 用mean_squared_error計算均方根誤差，均方根誤差越小，說明模型擬合效果越好
from sklearn.metrics import mean_squared_error

degrees = [2,3,5,10]
results=[]
for d in degrees:
    model = polynomial_model(degree=d)
    model.fit(X,Y)
    train_score = model.score(X,Y)
    mse = mean_squared_error(Y,model.predict(X))
    results.append({"model":model,"degree":d,"score":train_score,"mse":mse})
for r in results:
    print("degree: {}; train_score: {}; mean squared error: {};".format(r["degree"],r["score"],r["mse"]))

degree: 2; train_score: 0.150098385123013; mean squared error: 0.4252061468860883;
degree: 3; train_score: 0.27885313996963546; mean squared error: 0.3607900871407268;
degree: 5; train_score: 0.8966304597537259; mean squared error: 0.05171582586046318;
degree: 10; train_score: 0.9931397128987751; mean squared error: 0.0034322046149616835;

可以看出，多項式階數越高，擬合評分越高，均方誤差越小，擬合效果越好。

把不同擬合結果在二維座標上畫出：

from matplotlib.figure import SubplotParams

plt.figure(figsize=(6,3),dpi=200,subplotpars=SubplotParams(hspace=0.5))
for i,r in enumerate(results):
    fig=plt.subplot(2,2,i+1)
    plt.xlim(-8,8)
    plt.title("LinearRegression degree={}".format(r["degree"]),fontsize=6)
    plt.xticks(np.linspace(-8,8,9),fontsize=5)
    plt.yticks(fontsize=5)
    plt.scatter(X,Y,s=1.5,c='b',alpha=0.5)
    plt.plot(X,r["model"].predict(X),'r-',linewidth=1)

b. 預測房價

用sklearn.datasets自帶資料集預測波士頓房價：

from sklearn.datasets import load_boston
boston=load_boston()
X=boston.data
y=boston.target

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=3)

import time
from sklearn.linear_model import LinearRegression

model = LinearRegression()
# time.clock()統計某程式執行速度，兩次呼叫時間差為程式執行的CPU時間
start = time.clock()
model.fit(X_train,y_train)

train_score=model.score(X_train,y_train)
test_score=model.score(X_test,y_test)

print('elaspe: {0:.6f}; train score:{1:.6f}; test score:{2:.6f}'.format(time.clock()-start,train_score,test_score))

elaspe: 0.009990; train score:0.723941; test score:0.794958

可以看出，模型擬合效果一般，需要進行模型優化。

模型優化：

首先觀察資料：

X[0]

array([6.320e-03, 1.800e+01, 2.310e+00, 0.000e+00, 5.380e-01, 6.575e+00,
       6.520e+01, 4.090e+00, 1.000e+00, 2.960e+02, 1.530e+01, 3.969e+02,
       4.980e+00])

特徵資料的範圍相差較大，最小的 $10^{-3}$ 級別，最大的 $10^{2}$ 級別，需要對資料進行歸一化處理：

model = LinearRegression(normalize=True)

但是歸一化處理只會加快演算法收斂速度，優化演算法訓練效率，並不能提升演算法準確度。

由於模型欠擬合，可以通過挖掘更多特徵或增加多項式特徵的方法優化，因此，使用多項式特徵：

二階多項式模型：

from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import Pipeline

def polynomial_model(degree=1):
    polynomial_features = PolynomialFeatures(degree=degree,include_bias=False)
    linear_regression = LinearRegression(normalize=True)
    pipeline=Pipeline([('polynomial_features',polynomial_features),('linear_regression',linear_regression)])
    return pipeline

# 二階多項式
model = polynomial_model(degree=2)

start = time.clock()
model.fit(X_train,y_train)
train_score = model.score(X_train,y_train)
test_score = model.score(X_test,y_test)

print('elaspe:{0: .6f}; train score:{1:.6f}; test score:{2: .6f}'.format(time.clock()-start,train_score,test_score))

elaspe: 0.036802; train score:0.930547; test score: 0.860465

可以看出訓練分數和測試分數都有提高，說明模型得到很好的優化。

三階多項式模型：

# 三階多項式
model = polynomial_model(degree=3)

start = time.clock()
model.fit(X_train,y_train)
train_score = model.score(X_train,y_train)
test_score = model.score(X_test,y_test)

print('elaspe:{0: .6f}; train score:{1:.6f}; test score:{2: .6f}'.format(time.clock()-start,train_score,test_score))

elaspe: 0.090905; train score:1.000000; test score:-105.517016

可以看出訓練分數為100%，而測試分數為負值，說明模型過擬合。

學習曲線：

cv = ShuffleSplit(n_splits=10,test_size=0.2,random_state=0)
title="Learning curve (degree={0})"
degrees=[1,2,3]

start=time.clock()
plt.figure(figsize=(18,4),dpi=200)
for i in range(len(degrees)):
    plt.subplot(1,3,i+1)
    plot_learning_curve(polynomial_model(degrees[i]),title.format(degrees[i]),X,y,ylim=(0.01,1.01),cv=cv)
print('elaspe:{0:.6f}'.format(time.clock()-start))

一階多項式欠擬合，因為訓練分數較低；三階多項式過擬合，因為訓練分數為1而測試分數無法看到；

二階多項式擬合效果較好，但訓練分數和測試分數間隙較大，說明訓練樣本數量不夠。

參考：

黃永昌《scikit-learn機器學習》

機器學習--線性迴歸演算法預測房價

裡面非常詳細地介紹了微積分基本運演算法則、線性迴歸演算法、梯度下降演算法及改進。 a. 用線性迴歸方法擬合正弦函式 %matplotlib inline import matplotlib.pyplot as plt import numpy as np # 生成2

通過機器學習的線性迴歸演算法預測股票走勢（用Python實現）

在本人的新書裡，將通過股票案例講述Python知識點，讓大家在學習Python的同時還能掌握相關的股票知識，所謂一舉兩得。這裡給出以線性迴歸演算法預測股票的案例，以此講述通過Python的sklearn庫實現線性迴歸預測的技巧。本文先講以波士頓房價資

機器學習----線性迴歸原理---最下二乘法和梯度下降怎麼來的-----專案預測大學生是否被錄取程式碼案例

這節課說明了最下二乘法是怎麼來的。接下來是面試需要問的誤差，（機器學習是建立在獨立同分布的基礎上，事實上，根本無法證明獨立同分布而且是正態分佈，我們假設的，只要模型可用，就可以）獨立：每個人的

Windons10 python3.6 機器學習線性迴歸 matplotlib出現影象中文亂碼和使用sk_learn輸出ValueError: Expected 2D array, got 1D

Windons10 python3.6 機器學習線性迴歸 matplotlib出現影象中文亂碼和使用sk_learn輸出ValueError: Expected 2D array, got 1D array instead:問題解決話不多說，大家來就是解決問題的，本人也是遇到問題才四處搜尋

機器學習-線性迴歸（LMS Algorithm）

今天正式開始機器學習之路（看的斯坦福大學的視訊課以及講義），由於看的時候濛濛的，因此想要找個平臺儲存一下自己學習的成果，因此寫了此篇文章，作為機器學習的小白，文章可能有諸多不妥之處，不作為學術理論的深入研究範圍。因為我是小白，我是小白，我是小白。由於第一次用簡書寫，所以可能格式不太對，請見諒。

機器學習 --- 線性迴歸與邏輯迴歸

線性迴歸和邏輯迴歸在機器學習上是一種監督式學習。在預測類問題上，我們希望能通過一個對映關係 ,當給定變數，能得到一個較為滿意的預測結果，迴歸方法旨在找到能表示樣本空間分佈的對映關係。一、線性迴歸的基本形式

python資料分析6:雙色球使用線性迴歸演算法預測下期中獎結果

本次將進行下期雙色球號碼的預測，想想有些小激動啊。程式碼中使用了線性迴歸演算法，這個場景使用這個演算法，預測效果一般，各位可以考慮使用其他演算法嘗試結果。發現之前有很多程式碼都是重複的工作，為了讓程式碼看的更優雅，定義了函式，去呼叫，頓時高大上了 #!/usr/bi

機器學習——線性迴歸

1 def test_fj(): 2 X = np.array([[500, 3, 0.3], [1000, 1, 0.6], [750, 2, 0.3], [600, 5, 0.2], [1200, 1, 0.6]], dtype=float) 3 Y = np.array([100

機器學習2-迴歸演算法

文章目錄線性迴歸和梯度下降演算法機器學習的基本問題一元線性迴歸預測函式梯度下降法尋優線性迴歸器模型的轉儲與載入嶺迴歸 Ridge R

機器學習-線性迴歸（LMS Algorithm）

今天正式開始機器學習之路（看的斯坦福大學的視訊課以及講義），由於看的時候濛濛的，因此想要找個平臺儲存一下自己學習的成果，因此寫了此篇文章，作為機器學習的小白，文章可能有諸多不妥之處，不作為學術理論的深入研究範圍。因為我是小白，我是小白，我是小白。由於第一次用簡書寫，所以可

機器學習-線性迴歸

本文參考吳恩達機器學習課程第2章線性迴歸公式: f(x)=θ0+θ1xf(x)=\theta_0 + \theta_1xf(x)=θ0+θ1x 代價公式(誤差均值中的2用來抵消求導得來的2): J(θ0,θ1)=12m∑i=1m(fθ(x)i−yi)2J(

機器學習-Logistic迴歸演算法學習筆記

假設現在有一些資料點，我們用一條直線（或者曲線）對這些點進行擬合，這個擬合過程就稱作迴歸。利用Logistic迴歸進行分類的主要思想是：根據現有資料對分類邊界線建立迴歸公式，以此進行分類，訓練分類器時的做法就是尋找最佳擬合引數。優點：計算代價不高，易於理解和實現。

機器學習--線性迴歸1（一元線性迴歸、多元線性迴歸，誤差性質）

前面幾節都是監督學習方面的演算法，監督學習是指有目標變數或預測目標的機器學習方法，迴歸與分類的不同，就在於其目標變數是連續數值型，而分類的目標變數是標稱型資料，其實前面的Logistic迴歸就是迴歸的一種，他們的處理方法大同小異，在這裡系統的講解一下回歸的來龍去脈，理解影響迴

用線性迴歸模型預測房價

本文使用sklearn 中自帶的波士頓房價資料集來訓練模型，然後利用模型來預測房價。這份收據中共收集了13個特徵。 1.輸入特徵 import matplotlib.pyplot as plt import numpy as np from sklearn.da

機器學習實戰——KNN演算法預測電影型別

預測電影型別現有愛情片和動作片（不是愛情動作片，霧）的打鬥場面和接吻場面的次數統計，然後給出一個電影打鬥場面和接吻場面出現的次數，預測其型別。那麼如何預測呢？當然用KNN了。 &

機器學習|線性迴歸三大評價指標實現『MAE, MSE, MAPE』（Python語言描述）

對於迴歸預測結果，通常會有平均絕對誤差、平均絕對百分比誤差、均方誤差等多個指標進行評價。這裡，我們先介紹最常用的3個：平均絕對誤差（MAE）就是絕對誤差的平均值，它的計算公式如下： M

機器學習：迴歸演算法

監督學習指的是有目標變數或預測目標的機器學習方法。迴歸與分類的不同，就在於其目標變數是連續數值型。線性迴歸原理迴歸的目的是預測數值型的目標值。最直接的辦法是依據輸入寫出一個目標值

【Stanford|斯坦福-機器學習:線性迴歸-單特徵梯度下降+動態圖】python3實現

五、完整測試程式碼實現 # coding=utf-8 # 線性迴歸-單特徵梯度下降練習 from numpy import * import matplotlib.pyplot as plt from matplotlib import animation import numpy as np # 【1

機器學習 -- 線性迴歸和邏輯迴歸的區別

　　迴歸演算法是一種通過最小化預測值與實際結果值之間的差距，而得到輸入特徵之間的最佳組合方式的一類演算法。對於連續值預測有線性迴歸等，而對於離散值/類別預測，我們也可以把邏輯迴歸等也視作迴歸演算法的一種。　　線性迴歸與邏輯迴歸是機器學習中比較基礎又很常用的內容。線性迴歸主

機器學習線性迴歸 (matlab實現)

代價函式：下降梯度：假設函式：x代表年齡，y代表身高預測身高與年齡的關係Code:x = load('ex2x.dat'); y = load('ex2y.dat'); [m,n] = size(x); x = [ones(m,1),x];%偏置項 x0 = 1 figur

機器學習--線性迴歸演算法預測房價

a. 用線性迴歸方法擬合正弦函式

b. 預測房價

相關推薦