機器學習——線性回歸

阿新 • • 發佈：2018-10-06

import 格式 reg 評分 wid sco shape process otl

導入類庫

 1 from sklearn.externals import joblib
 2 from sklearn.model_selection import train_test_split
 3 from sklearn.datasets import load_boston
 4 from sklearn.preprocessing import StandardScaler
 5 from sklearn.linear_model import LinearRegression
 6 from sklearn.metrics import r2_score
 7 from sklearn import 
 neighbors
 8 import pandas as pd
 9 import numpy as np
10 import seaborn as sns
11 import matplotlib.pyplot as plt
12 import sklearn.preprocessing as sp
13 import sklearn.pipeline as pl

小知識

1 # np.column_stack：取行排列數組
2 # np.vstack：取列排列數組
3 # a = np.array([1,2])
4 # b = np.array([3,4])
5 # print(np.vstack((a,b))) 

6 # array([[1, 2],[3, 4]])
7 # print(np.column_stack((a,b)))
8 # array([[1, 3],[2, 4]])

`獲取波士頓房價數據`

1 # 獲取波士頓房價數據
2 lb = load_boston()
3 # 將房價數據轉換為每行包括影響因素和房價的DataFrame
4 df = pd.DataFrame(np.column_stack((lb.data, lb.target)),
5                   columns=[‘CRIM‘, ‘ZN‘, ‘INDUS‘, ‘CHAS‘, ‘NOX‘, ‘RM‘ 
, ‘AGE‘, ‘DIS‘, ‘RAD‘,
6                            ‘TAX‘, ‘PTRATIO‘, ‘B‘, ‘LSTAT‘, ‘MEDV‘])
7 cols = [‘LSTAT‘, ‘INDUS‘, ‘NOX‘, ‘RM‘, ‘MEDV‘]
8 print(df)
9 print(df[cols])

多變量圖

 1 def pairplot_analyse():
 2     ‘‘‘
 3     style:whitegrid-白色網格圖   darkgrid-黑色網格圖  ticks-散點圖   dark white
 4     context：notebook    paper   talk    poster      # size: paper < talk < poster < notebook
 5     palette：調色板
 6     kind：使用回歸
 7     diag_kind：改變對角圖
 8     markers：改變點形狀
 9     :return:
10     ‘‘‘
11     sns.set(style=‘dark‘, context=‘notebook‘)
12     sns.pairplot(df[cols], height=2, palette=‘husl‘, kind=‘reg‘, diag_kind=‘kde‘, markers=‘+‘)
13     plt.tight_layout()
14     plt.show()

熱點圖

 1 def heatmap_analyse():
 2     ‘‘‘
 3     cbar：柱子
 4     annot：標記
 5     square：方形
 6     fmt：數據格式
 7     yticklabels：y軸標簽
 8     xticklabels：x軸標簽
 9     :return:
10     ‘‘‘
11     # 計算皮爾遜相關系數
12     corr = np.corrcoef(df[cols].values.T)
13     # 生成熱點圖
14     hm = sns.heatmap(corr, cbar=True, annot=True, square=True, fmt=‘.2f‘, annot_kws={‘size‘: 15}, yticklabels=cols,
15                      xticklabels=cols)
16     plt.show()

回歸方法是一種對數值型連續隨機變量進行預測和建模的監督學習算法。使用案例一般包括房價預測、股票走勢或測試成績等連續變化的案例；

回歸任務的特點是標註的數據集具有數值型的目標變量。也就是說，每一個觀察樣本都有一個數值型的標註真值以監督算法。

線性回歸

 1 def bostn_linear():
 2     ‘‘‘
 3     線性回歸直接預測房子價格
 4     :return:
 5     ‘‘‘
 6 
 7     # 獲取數據
 8     lb = load_boston()
 9 
10     # 分割數據集為訓練集和測試集 test_size:分割比例
11     x_train, x_test, y_train, y_test = train_test_split(lb.data, lb.target, test_size=0.25)
12 
13     # print(y_train, y_test)
14     # 特征值和目標值是都必須進行標準化處理，實例化兩個標準化API
15     std_x = StandardScaler()
16 
17     x_train = std_x.fit_transform(x_train)
18     # 用轉化訓練集的標準歸一化測試集：上是fit_transform,下是transform
19     x_test = std_x.transform(x_test)
20 
21     # 目標值
22     std_y = StandardScaler()
23     # -1表示自動識別行數
24     y_train = std_y.fit_transform(y_train.reshape(-1, 1))
25     y_test = std_y.transform(y_test.reshape(-1, 1))
26 
27     # estimator
28     # 正規方程求解方式預測結果
29     # 創建線性回歸對象
30     lr = LinearRegression()
31     # 訓練數據
32     lr.fit(x_train, y_train)
33     print(lr.coef_)  # 權值
34 
35     # 保存訓練好的模型
36     joblib.dump(lr, ‘./test.pkl‘)
37 
38     # 預測測試集的房子價格
39     # y_lr_predict = std_y.inverse_transform(lr.predict(x_test))
40     orgin = std_y.inverse_transform(y_test[3])  # 轉換成原格式
41     print(‘orgin value is:::::‘, orgin)
42     y_lr_predict = std_y.inverse_transform(lr.predict(np.array([x_test[3]])))  # predict參數是二維數組
43 
44     print(‘正規方程測試集裏面每個房子的預測價格：‘, y_lr_predict)
45     # print(‘正規方程R2評分：‘, r2_score(std_y.inverse_transform(y_test), y_lr_predict))
46     # print(‘正規方程R2評分：‘, r2_score(orgin, y_lr_predict))     #r2_score，參數1：原測試數據，參數2：預測數據

`原圖像與預測圖像對比`

 1 def log_fit():
 2     x = np.linspace(0, 20, 50)
 3     y = x ** 3 + np.random.random(50, ) * 100
 4     # pf = sp.PolynomialFeatures(3)
 5 
 6     lr = LinearRegression()
 7     # modle = pl.make_pipeline(pf,lr)
 8     lr.fit(x.reshape(-1, 1), y)
 9     x_predict = lr.predict(x.reshape(-1, 1))
10     print(x_predict)
11 
12     plt.scatter(x, y)  # 曲線：原曲線
13     plt.scatter(x, x_predict, c=‘r‘)  # 直線：預測曲線
14     plt.show()

房價預測實例

 1 def test_fj():
 2     X = np.array([[500, 3, 0.3], [1000, 1, 0.6], [750, 2, 0.3], [600, 5, 0.2], [1200, 1, 0.6]], dtype=float)
 3     Y = np.array([10000, 9000, 8000, 12000, 8500], dtype=float)
 4 
 5     x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.25)
 6     print(x_train, x_test)
 7     print(‘===================================================‘)
 8     print(y_train, y_test)
 9 
10     std_x = StandardScaler()
11     x_train = std_x.fit_transform(x_train)
12     x_test = std_x.transform(x_test)
13 
14     std_y = StandardScaler()
15     y_train = std_y.fit_transform(y_train.reshape(-1, 1))
16     y_test = std_y.transform(y_test.reshape(-1, 1))
17 
18     lr = LinearRegression()
19     lr.fit(x_train, y_train)
20     print(lr.coef_)
21 
22     # orign = std_y.inverse_transform(y_test[1])
23     # print(‘orign is value:::::‘,orign)
24     # y_lr_predict = std_y.inverse_transform(lr.predict(np.array([x_test[1]])))
25     y_lr_predict = std_y.inverse_transform(lr.predict(x_test))
26 
27     print(‘房價：‘, y_lr_predict)
28     print(‘評分：‘, r2_score(std_y.inverse_transform(y_test), y_lr_predict))
29 
30 
31 def price_predict():
32     # 數據有三個特征：距離地鐵距離、附近小學、小區綠化率
33     X = np.array([[500, 3, 0.3], [1000, 1, 0.6], [750, 2, 0.3], [600, 5, 0.2], [1200, 1, 0.6]], dtype=float)
34     # 具有三個特征的房屋對應的房價
35     Y = np.array([10000, 9000, 8000, 12000, 8500], dtype=float)
36 
37     std_x = StandardScaler()
38     x_train = std_x.fit_transform(X)
39 
40     std_y = StandardScaler()
41     y_train = std_y.fit_transform(Y.reshape(-1, 1))
42     # 構建線性預測模型
43     lr = LinearRegression()
44     # 模型在歷史數據上進行訓練，Y.reshape(-1,1)將Y變為二維數組，fit函數參數要求是二維數組
45     lr.fit(x_train, y_train.reshape(-1, 1))
46     # 使用訓練模型預測新房屋價格
47     distance = input(‘請輸入新房屋距離地鐵的距離：‘)
48     school = input(‘請輸入附近小學數量：‘)
49     green = input(‘請輸入小區綠化率：‘)
50     x_predict = std_x.transform(np.array([[distance, school, green]], dtype=float))
51     print(std_y.inverse_transform(lr.predict(x_predict)))
52     # print(lr.predict(np.array([[distance, school, green]], dtype=float)))
53     # print(lr.predict(np.array([[1300, 3, 0.4]])))
54 
55 
56 if __name__ == ‘__main__‘:
57     pairplot_analyse()
58     # heatmap_analyse()
59     # bostn_linear()
60     # log_fit()
61     # test_fj()
62     # price_predict()
63     pass

線性回歸的幾個特點：
1. 建模速度快，不需很復雜的計算，數據量大的情況下依然運行速度很快；
2. 可以根據系數給出每個變量的理解和解釋；
3. 對異常值敏感。

機器學習——線性回歸

機器學習—線性回歸

com str mode imp repr 線性模型 images mage 訓練集一、普通的線性模型 import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn

機器學習--線性回歸與梯度算法

方法 nbsp methods 大循環 href 一次 sha 4.3 最優線性回歸(Linear Regression)，亦稱為直線回歸，即用直線表示的回歸，與曲線回歸相對。若因變量Y對自變量X1、X2…、Xm的回歸方程是線性方程，即μy＝β0 +β1X1 +β2X2

機器學習——線性回歸

import 格式 reg 評分 wid sco shape process otl 導入類庫 1 from sklearn.externals import joblib 2 from sklearn.model_selection import train_tes

機器學習---線性回歸（Machine Learning Linear Regression）

包括 rest 梯度下降法向量鞍點麻煩貝葉斯 div rem 線性回歸是機器學習中最基礎的模型，掌握了線性回歸模型，有利於以後更容易地理解其它復雜的模型。線性回歸看似簡單，但是其中包含了線性代數，微積分，概率等諸多方面的知識。讓我們先從最簡單的形式開始。

機器學習-線性回歸

效果 img mas orm feature 現象 state 編寫 tps 一、概述１．簡單線性回歸一種基於自變量（x）來預測因變量（Ｙ）的方法．假設這兩個變量是線性相關的，則尋找出根據特征或者自變量的線性函數來精準預測響應值．線性回歸意味著可以將輸入項分別乘以一

機器學習六--回歸--簡單線性回歸Simple Linear Regression

simple 4.2 port ear 類別 eric ted error bsp 一、回歸和分類　　回歸（regression）y變量為連續數值型(continuous numerical variable)，如房價，降雨量。　　分類（classification）y

機器學習七--回歸--多元線性回歸Multiple Linear Regression

clas http span str 圖片 style port import num 一、不包含分類型變量 from numpy import genfromtxtimport numpy as npfrom sklearn import datasets,linear

Spark 機器學習------邏輯回歸

tco feature iter oop cit ini ava bject nature package Spark_MLlib import javassist.bytecode.SignatureAttribute.ArrayType import org.apa

kera 學習-線性回歸

測試 n) desc 隨機 eight print epo 輸出結果 show 園子裏頭看到了一些最基礎的 keras 入門指導，用一層網絡，可以訓練一個簡單的線性回歸模型。自己學習了一下，按照教程走下來，結果不盡如人意，下面是具體的過程。第一步：生成隨機數據，

[機器學習]--邏輯回歸總結

學習但是 n-2 span 分類算法 str 它的 .org 就是邏輯回歸是一個分類算法，它可以處理二元分類以及多元分類。雖然它名字裏面有“回歸”兩個字，卻不是一個回歸算法。那為什麽有“回歸”這個誤導性的詞呢？個人認為，雖

機器學習/邏輯回歸（logistic regression）/--附python代碼

一個 should 示意圖 algrithm cto python ber -- 根據個人分類：機器學習本文為吳恩達《機器學習》課程的讀書筆記，並用python實現。前一篇講了線性回歸，這一篇講邏輯回歸，有了上一篇的基礎，這一篇的內容會顯得比較簡單。邏輯回歸（l

機器學習--Lasso回歸和嶺回歸

最小二乘改變篩選 bsp 相交二維 block 大於主成分分析之前我們介紹了多元線性回歸的原理, 又通過一個案例對多元線性回歸模型進一步了解, 其中談到自變量之間存在高度相關, 容易產生多重共線性問題, 對於多重共線性問題的解決方法有: 刪除自變量, 改變數據形式

機器學習--邏輯回歸模型原理

最小二乘 pla com auto 上進 cnblogs sso 正則化矩陣在前面所介紹的線性回歸, 嶺回歸和Lasso回歸這三種回歸模型中, 其輸出變量均為連續型, 比如常見的線性回歸模型為: 其寫成矩陣形式為: 現在這裏的輸出為連續型變量, 但是實際中會

吳裕雄 python 機器學習——KNN回歸KNeighborsRegressor模型

sklearn sco endpoint matplot data create urn sting 學習 import numpy as np import matplotlib.pyplot as plt from sklearn import neighb

從零單排入門機器學習：線性回歸（linear regression）實踐篇

class rom enter instr function ont 線性 gin 向量線性回歸（linear regression）實踐篇之前一段時間在coursera看了Andrew ng的機器學習的課程，感覺還不錯，算是入門了。這次打算以該課程的作業

機器學習入門：線性回歸及梯度下降

想要 oom 考試 erl text local oca 希望觀察機器學習入門：線性回歸及梯度下降本文會講到： (1)線性回歸的定義 (2)單變量線性回歸 (3)cost function：評價線性回歸是否擬合訓練集的方法 (4)梯度下

機器學習(3)——多變量線性回歸

function 包括 ade each pop text times value 應該【一、多變量線性回歸模型】多變量線性回歸是指輸入為多維特征的情況。比如：在上圖中可看出房子的價格price由四個變量(size、number of be

機器學習經典算法具體解釋及Python實現--線性回歸（Linear Regression）算法

ica single 方便最好的而且 == show des fun （一）認識回歸回歸是統計學中最有力的工具之中的一個。機器學習監督學習算法分為分類算法和回歸算法兩種，事實上就是依據類別標簽分布類型為離散型、連續性而定義的。顧名思義。分類算法用於離散型分布

第四篇[機器學習] 機器學習，線性回歸的優化

images .html span mod 來看 itl sso linear 我們當我們的數據存在多重共線性時，即其中的一個自變量可以用其他一個或幾個自變量的線性表達式進行表示，你會發現，擬合之後的方差會特別大一般說來當解釋變量的容忍度(TOLERANCE)小於0.1

關於機器學習中一般線性回歸的補充

機器學習線性回歸嶺回歸在之前的文章中，筆者給出了關於最小二乘法相關公式的整體推導過程，最小二乘法本身除了可以利用數據進行相關參數的擬合（主要是系數和偏置），而且作為分類問題中最為簡單的模型也有著重要作用，我們也可以將其稱作最為簡單的線性回歸模型（以後需要涉及到支持向量機的問題，即Supp

機器學習——線性回歸

導入類庫

小知識

獲取波士頓房價數據

多變量圖

熱點圖

線性回歸

原圖像與預測圖像對比

房價預測實例

相關推薦

`獲取波士頓房價數據`

`原圖像與預測圖像對比`