100天搞定機器學習|Day3多元線性迴歸

前情回顧第二天100天搞定機器學習|Day2簡單線性迴歸分析，我們學習了簡單線性迴歸分析，這個模型非常簡單，很容易理解。實現方式是sklearn中的LinearRegression，我們也學習了LinearRegression的四個引數，fit_intercept、normalize、copy_X、n_jobs。然後介紹了LinearRegression的幾個用法，fit(X,y)、predict(X)、score(X,y)。最後學習了matplotlib.pyplot將訓練集結果和測試集結果視覺化。

多元線性迴歸分析與簡單線性迴歸很相似，但是要複雜一些了（影響因素由一個變成多個）。它有幾個假設前提需要注意，

①線性，自變數和因變數之間應該是線性的

②同方差，誤差項方差恆定

③殘差負荷正態分佈

④無多重共線性

出現了一些新的名詞，殘差（殘差是指實際觀察值與迴歸估計值的差，【計量經濟學名詞】2絕對殘差）、多重共線性（解釋變數之間由於存在精確相關關係或高度相關關係而使模型估計失真或難以估計準確）。

對R感興趣的同學可以看一下我之前分享的幾篇文章

[R多元線性迴歸容易忽視的幾個問題（1）多重共線性][2]

[R多元線性迴歸容易忽視的幾個問題（2）多重共線性的克服][3]

[R多元線性迴歸容易忽視的幾個問題（3）異方差性][4]

[R多元線性迴歸容易忽視的幾個問題（4）異方差性的克服][5]

多元線性迴歸中還有虛擬變數和虛擬變數陷阱的概念

虛擬變數：分類資料，離散，數值有限且無序，比如性別可以分為男和女，迴歸模型中可以用虛擬變量表示，1表示男，0表示女。

虛擬變數陷阱：兩個或多個變數高度相關，即一個變數一個變數可以由另一個預測得出。直觀地說，有一個重複的類別：如果我們放棄了男性類別，則它在女性類別中被定義為零（女性值為零表示男性，反之亦然）。虛擬變數陷阱的解決方案是刪除一個分類變數 —— 如果有多個類別，則在模型中使用m-1。遺漏的值可以被認為是參考值。

需要注意的是：變數並非越多越好，過多變數尤其是對輸出沒有影響的變數，可能導致模型預測精確度降低，所以要選擇合適的變數，主要方法有三種，①向前選擇（逐次加使RSS最小的自變數）②向後選擇（逐次扔掉p值最大的變數）③雙向選擇

模型部分就是這樣，下面開始python實現。

在開始操作之前，我們還是先觀察一下資料，一共50組資料，有一些缺失值，也有虛擬變數（state：New York 、California、Florida）。

匯入庫

import pandas as pd
import numpy as np

匯入資料集

dataset = pd.read_csv('50_Startups.csv')
X = dataset.iloc[ : , :-1].values
Y = dataset.iloc[ : ,  4 ].values

將類別資料數字化

from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder = LabelEncoder()
X[: , 3] = labelencoder.fit_transform(X[ : , 3])
onehotencoder = OneHotEncoder(categorical_features = [3])
X = onehotencoder.fit_transform(X).toarray()

OneHotEncoderone-hot編碼是一種對離散特徵值的編碼方式，在LR模型中常用到，用於給線性模型增加非線效能力。躲避虛擬變數陷阱

X = X[: , 1:]

拆分資料集為訓練集和測試集

from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.2, random_state = 0)

第2步：在訓練集上訓練多元線性迴歸模型

from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, Y_train)

Step 3: 在測試集上預測結果

y_pred = regressor.predict(X_test)

個人感覺作為入門已經足夠。但是多元線性迴歸分析是建立在上面說的四個假設前提上的（①線性，自變數和因變數之間應該是線性的②同方差，誤差項方差恆定③殘差負荷正態分佈④無多重共線性），所以初步得到一個線性迴歸模型，並不一定可以直接拿來使用，還需要進行驗證和診斷。

https://github.com/MLEveryday/100-Days-Of-ML-Code?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io

首發於： >首發於微信公眾號：機器學習與統計學 歡迎掃碼關注，

</div>
<div class=

100天搞定機器學習|Day3多元線性迴歸

100天搞定機器學習|Day3多元線性迴歸

100天搞定機器學習|Day4-6 邏輯迴歸

100天搞定機器學習|Day15 樸素貝葉斯

100天搞定機器學習|Day17-18 神奇的邏輯迴歸

100天搞定機器學習|Day23-25 決策樹及Python實現

100天搞定機器學習|Day 30-32 微積分的本質

100天搞定機器學習|Day33-34 隨機森林

100天搞定機器學習|Day35 深度學習之神經網路的結構

100天搞定機器學習|Day36用有趣的方式解釋梯度下降演算法

100天搞定機器學習|day37 無公式理解反向傳播演算法之精髓

100天搞定機器學習|day38 反向傳播演算法推導

100天搞定機器學習|day39 Tensorflow Keras手寫數字識別

100天搞定機器學習|day40-42 Tensorflow Keras識別貓狗

100天搞定機器學習|day43 幾張GIF理解K-均值聚類原理

100天搞定機器學習|Day56 隨機森林工作原理及調參實戰（信用卡欺詐預測）

吳恩達-機器學習(2)-多元線性迴歸、正規方程

大資料（四十一）機器學習【多元線性迴歸例項】

機器學習sklearn多元線性迴歸

100天專案 Day3 多元線性迴歸

從0到1 | 0基礎/轉行如何用3個月搞定機器學習

100天搞定機器學習|Day3多元線性迴歸

相關推薦