【機器學習】迴歸案例實踐：資料處理建模調參

阿新 • • 發佈：2019-01-04

# -*- coding: utf-8 -*-
"""迴歸問題案例.ipynb

Automatically generated by Colaboratory.

Original file is located at
    https://colab.research.google.com/drive/1l8xlYKSd8nljVVEEriZyoc0oivqMDWR0
"""

# 匯入必要的包
import numpy as np
import matplotlib.pyplot as plt
from pandas import read_csv
from pandas import 
 set_option
from pandas.plotting import scatter_matrix
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV
from 
 sklearn.linear_model import LinearRegression
from sklearn.linear_model import Lasso
from sklearn.linear_model import ElasticNet
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR
from sklearn.pipeline import Pipeline
from sklearn. 
ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.ensemble import ExtraTreesRegressor
from sklearn.ensemble import AdaBoostRegressor
from sklearn.metrics import mean_squared_error

# 匯入資料
filename = 'https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data'
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PRTATTO', 'B', 'LSTAT', 'MEDV' ]
data = read_csv(filename, names=names, delim_whitespace=True) # 指定檔案的分隔符為空格鍵

data.shape

data.head()

data.describe()

# 理解資料
print(data.dtypes)

#
set_option('precision', 1)
print(data.describe())

# 檢視特徵之間的兩兩關聯關係
set_option('precision', 2)
print(data.corr(method='pearson'))

# 資料視覺化
# 單一特徵圖表
data.hist(sharex=False, sharey=False, xlabelsize=1, ylabelsize=1, layout=(3,5), bins=100)
plt.show()



# 用密度圖展示:更加平滑展示資料特徵
data.plot(kind='density', subplots=True, layout=(4,4), sharex=False, fontsize=1)
plt.show()

# 箱線圖
data.plot(kind='box', subplots=True, layout=(4,4), sharex=False, sharey=False, fontsize=8)
plt.show()

"""### 多重資料圖表

看不同資料特徵之間的相互影響關係。
"""

# 散點矩陣圖
scatter_matrix(data)
plt.show()

# 相關矩陣圖

fig = plt.figure()
ax = fig.add_subplot(111)
cax = ax.matshow(data.corr(), vmin=-1, vmax=1, interpolation='none')
fig.colorbar(cax)
ticks = np.arange(0,14,1)
ax.set_xticks(ticks)
ax.set_yticks(ticks)
ax.set_xticklabels(names)
ax.set_yticklabels(names)
plt.show()

"""資料集中的資料結構較複雜，需要考慮對資料進行轉換，以提高模型的準確度。

- 特徵選擇來減少大部分相關性高的特徵
- 標準化資料來降低不同資料度量單位帶來的影響
- 正態化資料以降低不同的資料分佈結構，提高演算法的準確度
"""

# 分離資料集
array = data.values
X = array[:, 0:13]
y = array[:, 13]
test_size = 0.2 # 20%測試集
seed = 7
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size, random_state=seed)

X_train.shape

X_test.shape

y_train.shape, y_test.shape

"""### 評估演算法

從直觀上看，只能得出由於部分資料的線性分佈，線性迴歸演算法和彈性網路迴歸演算法對解決問題可能有效。且由於資料的離散化，用決策樹演算法或者SVM演算法可能能生成高準確度的模型。

**但是我們仍然不清楚到底哪個演算法能生成準確度最高的模型。**需要設計評估框架來幫助我們選擇。這裡用10折交叉驗證來分離資料，用均方誤差來比較演算法準確度。其中，均方誤差越趨近於0，演算法的準確度就越高。
"""

num_folds = 10
seed = 7
scoring = 'neg_mean_squared_error'

# 先不對原始資料進行任何處理，得出模型效能評價的基準
models = {}
models['LR'] = LinearRegression()
models['Lasso'] = Lasso()
models['EN'] = ElasticNet()
models['KNN'] = KNeighborsRegressor()
models['CART'] = DecisionTreeRegressor()
models['SVM'] = SVR()

# 直接評估演算法，得出一個baseline
results = []
for key in models:
  kfold = KFold(n_splits=num_folds, random_state=seed)
  cv_result = cross_val_score(models[key], X_train, y_train, cv=kfold, scoring=scoring)
  results.append(cv_result)
  print("%s: %f (%f)" % (key, cv_result.mean(), cv_result.std()))

# 評估圖——箱線圖
fig = plt.figure()
fig.suptitle('演算法比較')
ax = fig.add_subplot(111)
plt.boxplot(results)
ax.set_xticklabels(models.keys())
plt.show()

"""### 分析

線性演算法的分佈比較類似，K近鄰演算法結果分佈比較緊湊。如何從箱線圖上看出資料分佈的優劣呢？

### 正態化資料

將資料變成中值為0，方差為1的資料。用`Pipeline`來正態化資料和對模型進行評估，可以防止資料洩露。
"""

# 評估演算法
pipelines = {}
pipelines['ScalerLR'] = Pipeline([('Scaler', StandardScaler()), ('LR', LinearRegression())])
pipelines['ScalerLASSO'] = Pipeline([('Scaler', StandardScaler()), ('Lasso', Lasso())])
pipelines['ScalerEN'] = Pipeline([('Scaler', StandardScaler()), ('EN', ElasticNet())])

pipelines['ScalerKNN'] = Pipeline([('Scaler', StandardScaler()), ('KNN', KNeighborsRegressor())])
pipelines['ScalerCART'] = Pipeline([('Scaler', StandardScaler()), ('CART', DecisionTreeRegressor())])
pipelines['ScalerSVM'] = Pipeline([('Scaler', StandardScaler()), ('SVM', SVR())])

results = []
for key in pipelines:
  kfold = KFold(n_splits=num_folds, random_state=seed)
  cv_result = cross_val_score(pipelines[key], X_train, y_train, cv=kfold, scoring=scoring)
  results.append(cv_result)
  print("%s: %f (%f)" % (key, cv_result.mean(), cv_result.std()))

"""### 分析

正則化以後，KNN演算法的MSE最優。
"""

# 評估演算法：箱線圖
fig = plt.figure()
fig.suptitle('演算法評估')
ax = fig.add_subplot(111)
plt.boxplot(results)
ax.set_xticklabels(models.keys())
plt.show()

type(results)

results[0]

"""### 開始調參

通過上面的分析我們看到KNN演算法具有最好的結果，能不能更好呢？這就進入到調參的過程了，即前面學過的網格搜尋和隨機搜尋等方法。
"""

# 網格搜尋
scaler = StandardScaler().fit(X_train)
rescaledX = scaler.transform(X_train)

# 遍歷引數
param_grid = {'n_neighbors': [1,3,5,7,9,11,13,15,17,19,21]}
model = KNeighborsRegressor()
kfold = KFold(n_splits=num_folds, random_state=seed)
grid = GridSearchCV(estimator=model, param_grid=param_grid, scoring=scoring, cv=kfold)
grid_result = grid.fit(X=rescaledX, y=y_train)

print('最優： %s 使用%s' % (grid_result.best_score_, grid_result.best_params_))

cv_results = zip(grid_result.cv_results_['mean_test_score'], grid_result.cv_results_['std_test_score'], grid_result.cv_results_['params'])

for mean, std, param in cv_results:
  print('%f (%f) with %r' % (mean, std, param))

"""### 整合演算法

除了使用調參方法以外，還可以用整合演算法提升準確率。現在對線性迴歸，K近鄰以及迴歸樹進行整合看看效果。
"""

ensembles = {}
ensembles['ScaledAB'] = Pipeline([('Scaler', StandardScaler()), ('AB', AdaBoostRegressor())])
ensembles['ScaledAB-KNN'] = Pipeline([('Scaler', StandardScaler()), ('ABKNN', AdaBoostRegressor(base_estimator=KNeighborsRegressor(n_neighbors=3)))])
ensembles['ScaledAB-LR'] = Pipeline([('Scaler', StandardScaler()), ('ABLR', AdaBoostRegressor(LinearRegression()))])
ensembles['ScaledRFR'] = Pipeline([('Scaler', StandardScaler()), ('RFR', RandomForestRegressor())])
ensembles['ScaledETR'] = Pipeline([('Scaler', StandardScaler()), ('ETR', ExtraTreesRegressor())])
ensembles['ScaledGBR'] = Pipeline([('Scaler', StandardScaler()), ('GBR', GradientBoostingRegressor())])

results = []
for key in ensembles:
  kfold = KFold(n_splits=num_folds, random_state=seed)
  cv_result = cross_val_score(ensembles[key], X_train, y_train, cv=kfold, scoring=scoring)
  results.append(cv_result)
  print('%s: %f (%f)' % (key, cv_result.mean(), cv_result.std()))

# 評估圖——箱線圖
fig = plt.figure()
fig.suptitle('演算法比較')
ax = fig.add_subplot(111)
plt.boxplot(results)
ax.set_xticklabels(ensembles.keys())
plt.show()

"""### 整合演算法調參

整合演算法有一個引數`n_estimators`， 這個可以調整，看看是否可以得到有提升的結果。
"""

# GBM演算法調參——網格搜尋
scaler = StandardScaler().fit(X_train)
rescaledX = scaler.transform(X_train)

# 遍歷引數
param_grid = {'n_estimators': [10,50,100,200,300,400,500,600,700, 800,900]}
model = GradientBoostingRegressor()
kfold = KFold(n_splits=num_folds, random_state=seed)
grid = GridSearchCV(estimator=model, param_grid=param_grid, scoring=scoring, cv=kfold)
grid_result = grid.fit(X=rescaledX, y=y_train)
print('最優： %s 使用%s' % (grid_result.best_score_, grid_result.best_params_))

# ET演算法調參——網格搜尋
scaler = StandardScaler().fit(X_train)
rescaledX = scaler.transform(X_train)

# 遍歷引數
param_grid = {'n_estimators': [5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100]}
model = ExtraTreesRegressor()
kfold = KFold(n_splits=num_folds, random_state=seed)
grid = GridSearchCV(estimator=model, param_grid=param_grid, scoring=scoring, cv=kfold)
grid_result = grid.fit(X=rescaledX, y=y_train)
print('最優： %s 使用%s' % (grid_result.best_score_, grid_result.best_params_))

"""### 顯示最後結果最好的是ET模型。"""

# 訓練模型
scaler = StandardScaler().fit(X_train)
rescaledX = scaler.transform(X_train)
gbr = ExtraTreesRegressor(n_estimators=30)
gbr.fit(X=rescaledX, y=y_train)

# 評估演算法模型
rescaledX_test = scaler.transform(X_test)
predictions = gbr.predict(rescaledX_test)

type(rescaledX_test)

rescaledX_test

print(mean_squared_error(y_test, predictions)) # 最後求出均方誤差，結果還不錯
# 輸出
# 14.653818518518516

END.

【機器學習】迴歸案例實踐：資料處理建模調參

# -*- coding: utf-8 -*- """迴歸問題案例.ipynb Automatically generated by Colaboratory. Original file is located at https://colab.research.google

【機器學習】（5）：貝葉斯決策定理

其中，P(C|x)表示觀測到資料x時事件C發生的條件概率，我們稱為後驗概率（posterior probability）；P(C)=P(C=1)是事件C=1發生時的概率，稱為先驗概率（prior probabilty），因為這是在觀察到資料x之前就已經得到的關於C的知識；P(x|C)稱為類似然，與

【機器學習】聚類演算法：層次聚類

本文是“漫談 Clustering 系列”中的第 8 篇，參見本系列的其他文章。系列不小心又拖了好久，其實正兒八經的 blog 也好久沒有寫了，因為比較忙嘛，不過覺得 Hierarchical Clustering 這個話題我能說的東西應該不多，所以還是先寫了吧（我準

【機器學習】關於t-sne：降維、視覺化

關於t-sne：降維、視覺化機器學習中，我們的使用的資料基本都是高維的，所以我們很難直接從資料中觀察分佈和特徵。因此出現了很多資料降維的手段幫助我們提取特徵和視覺化資料。這就是流行學習方法(Manifold Learning):假設資料是均勻取樣於一個高維歐

【機器學習】聚類演算法：層次聚類、K-means聚類

所謂聚類，就是將相似的事物聚集在一起，而將不相似的事物劃分到不同的類別的過程，是資料分析之中十分重要的一種手段。比如古典生物學之中，人們通過物種的形貌特徵將其分門別類，可以說就是一種樸素的人工聚類。如此，我們就可以將世界上紛繁複雜的資訊，簡化為少數方便人們理解的類別，可以說是人類認知這個

機器學習-Logistic迴歸python實踐【3】（10.26更新）

寫在最前面：Logistic迴歸通過Sigmoid函式接受輸入然後進行預測首先，介紹一下什麼是Sigmoid函式。大家一定聽過海維賽德階躍函式（Heaviside step function），什麼？沒聽過，好吧，換個名字，單位階躍函式，這個認識吧! 這個函式的問題在於該函式

機器學習-嶺迴歸python實踐【2】

寫在最前面：當資料的特徵大於樣本點，線性迴歸就不能用了，因為在計算[(X^T)*X]的逆時候，n>m，n是特徵，m是樣本點，此時的輸入矩陣不是滿秩矩陣，行列式為0。此時，我們可以使用嶺迴歸（ridge regression) 閱讀本文前，需要各位簡單回憶一下線性代數知識

【機器學習】分類決策樹與迴歸決策樹案例

一、回顧什麼是決策樹，資訊熵構建決策樹的過程 ID3、C4.5和CRAT演算法上面三篇，主要介紹了相關的理論知識，其中構建決策樹的過程可以很好地幫助我們理解決策樹的分裂屬性的選擇。本篇所有原始碼：Github 二

【機器學習】softmax迴歸（二）

通過上篇softmax迴歸已經知道大概了，但是有個缺點，現在來仔細看看 Softmax迴歸模型引數化的特點 Softmax 迴歸有一個不尋常的特點：它有一個“冗餘”的引數集。為了便於闡述這一特點，假設我們從引數向量中減去了向量，這時，每一個

【機器學習】softmax迴歸（一）

在 softmax迴歸中，我們解決的是多分類問題（相對於 logistic 迴歸解決的二分類問題），類標可以取個不同的值（而不是 2 個）。因此，對於訓練集，我們有。（注意此處的類別下標從 1 開始，而不是 0）。例如，在 M

【機器學習】線性迴歸演算法的過擬合比較

回顧過擬合與欠擬合主要介紹了什麼是欠擬合什麼是過擬合對抗過擬合主要介紹了線性迴歸中對抗過擬合的方法，主要包括：L1-norm的LASSO迴歸、L2-norm的Ridge迴歸，此外還有一個沒有提到，L1-norm和L2-norm結合的Elasitc Net(彈性網

【機器學習】基於梯度下降法的自線性迴歸模型

回顧關於梯度下降法以及線性迴歸的介紹，我們知道了：線性迴歸的損失函式為： J (

【機器學習】最小二乘法求解線性迴歸引數

回顧迴歸分析之線性迴歸中我們得到了線性迴歸的損失函式為： J ( θ

【機器學習】Weighted LSSVM原理與Python實現：LSSVM的稀疏化改進

【機器學習】Weighted LSSVM原理與Python實現：LSSVM的稀疏化改進一、LSSVM 1、LSSVM用於迴歸 2、LSSVM模型的缺點二、WLSSVM的數學原理三、WLSSVM的python實現參

【機器學習】LR（線性迴歸）—— python3 實現方案

import numpy as np class LR: def calcost(self, X, y, theta, lamb=1): ''' 平方誤差代價函式，使用L2正則化 :param X: 特徵集 m*n，m

【機器學習】決策樹（基於ID3,C4.5,CART分類迴歸樹演算法）—— python3 實現方案

內含3種演算法的核心部分. 沒有找到很好的測試資料. 但就理清演算法思路來說問題不大剪枝演算法目前只實現了CART迴歸樹的後剪枝. import numpy as np from collections import Counter from sklearn imp

【機器學習實戰—第4章：基於概率論的分類方法：樸素貝葉斯】程式碼報錯（python3）

1、報錯：UnicodeDecodeError: ‘gbk’ codec can’t decode byte 0xae in position 199: illegal multibyte sequence 原因：這是檔案編碼的問題，檔案中有非法的多位元組字元。解決辦法：開啟Ch04\

王小草【機器學習】筆記--主題模型LDA實踐與應用

標籤（空格分隔）：王小草機器學習筆記筆記整理時間：2016年12月30日筆記整理者：王小草 1. LDA的實現工具在主題模型LDA的理論篇，長篇大幅的公式與推導也許實在煩心，也不願意自己去寫程式碼實現一遍的話，不妨用一用一些已經開源和

【機器學習】正則化的線性迴歸 —— 嶺迴歸與Lasso迴歸

注：正則化是用來防止過擬合的方法。在最開始學習機器學習的課程時，只是覺得這個方法就像某種魔法一樣非常神奇的改變了模型的引數。但是一直也無法對其基本原理有一個透徹、直觀的理解。直到最近再次接觸到這個概念，經過一番苦思冥想後終於有了我自己的理解。 0. 正則化（

【機器學習】動手寫一個全連線神經網路（三）：分類

我們來用python寫一個沒有正則化的分類神經網路。傳統的分類方法有聚類，LR邏輯迴歸，傳統SVM，LSSVM等。其中LR和svm都是二分類器，可以將多個LR或者svm組合起來，做成多分類器。多分類神經網路使用softmax+cross entropy組

【機器學習】迴歸案例實踐：資料處理建模調參

相關推薦