10.【基礎】波士頓房價預測--DecisionTreeRegressor

阿新 • • 發佈：2019-01-01

本文所有實現程式碼均來自《Python機器學習及實戰》

#-*- coding:utf-8 -*-

#說明：前面的資料讀取、分割、標準化處理還是採用上一講的程式碼，只是模型的訓練換成了迴歸樹模型

#第一步：讀取波士頓房價資料
from sklearn.datasets import load_boston
boston = load_boston()
print boston.DESCR
#從輸出結果來看，該資料共有506條波士頓房價的資料，每條資料包括對指定房屋的13項數值型特徵和目標房價  
#此外，該資料中沒有缺失的屬性/特徵值，更加方便了後續的分析

#第二步：波士頓房價資料分割 

from sklearn.cross_validation import train_test_split
import numpy as np
X_train,X_test,y_train,y_test = train_test_split(boston.data,boston.target,test_size=0.25,random_state=33)
#分析迴歸目標值的差異
print 'The max target value is ',np.max(boston.target)
print 'The min target value is ',np.min(boston.target)
print 'The average target value is ' 
,np.mean(boston.target)

#第三步：訓練資料和測試資料標準化處理
from sklearn.preprocessing import StandardScaler
#分別初始化對特徵值和目標值的標準化器
ss_X = StandardScaler()
ss_y = StandardScaler()
#訓練資料都是數值型，所以要標準化處理
X_train = ss_X.fit_transform(X_train)
X_test = ss_X.transform(X_test)
#目標資料（房價預測值）也是數值型，所以也要標準化處理
#說明一下：fit_transform與transform都要求操作2D資料，而此時的y_train與y_test都是1D的，因此需要呼叫reshape(-1,1)，例如：[1,2,3]變成[[1],[2],[3]] 

y_train = ss_y.fit_transform(y_train.reshape(-1,1))
y_test = ss_y.transform(y_test.reshape(-1,1))

#第四步：使用單一回歸樹模型進行訓練，並且對測試資料進行預測
from sklearn.tree import DecisionTreeRegressor
#1.初始化k近鄰迴歸器，並且調整配置，使得預測方式為平均迴歸：weights = 'uniform'
dtr = DecisionTreeRegressor()
dtr.fit(X_train,y_train)
dtr_y_predict = dtr.predict(X_test)

#第五步：對單一回歸樹模型在測試集下進行效能評估
#使用R-squared、MSE、MAE指標評估
from sklearn.metrics import r2_score,mean_absolute_error,mean_squared_error
print 'R-squared value of DecisionTreeRegressor is',dtr.score(X_test,y_test)
print 'the MSE of DecisionTreeRegressor is',mean_squared_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(dtr_y_predict))
print 'the MAE of DecisionTreeRegressor is',mean_absolute_error(ss_y.inverse_transform(y_test),ss_y.inverse_transform(dtr_y_predict))

#總結：
#樹模型的優點：
#1.可以解決非線性特徵(目標與特徵直接不存線上性關係)的問題
#2.樹模型不要求對特徵標準化和統一量化
#樹模型的缺點：
#1.由於可以解決複雜的非線性問題，容易產生過擬合
#2.從上至下的預測流程會因為資料細微的更改而產生較大的結構變化，因此預測穩定性差
#3.構建最佳的樹模型是NP-hard問題，只能採用類似貪婪演算法的解法找到一些次優解

10.【基礎】波士頓房價預測--DecisionTreeRegressor

本文所有實現程式碼均來自《Python機器學習及實戰》 #-*- coding:utf-8 -*- #說明：前面的資料讀取、分割、標準化處理還是採用上一講的程式碼，只是模型的訓練換成了迴歸樹模型 #第一步：讀取波士頓房價資料 from sklearn.

7.【基礎】波士頓房價預測--LinearRegression

本文所有實現程式碼均來自《Python機器學習及實戰》 #-*- coding:UTF-8 -*- #第一步：讀取波士頓房價資料 from sklearn.datasets import load_boston boston = load_boston(

【udacity】機器學習-波士頓房價預測

import numpy as np import pandas as pd from Udacity.model_check.boston_house_price import visuals as vs # Supplementary code from sklearn.model_

【python資料分析】波士頓房價分析小例子

一、匯入模組 %matplotlib inline #將生成的圖片嵌入網頁中 import matplotlib.pyplot as plt from sklearn import datasets from sklearn.feature_sele

【基礎】C#異常處理的總結

ember -s 有效理解 dac 十進制 reference bsp msil 一、異常處理的理解？異常處理是指程序在運行過程中，發生錯誤會導致程序退出，這種錯誤，就叫做異常。因此處理這種錯誤，就稱為異常處理。二、異常處理如何操作？ C# 異常處

【基礎】計算機的存儲單元--01與字的轉化

選址概念 tro 基礎 word cpu 可選處理控制器什麽是位(bit)、字節(Byte)、字、KB、MB 位(bit)："位"是電子計算機中最小的數據單位，類似於（兩，公斤，克）的概念。每一位的狀態只能是0或1,比如：11010100是一個8位二進制數。

【基礎】ORACLE中substr的用法

itl .cn 字符串 ref art from 基礎 htm bst ORACLE中substr函數的簡單用法 substr(字符串,截取開始位置,截取長度) //返回截取的字 substr(‘Hello World‘,0,1) //返回結果為 ‘H‘ *從字符串第一

[ML]keras波士頓房價預測模型

ets close 方法 valid seq same layer n) 預測 from keras.datasets import boston_housing from keras.models import Sequential from keras.layers

【基礎】Attribute的妙用

.net main 屬性。常用現狀 void 例子 exc 作者一、何為Attribute 下面是微軟官方對Attribute的解釋：公共語言運行時允許你添加類似關鍵字的描述聲明，叫做Attributes，它對程序中的元素進行標註，如類型、字段、方法和屬性等

【基礎】循環數【模擬】

int under 每一個宋體 can port toc log flag 1096: 【基礎】循環數【模擬】時間限制: 1 Sec 內存限制: 128 MB提交: 426 解決: 283[提交][狀態][討論版] 題目描述描述 n 位的一個整數是循環數（cyc

【基礎】循環以及循環控制語句

初始返回自增區別嵌套for循環循環結構使用方法後置共同點 while： /* 演示while和do...while的使用方法及區別 while (表達式){ 代碼塊 } do { 代碼塊 } while(表達式)； while與

【基礎】函數的聲明&返回值

com 高效率 ima tar 函數類 pac inf mage ase 以加減乘除運算為例 /* 函數的一般形式：類型標示符函數名(形式參數,形式參數...){ 函數體 } 類型表示符為該函數返回值的類型不返回任何值的函數，返回值類型可以用voi

【基礎】函數的參數傳遞

輸出結果技術 blog span sin image using 問題實現 #include <iostream>using namespace std; int main(){ int x,y; cin >> x >&

【基礎】在css中繪制三角形及相關應用

3.1 三角形分享圖片繪制提示框穩定核心包括邊框顏色簡言本文簡要闡述了用CSS邊框的方法在頁面上繪制三角形，包括幾種典型的三角形繪制，還介紹了幾個簡單的應用場景。利用邊框繪制三角形方法只是眾多方案中的一種，大家根據項目實際，選用最適宜項目的方案。 1 基

正則表達式【基礎】

因此 tab 出現字符字母 app bbc 正則表達 abc /abc/ 雙斜桿表示裏面是正則表達式在awk中使用方法：awk ‘/a.c/{print $0}‘ data.txt .和\ awk ‘/a.c/{print $0}‘ data.txt 使用a.c

【基礎】結構體重載，用 char*作為std::map中的key

重載 http 註意 urn .net 參考 article 添加無法結構體重載 C++中，結構體是無法進行==，>，<，>=，<=，!=這些操作的，這也帶來了很多不方便的地方，尤其是在使用STL容器的時候，如果我們可以往語句中傳入結構體，一些

Python開發【第二十一篇】：Web框架之Django【基礎】

name line 控制 creat js等 nec serve pan xiaohua 一、 Django簡介 1.web框架簡介具體介紹Django之前，必須先介紹WEB框架等概念。 web框架：別人已經設定好的一個web網站模板，你學習它的規則，然後“填空”或“修

10.【轉】Visual Studio Code 必備外掛，主題及語法提示

原文地址：http://www.css88.com/archives/8064 小編推薦：掘金是一個面向程式設計師的高質量技術社群，從一線大廠經驗分享到前端開發最佳實踐，無論是入門還是進階，來掘金你不會錯過前端開發的任何一個技術乾貨。 Visual Studio Code 是由微軟開發的一款免

【基礎】1019 逆序數

一個一個比，資料太大就會超時。程式碼如下: #include<iostream> using namespace std; int a[50005]; int main(){ int n; long long ans=0; cin>>n; for(int i=

【基礎】1012 最小公倍數LCM

小心gcd()函式返回型別long long 遞迴: #include<iostream> using namespace std; long long gcd(long long a,long long b){ return b==0?a:gcd(b,a%b); } i

10.【基礎】波士頓房價預測--DecisionTreeRegressor

相關推薦