機器學習之迴歸決策樹DecisionTreeRegressor

阿新 • • 發佈：2018-11-29

機器學習之迴歸決策樹DecisionTreeRegressor

# -*- coding: utf-8 -*-
"""
Created on Fri Nov 23 20:00:23 2018

@author: muli
"""

import numpy as np
from sklearn.tree import DecisionTreeRegressor
from sklearn import cross_validation
import matplotlib.pyplot as plt


def creat_data(n):
    '''
    產生用於迴歸問題的資料集

    :param n:  資料集容量
    :return: 返回一個元組，
     元素依次為：訓練樣本集、測試樣本集、訓練樣本集對應的值、測試樣本集對應的值
    '''
    np.random.seed(0)
    # 產生 n*1 的矩陣，隨機值為[0,1)之間
    X = 5 * np.random.rand(n, 1)
    # 正弦值
    y = np.sin(X).ravel()
    noise_num=(int)(n/5)
    # 每第5個樣本，就在該樣本的值上新增噪音
    y[::5] += 3 * (0.5 - np.random.rand(noise_num)) 
    return cross_validation.train_test_split(X, y,
		test_size=0.25,random_state=1) # 拆分原始資料集為訓練集和測試集，其中測試集大小為元素資料集大小的 1/4
    

def test_DecisionTreeRegressor(*data):
    '''
    測試 DecisionTreeRegressor 的用法

    :param data: 可變引數。它是一個元組，這裡要求其元素依次為：訓練樣本集、測試樣本集、訓練樣本的值、測試樣本的值
    :return: None
    '''
    X_train,X_test,y_train,y_test=data
    regr = DecisionTreeRegressor()
    regr.fit(X_train, y_train)
    print("Training score:%f"%(regr.score(X_train,y_train)))
    print("Testing score:%f"%(regr.score(X_test,y_test)))
    ##繪圖
    fig=plt.figure()
    ax=fig.add_subplot(1,1,1)
    X = np.arange(0.0, 5.0, 0.05)[:, np.newaxis]
    # 看預測 迴歸樹的效果
    Y = regr.predict(X)
    ax.scatter(X_train, y_train, label="train sample",c='g')
    ax.scatter(X_test, y_test, label="test sample",c='r')
    ax.plot(X, Y, label="predict_value", linewidth=2,alpha=0.5)
    ax.set_xlabel("data")
    ax.set_ylabel("target")
    ax.set_title("Decision Tree Regression")
    ax.legend(framealpha=0.5)
    plt.show()
    
    
def test_DecisionTreeRegressor_splitter(*data):
    '''
    檢驗 隨機劃分與最優劃分的影響

    :param data: 可變引數。
    它是一個元組，這裡要求其元素依次為：訓練樣本集、測試樣本集、訓練樣本的值、測試樣本的值
    :return: None
    '''
    X_train,X_test,y_train,y_test=data
    splitters=['best','random']
    for splitter in splitters:
        regr = DecisionTreeRegressor(splitter=splitter)
        regr.fit(X_train, y_train)
        print("Splitter %s"%splitter)
        print("Training score:%f"%(regr.score(X_train,y_train)))
        print("Testing score:%f"%(regr.score(X_test,y_test)))
        print("----------------------")
    

def test_DecisionTreeRegressor_depth(*data,maxdepth):
    '''
    預測效能隨  max_depth 的影響

    :param data:  可變引數。它是一個元組，這裡要求其元素依次為：訓練樣本集、測試樣本集、訓練樣本的值、測試樣本的值
    :param maxdepth: 一個整數，它作為 DecisionTreeRegressor 的 max_depth 引數
    :return: None
    '''
    X_train,X_test,y_train,y_test=data
    # maxdepth表示最大深度
    depths=np.arange(1,maxdepth)
    training_scores=[]
    testing_scores=[]
    for depth in depths:
        regr = DecisionTreeRegressor(max_depth=depth)
        regr.fit(X_train, y_train)
        training_scores.append(regr.score(X_train,y_train))
        testing_scores.append(regr.score(X_test,y_test))

    ## 繪圖
    fig=plt.figure()
    ax=fig.add_subplot(1,1,1)
    ax.plot(depths,training_scores,label="traing score")
    ax.plot(depths,testing_scores,label="testing score")
    ax.set_xlabel("maxdepth")
    ax.set_ylabel("score")
    ax.set_title("Decision Tree Regression")
    ax.legend(framealpha=0.5)
    plt.show()

  
if __name__=='__main__':
    X_train,X_test,y_train,y_test=creat_data(100) # 產生用於迴歸問題的資料集
#    test_DecisionTreeRegressor(X_train,X_test,y_train,y_test) # 呼叫 test_DecisionTreeRegressor
#    test_DecisionTreeRegressor_splitter(X_train,X_test,y_train,y_test) # 呼叫 test_DecisionTreeRegressor_splitter
    test_DecisionTreeRegressor_depth(X_train,X_test,y_train,y_test,maxdepth=20) # 呼叫 test_DecisionTreeRegressor_depth

機器學習之迴歸決策樹DecisionTreeRegressor

機器學習之迴歸決策樹DecisionTreeRegressor # -*- coding: utf-8 -*- """ Created on Fri Nov 23 20:00:23 2018 @author: muli """ import numpy as np

機器學習之路--決策樹

eve 分析完成後保存 not lba 不同排序離散一,引言：上一章我們講的kNN算法，雖然可以完成很多分類任務，但它最大的缺點是無法給出數據的內在含義，而決策樹的主要優勢就在於數據形式非常容易理解。決策樹算法能夠讀取數據集合，決策樹的一個重要

機器學習之分類決策樹DecisionTreeClassifier

機器學習之分類決策樹DecisionTreeClassifier # -*- coding: utf-8 -*- """ Created on Fri Nov 23 21:06:54 2018 @author: muli """ import numpy as np

機器學習之：決策樹（Decision Tree）

Decision Tree 1. 決策樹決策樹是機器學習中最接近人類思考問題的過程的一種演算法。通過若干個節點，對特徵進行提問並分類（可以是二分類也可以使多分類），直至最後生成

機器學習之--使用決策樹分類測試數據(遞歸)

-- 分類測試數據 label dict 決策序號特征 span def classfify(mytree,testdata,labels): # print(‘mytree:{},testdata:{},labels:{}‘.format(mytree

【機器學習】分類決策樹與迴歸決策樹案例

一、回顧什麼是決策樹，資訊熵構建決策樹的過程 ID3、C4.5和CRAT演算法上面三篇，主要介紹了相關的理論知識，其中構建決策樹的過程可以很好地幫助我們理解決策樹的分裂屬性的選擇。本篇所有原始碼：Github 二

Spark機器學習(6)：決策樹算法

projects 信息 txt .cn import n) .com util seq 1. 決策樹基本知識決策樹就是通過一系列規則對數據進行分類的一種算法，可以分為分類樹和回歸樹兩類，分類樹處理離散變量的，回歸樹是處理連續變量。樣本一般都有很多個特征，有的特征對分

機器學習實戰精讀--------決策樹

決策樹機器學習 python感覺自己像個學走路的孩子，每一步都很吃力和認真！機器根據數據集創建規則，就是機器學習。決策樹：從數據集合中提取一系列規則，適用於探索式的知識發現。決策樹本質：通過一系列規則對數據進行分類的過程。決策樹算法核心：構建精度高，數據規模小的決策樹。ID3算法：此算法目的在於減少樹的深

Python機器學習之梯度提升樹

pri () 糾正 ensemble depth del gbrt 1.5 cer #和隨機森林一樣，基於決策樹，采用連續的方式構建樹，深度很小max_depth<5.重要的參數n_estimate和learning_rate,這兩個參數的y作用在於對模型過擬合化得調

機器學習(十二) 決策樹

圖解通過 rop 監管運用一個系統分支對象屬性決策樹(Decision Tree）是在已知各種情況發生概率的基礎上，通過構成決策樹來求取凈現值的期望值大於等於零的概率，評價項目風險，判斷其可行性的決策分析方法，是直觀運用概率分析的一種圖解法。由於這種決策分支畫

Python實現機器學習之迴歸分析

前言機器學習常用來解決相關分析和迴歸分析的問題，有時候大家會混淆兩者之間的差異，這裡通過對比分析來說明兩者的區別和聯絡，最後會以呼叫sklearn包中LinearRegression方法進行簡單線性迴歸分析為例，說明如何使用python進行資料分析。一、相關分析和迴

HIT機器學習期末複習（1）——機器學習簡介及決策樹

劉楊的機器學習終於上完了惹，下週就要考試了，趕緊複習ing...... 趁機做個總結，就當是複習了惹...... 機器學習簡介 1、什麼是機器學習簡單來說，就是一個三元組<P, T, E> P——performance效能（對應著效能的評估函式，也就是常說的loss或者likeli

HIT機器學習期末復習（1）——機器學習簡介及決策樹

決策樹開始矩陣 improve 節點 policy heat red program 劉楊的機器學習終於上完了惹，下周就要考試了，趕緊復習ing...... 趁機做個總結，就當是復習了惹...... 機器學習簡介 1、什麽是機器學習簡單來說，就是一個三元組<P

機器學習篇：決策樹的理解

1、決策樹是一個樹結構（可以是二叉樹或非二叉樹）決策樹是一個樹結構（可以是二叉樹或非二叉樹)其每個非葉節點表示一個特徵屬性上的測試，每個分支代表這個特徵屬性在某個值域上的輸出，而每個葉節點存放一個類別。使用決策樹進行決策的過程就是從根節點開始，測試待分類項中相應的特徵屬性，並按照其值選擇輸出分

[二]機器學習之迴歸

2.1 線性迴歸 2.1.1 實驗資料 1.資料描述資料來自出版書籍《An Introduction to Statistical Learning with Applications in R》(Springer,2013)，作者Gareth James,

機器學習實戰——3決策樹

文章對應《機器學習實戰》第三章主要是對各個函式的功能進行了比較易懂的描述，可供python初學者參考。另外推薦機器學習實戰程式碼註釋，對在本書中入門python的同學應有很大幫助。 //計算給定資料集的夏農熵 def calcShannonEnt(dataSet):

機器學習分類器---決策樹

一、決策樹經常使用決策樹來處理分類問題，決策樹也是最經常使用的資料探勘演算法，不需要了解機器學習的知識，就能搞明白決策樹是如何工作的。 kNN演算法可以完成很多分類任務，但它最大的缺點就是無法給出資料的內在含義，決策樹的主要優勢在於資料形式非常容易理解決策樹能夠讀取資

機器學習實戰-簡單決策樹編寫

#!/user/bin/env python # !-*-coding:utf-8 -*- # !Time :2018/9/28 4:12 PM # !Author : hyCong # [email protected] : .py from ma

機器學習_7.認識決策樹

決策樹決策樹(Decision Tree）是在已知各種情況發生概率的基礎上，通過構成決策樹來求取淨現值的期望值大於等於零的概率，評價專案風險，判斷其可行性的決策分析方法，是直觀運用概率分析的一種圖解法。由於這種決策分支畫成圖形很像一棵樹的枝幹，故稱決策樹。在機器學習中

機器學習分類演算法---決策樹

決策樹：樹結構，可以是二叉樹或非二叉樹，資料結構中的概念，只不過加上了判斷條件。資訊熵： 1948年，夏農提出了“資訊熵”的概念。一條資訊的資訊量大小和它的不確定性有直接的關係，即對一件事，你不知道的越多，這件事對於你來說資訊熵越大，因為你需要學的東西更多。 &nb

機器學習之迴歸決策樹DecisionTreeRegressor

相關推薦