決策樹之CART演算法原理及python實現

1 CART演算法

CART 是在給定輸入X條件下輸出隨機變數Y的條件概率分佈的學習方法。CART二分每個特徵（包括標籤特徵以及連續特徵），經過最優二分特徵及其最優二分特徵值的選擇、切分，二叉樹生成，剪枝來實現CART演算法。對於迴歸CART樹選擇誤差平方和準則、對於分類CART樹選擇基尼係數準則進行特徵選擇，並遞迴呼叫構建二叉樹過程生成CART樹。
決策樹的經典演算法包括ID3、C4.5、CART演算法，其應用領域及所使用的準則，如下圖所示。

2 CART生成演算法

最小二乘迴歸樹生成演算法
之所以稱為最小二乘迴歸樹，是因為，迴歸樹以誤差平方和為準則選擇最優二分切點，該生成演算法在訓練資料集上所在的輸入空間中，遞迴的將每個區域劃分為兩個子區域並決定每個子區域的輸出值，在這裡分為兩種情況，一是輸出值為子區域輸出值的均值該種情況下為迴歸樹，二是輸出值為子區域輸入與輸出的線性迴歸，輸出值為迴歸係數，該種情況下為模型樹。
演算法實現步驟：
1）選擇最優切分特徵J與切分點s，按照如下原則：
m

inj,s[minc1∑(yi−c1)+minc2∑(yi−c2)]
c1,c2分別為左右子區域輸出的均值（模型樹時是輸出變數的迴歸值），可通過遍歷每個變數的每個可能取值來切分資料集找出最優切分點。
2）用切分點劃分區域並決定相應的輸出值
3）遞迴呼叫1）2）直到滿足停止條件
4）利用字典，遞迴呼叫建立二叉樹，生成決策樹
CART生成演算法（分類樹）
在這裡需要提一下基尼係數：
在分類問題中，假設有K類，樣本點屬於第k類的概率為pk,則概率分佈的基尼指數定義為：
Gini(p)=∑Kk=1pk(1−pk)=(p1+p2+...+pK)−∑Kk=1p2k=1−∑Kk=1p2k
對於分類問題：設C

k為D中屬於第k類的樣本子集，則基尼指數為：
Gini(D)=1−∑Kk=1(|Ck||D|)2
設條件A將樣本D切分為D1和D2兩個資料子集，則在條件A下的樣本D的基尼指數為：
Gini(D,A)=|D1|DGini(D1)+|D2|DGini(D2)
注意：基尼指數也表示樣本的不確定性，基尼指數值越大，樣本集合的不確定性越大。
演算法實現步驟：
1）計算現有樣本D的基尼指數，之後利用樣本中每一個特徵A，及A的每一個可能取值a，根據A>=a與A<a將樣本分為兩部分，並計算Gini(D,A)值
2）找出對應基尼指數最小Gini(D,A)的最優切分特徵及取值，並判斷是否切分停止條件，否，則輸出最優切分點
3）遞迴呼叫1）2）
4）生成CART決策樹

最小二乘迴歸樹的python實現流程圖
python程式

# -*- coding: utf-8 -*-
"""
Created on Wed May 24 16:58:05 2017
CART
@author: Administrator
"""

import numpy as np
import pickle
import treePlotter


def loadDataSet(filename):
    '''
    輸入：檔案的全路徑
    功能：將輸入資料儲存在datamat
    輸出：datamat
    '''
    fr = open(filename)
    datamat = []
    for line in fr.readlines():
        cutLine = line.strip().split('\t')
        floatLine = map(float,cutLine)
        datamat.append(floatLine)
    return datamat


def binarySplitDataSet(dataset,feature,value):
    '''
    輸入：資料集，資料集中某一特徵列，該特徵列中的某個取值
    功能：將資料集按特徵列的某一取值換分為左右兩個子資料集
    輸出：左右子資料集
    '''
    matLeft = dataset[np.nonzero(dataset[:,feature] <= value)[0],:]
    matRight = dataset[np.nonzero(dataset[:,feature] > value)[0],:]
    return matLeft,matRight

#--------------迴歸樹所需子函式---------------#

def regressLeaf(dataset):
    '''
    輸入：資料集
    功能：求資料集輸出列的均值
    輸出：對應資料集的葉節點
    '''
    return np.mean(dataset[:,-1])


def regressErr(dataset):
    '''
    輸入：資料集(numpy.mat型別)
    功能：求資料集劃分左右子資料集的誤差平方和之和
    輸出: 資料集劃分後的誤差平方和
    '''
    #由於迴歸樹中用輸出的均值作為葉節點，所以在這裡求誤差平方和實質上就是方差
    return np.var(dataset[:,-1]) * np.shape(dataset)[0]

def regressData(filename):
    fr = open(filename)
    return pickle.load(fr)

#--------------迴歸樹子函式  END  --------------#

def chooseBestSplit(dataset,leafType=regressLeaf,errType=regressErr,threshold=(1,4)):#函式做為引數，挺有意思
    thresholdErr = threshold[0];thresholdSamples = threshold[1]
    #當資料中輸出值都相等時，feature = None,value = 輸出值的均值（葉節點）
    if len(set(dataset[:,-1].T.tolist()[0])) == 1:
        return None,leafType(dataset)
    m,n = np.shape(dataset)
    Err = errType(dataset)
    bestErr = np.inf; bestFeatureIndex = 0; bestFeatureValue = 0
    for featureindex in range(n-1):
        for featurevalue in dataset[:,featureindex]:
            matLeft,matRight = binarySplitDataSet(dataset,featureindex,featurevalue)
            if (np.shape(matLeft)[0] < thresholdSamples) or (np.shape(matRight)[0] < thresholdSamples):
                continue
            temErr = errType(matLeft) + errType(matRight)
            if temErr < bestErr:
                bestErr = temErr
                bestFeatureIndex = featureindex
                bestFeatureValue = featurevalue
    #檢驗在所選出的最優劃分特徵及其取值下，誤差平方和與未劃分時的差是否小於閾值，若是，則不適合劃分
    if (Err - bestErr) < thresholdErr:
        return None,leafType(dataset)
    matLeft,matRight = binarySplitDataSet(dataset,bestFeatureIndex,bestFeatureValue)
    #檢驗在所選出的最優劃分特徵及其取值下，劃分的左右資料集的樣本數是否小於閾值，若是，則不適合劃分
    if (np.shape(matLeft)[0] < thresholdSamples) or (np.shape(matRight)[0] < thresholdSamples):
        return None,leafType(dataset)
    return bestFeatureIndex,bestFeatureValue


def createCARTtree(dataset,leafType=regressLeaf,errType=regressErr,threshold=(1,4)):

    '''
    輸入：資料集dataset，葉子節點形式leafType：regressLeaf（迴歸樹）、modelLeaf（模型樹）
         損失函式errType:誤差平方和也分為regressLeaf和modelLeaf、使用者自定義閾值引數：
         誤差減少的閾值和子樣本集應包含的最少樣本個數
    功能：建立迴歸樹或模型樹
    輸出：以字典巢狀資料形式返回子迴歸樹或子模型樹或葉結點
    '''
    feature,value = chooseBestSplit(dataset,leafType,errType,threshold)
    #當不滿足閾值或某一子資料集下輸出全相等時，返回葉節點
    if feature == None: return value
    returnTree = {}
    returnTree['bestSplitFeature'] = feature
    returnTree['bestSplitFeatValue'] = value
    leftSet,rightSet = binarySplitDataSet(dataset,feature,value)
    returnTree['left'] = createCARTtree(leftSet,leafType,errType,threshold)
    returnTree['right'] = createCARTtree(rightSet,leafType,errType,threshold)
    return returnTree

#----------迴歸樹剪枝函式----------#
def isTree(obj):#主要是為了判斷當前節點是否是葉節點
    return (type(obj).__name__ == 'dict')

def getMean(tree):#樹就是巢狀字典
    if isTree(tree['left']): tree['left'] = getMean(tree['left'])
    if isTree(tree['right']): tree['right'] = getMean(tree['right'])
    return (tree['left'] + tree['right'])/2.0

def prune(tree, testData):
    if np.shape(testData)[0] == 0: return getMean(tree)#存在測試集中沒有訓練集中資料的情況
    if isTree(tree['left']) or isTree(tree['right']):
        leftTestData, rightTestData = binarySplitDataSet(testData,tree['bestSplitFeature'],tree['bestSplitFeatValue'])
    #遞迴呼叫prune函式對左右子樹,注意與左右子樹對應的左右子測試資料集
    if isTree(tree['left']): tree['left'] = prune(tree['left'],leftTestData)
    if isTree(tree['right']): tree['right'] = prune(tree['right'],rightTestData)
    #當遞迴搜尋到左右子樹均為葉節點時，計算測試資料集的誤差平方和
    if not isTree(tree['left']) and not isTree(tree['right']):
        leftTestData, rightTestData = binarySplitDataSet(testData,tree['bestSplitFeature'],tree['bestSplitFeatValue'])
        errorNOmerge = sum(np.power(leftTestData[:,-1] - tree['left'],2)) +sum(np.power(rightTestData[:,-1] - tree['right'],2))
        errorMerge = sum(np.power(testData[:,1] - getMean(tree),2))
        if errorMerge < errorNOmerge:
            print 'Merging'
            return getMean(tree)
        else: return tree
    else: return tree

#---------迴歸樹剪枝END-----------#    

#-----------模型樹子函式-----------#
def linearSolve(dataset):
    m,n = np.shape(dataset)
    X = np.mat(np.ones((m,n)));Y = np.mat(np.ones((m,1)))
    X[:,1:n] = dataset[:,0:(n-1)]
    Y = dataset[:,-1]
    xTx = X.T * X
    if np.linalg.det(xTx) == 0:
        raise NameError('This matrix is singular, cannot do inverse,\n\
        try increasing the second value of threshold')
        ws = xTx.I * (X.T * Y)
        return ws, X,Y

def modelLeaf(dataset):
    ws,X,Y = linearSolve(dataset)
    return ws

def modelErr(dataset):
    ws,X,Y = linearSolve(dataset)
    yHat = X * ws
    return sum(np.power(Y - yHat,2))

#------------模型樹子函式END-------#

#------------CART預測子函式------------#

def regressEvaluation(tree, inputData):
     
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    決策樹之CART演算法原理及python實現
      
							
							
							1 CART演算法

CART 是在給定輸入X條件下輸出隨機變數Y的條件概率分佈的學習方法。CART二分每個特徵（包括標籤特徵以及連續特徵），經過最優二分特徵及其最優二分特徵值的選擇、切分，二叉樹生成，剪枝來實現CART演算法。對於迴歸CART樹選擇誤差平方和準 

  
 

    

    
    SVM演算法原理及Python實現
      
                Svm（support Vector Mac）又稱為支援向量機，是一種二分類的模型。當然如果進行修改之後也是可以用於多類別問題的分類。支援向量機可以分為線性核非線性兩大類。其主要思想為找到空間中的一個更夠將所有資料樣本劃開的超平面，並且使得本本集中所有資料到這個超平面的距離最 

  
 

    

    
    logistic迴歸演算法原理及python實現
      
							
							
							1 logistic迴歸與sigmoid函式

考慮如下線性函式： 
y=wwTxx+b(1) 
輸出y為連續的實值，如何讓輸出成為二值來完成二分類任務？即y∈{0,1},最理想的是單位階躍函式即： 
y=⎧⎩⎨⎪⎪0,z<00.5,z=01,z>0 

  
 

    

    
    bandit演算法原理及Python實現
      


選一個(0,1)之間較小的數epsilon


每次以概率epsilon（產生一個[0,1]之間的隨機數，比epsilon小）做一件事：所有臂中隨機選一個。否則，選擇截止當前，平均收益最大的那個臂。

是不是簡單粗暴？epsilon的值可以控制對Exploit和Explore的偏好程度。越接近0，越保守 

  
 

    

    
    決策樹之ID3演算法實現(python) [置頂] 怒寫一個digit classification(不斷更新中)
       
  
  
 分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow
 
 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！
 
 
          

  
 

    

    
    決策樹（ID3 C4,5 減枝 CART演算法）以及Python實現
      
								
								            
							
							
							演算法簡述
在《統計學習方法》中，作者的if-then的描述，簡單一下子讓人理解了決策樹的基本概念。
決策樹，就是一個if-then的過程。
本文主要學習自《統計學習方法》一書，並努力通過書中數學推導來 

  
 

    

    
    決策樹演算法原理及JAVA實現(ID3)
      package sequence.machinelearning.decisiontree.myid3;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.FileWri 

  
 

    

    
    決策樹演算法原理 與 Python實現
       
 
 轉自： https://blog.csdn.net/huahuazhu/article/details/73167610?locationNum=2&fps=1 
   
  ########################################### 

  
 

    

    
    ID3決策樹演算法原理及C++實現(其中程式碼轉自別人的部落格)
      
                
分類是資料探勘中十分重要的組成部分.
分類作為一種無監督學習方式被廣泛的使用.


之前關於"資料探勘中十大經典演算法"中,基於ID3核心思想的分類演算法
C4.5榜上有名.所以不難看出ID3在資料分類中是多麼的重要了.


ID3又稱為決策樹演算法,雖然現在廣義的決策樹演 

  
 

    

    
    快速匹配字串演算法BK樹 原理及python實現
      
                BK樹或者稱為Burkhard-Keller樹，是一種基於樹的資料結構。用於快速查詢近似字串匹配，比方說拼寫糾錯，或模糊查詢，當搜尋”aeek”時能返回與其最相似的字串”seek”和”peek”。

在構建BK樹之前，我們需要定義一種用於比較字串相似度的度量方法。通常都是採用 

  
 

    

    
    決策樹之ID3演算法實現(python)
      

最近開始學習machine learning方面的內容，大致瀏覽了一遍《machine learning in action》一書，大概瞭解了一些常用的演算法如knn,svm等具體式幹啥的。
在kaggle上看到一個練手的專案：digit classification,又有良好的資料，於是打算用這個 

  
 

    

    
    【機器學習】Apriori演算法——原理及程式碼實現（Python版）
      Apriopri演算法 
 
 Apriori演算法在資料探勘中應用較為廣泛，常用來挖掘屬性與結果之間的相關程度。對於這種尋找資料內部關聯關係的做法，我們稱之為：關聯分析或者關聯規則學習。而Apriori演算法就是其中非常著名的演算法之一。關聯分析，主要是通過演算法在大規模資料集中尋找頻繁項集和關聯規則。 
 

  
 

    

    
    Bandit演算法原理及Python實戰
       
 
 
 目錄 
 1）什麼是Bandit演算法 
 為選擇而生。 
 Bandit演算法與推薦系統 
 怎麼選擇Bandit演算法？ 
 2)常用Bandit演算法 
 Thompson sampling演算法 
 UCB演算法 
 Epsilon-Greedy演算法 
 Greedy演算法 
 3）B 

  
 

    

    
    決策樹之ID3演算法
      
							
							
							今天，我來講解的是決策樹。對於決策樹來說，主要有兩種演算法：ID3演算法和C4.5演算法。C4.5演算法是
對ID3演算法的改進。今天主要先講ID3演算法，之後會講C4.5演算法和隨機森林等。
Contents
 1. 決策樹的基本認識
 2. ID3演算法介紹 

  
 

    

    
    層次聚類演算法的原理及python實現
      

層次聚類(Hierarchical Clustering)是一種聚類演算法，通過計算不同類別資料點間的相似度來建立一棵有層次的巢狀聚類樹。在聚類樹中，不同類別的原始資料點是樹的最低層，樹的頂層是一個聚類的根節點。

聚類樹的建立方法：自下而上的合併，自上而下的分裂。（這裡介紹第一種）
1.2 層次聚類的合 

  
 

    

    
    經典排序演算法，氣泡排序，選擇排序，直接插入排序，希爾排序，快速排序，歸併排序，二分查詢。原理及python實現。
      
                1.氣泡排序

                      氣泡排序
1.比較相鄰的元素，如果第一個比第二個大（升序），就交換他們兩個
2.對每一對相鄰的元素做同樣的工作，從開始到結尾的最後一對
  這步做完後，最後的元素會是最大的數
3.針對所有的元素重複以上的步驟，除了最 

  
 

    

    
    opencv之SURF演算法原理及關鍵點檢測
      
							
							
							1.概述

在基礎篇裡面講模板匹配的時候已經介紹過，影象匹配主要有基於灰度和基於特徵兩種方法。基於特徵匹配的方法有很多種如：FAST、HARRIS、SIFT、SURF、SUSAN等。其中SIFT演算法由D.G.Lowe於1999年提出，2004年完善總結。SIF 

  
 

    

    
    機器學習——隨機森林演算法randomForest——原理及python實現
      
                
參考：
http://blog.csdn.net/nieson2012/article/details/51279332
http://www.cnblogs.com/wentingtu/archive/2011/12/22/2297405.html
http://www. 

  
 

    

    
    資料探勘之clara演算法原理及例項(程式碼中有bug)
      
                
繼上兩篇文章介紹聚類中基於劃分思想的k-means演算法和k-mediod演算法
本文將繼續介紹另外一種基於劃分思想的k-mediod演算法-----clara演算法




clara演算法可以說是對k-mediod演算法的一種改進,就如同k-mediod演算法對
k-m 

  
 

    

    
    【Machine Learning·機器學習】決策樹之ID3演算法(Iterative Dichotomiser 3)
      
    目錄
    
        
        1、什麼是決策樹
        2、如何構造一棵決策樹？
        2.1、基本方法
        2.2、評價標準是什麼/如何量化評價一個特徵的好壞？
        2.3、資訊熵、資訊增益的計算
        2.4、決策樹構建方法

決策樹之CART演算法原理及python實現

1 CART演算法

2 CART生成演算法

決策樹之CART演算法原理及python實現

SVM演算法原理及Python實現

logistic迴歸演算法原理及python實現

bandit演算法原理及Python實現

決策樹之ID3演算法實現(python) [置頂] 怒寫一個digit classification(不斷更新中)

決策樹（ID3 C4,5 減枝 CART演算法）以及Python實現

決策樹演算法原理及JAVA實現(ID3)

決策樹演算法原理與 Python實現

ID3決策樹演算法原理及C++實現(其中程式碼轉自別人的部落格)

快速匹配字串演算法BK樹原理及python實現

決策樹之ID3演算法實現(python)

【機器學習】Apriori演算法——原理及程式碼實現（Python版）

Bandit演算法原理及Python實戰

決策樹之ID3演算法

層次聚類演算法的原理及python實現

經典排序演算法，氣泡排序，選擇排序，直接插入排序，希爾排序，快速排序，歸併排序，二分查詢。原理及python實現。

opencv之SURF演算法原理及關鍵點檢測

機器學習——隨機森林演算法randomForest——原理及python實現

資料探勘之clara演算法原理及例項(程式碼中有bug)

【Machine Learning·機器學習】決策樹之ID3演算法(Iterative Dichotomiser 3)