MachineLearning—CART分類迴歸樹python應用實現

阿新 • • 發佈：2019-01-06

# -*- coding: utf-8 -*-  

from numpy import *  
import numpy as np  
import pandas as pd  
from math import log  
import operator  
import re 
from collections import defaultdict
import itertools

def calGini(dataSet):
    numEntries = len(dataSet)
    labelCounts={}
    for featVec in dataSet: 
        currentLabel = featVec[-1]
        if currentLabel not in labelCounts.keys(): labelCounts[currentLabel] = 0
        labelCounts[currentLabel] += 1
    gini=1
    for label in labelCounts.keys():
        prop=float(labelCounts[label])/numEntries
        gini -=prop*prop
    return gini

# 傳入的是一個特徵值的列表，返回特徵值二分的結果
def featuresplit(features):
    count = len(features)#特徵值的個數
    if count < 2:        #特徵值只有一個值比如'cold_blood'
        li=[]
        print "please check sample's features,only one feature value"
        li.append(features)
        return tuple(li)     #列表轉化為元組
    
    # 由於需要返回二分結果，所以每個分支至少需要一個特徵值，所以要從所有的特徵組合中選取1個以上的組合
    # itertools的combinations 函式可以返回一個列表選多少個元素的組合結果，例如combinations(list,2)返回的列表元素選2個的組合
    # 我們需要選擇1-（count-1）的組合
    featureIndex = range(count)
    featureIndex.pop(0) 
    combinationsList = []    
    resList=[]
    # 遍歷所有的組合
    for i in featureIndex:
        temp_combination = list(itertools.combinations(features, len(features[0:i])))
        combinationsList.extend(temp_combination)
        combiLen = len(combinationsList)
    # 每次組合的順序都是一致的，並且也是對稱的，所以我們取首尾組合集合
    # zip函式提供了兩個列表對應位置組合的功能
    resList = zip(combinationsList[0:combiLen/2], combinationsList[combiLen-1:combiLen/2-1:-1])   #往回數間隔為1
    
    return resList       #二分特徵的不同情況

#def splitDataSet(dataSet, axis, values):
#    retDataSet = []
#    for featVec in dataSet:
#        for value in values:
#            if featVec[axis] == value:
#                reducedFeatVec = featVec[:axis]     #剔除樣本集
#                reducedFeatVec.extend(featVec[axis+1:])
#                retDataSet.append(reducedFeatVec)
#    return retDataSet   #把那些特徵值等於value的都剔出來

#def splitDataSet(dataSet, axis, values):     #實現了一些特徵的重複利用 比如cover   特徵複用
#    retDataSet = []
#    if len(values) < 2:
#        for featVec in dataSet:        #長度小於2即只有一個特徵值
#            if featVec[axis] == values[0]:   #如果特徵值只有一個，不抽取當選特徵
#                reducedFeatVec = featVec[:axis]     
#                reducedFeatVec.extend(featVec[axis+1:])
#                retDataSet.append(reducedFeatVec)
#    else:
#        for featVec in dataSet:
#            for value in values:
#                if featVec[axis] == value:   #如果特徵值多於一個，選取當前特徵
#                    retDataSet.append(featVec)
#
#    return retDataSet

#處理連續特徵值
def splitDataSet(dataSet, axis, value,threshold):
    retDataSet = []
    if threshold == 'lt':
        for featVec in dataSet:
            if featVec[axis] <= value:
                retDataSet.append(featVec)
    else:
        for featVec in dataSet:
            if featVec[axis] > value:
                retDataSet.append(featVec)

    return retDataSet


# 返回最好的特徵以及二分特徵值
"""def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1      #
    bestGiniGain = 1.0
    bestFeature = -1
    bestBinarySplit=()
    for i in range(numFeatures):        #遍歷特徵
        featList = [example[i] for example in dataSet]   #得到特徵列
        uniqueVals = list(set(featList))       #去除重複值的特徵列
        # 三個特徵值的二分結果：
        #   [(('young',), ('old', 'middle')), (('old',), ('young', 'middle')), (('middle',), ('young', 'old'))]
        for split in featuresplit(uniqueVals):   #featuresplit返回特徵的所有二分情況
            GiniGain = 0.0
            if len(split)==1:         #split是一個元組 特徵值只有一個比如:cold_blood 只有一個特徵值就沒辦法繼續劃分下去了 所以跳出迴圈繼續下一迴圈
                continue
            (left,right)=split
            
            # 對於每一個可能的二分結果計算gini增益
            # 左增益
            left_subDataSet = splitDataSet(dataSet, i, left)
            left_prob = len(left_subDataSet)/float(len(dataSet))
            GiniGain += left_prob * calGini(left_subDataSet)
            # 右增益
            right_subDataSet = splitDataSet(dataSet, i, right)
            right_prob = len(right_subDataSet)/float(len(dataSet))
            GiniGain += right_prob * calGini(right_subDataSet)
            if (GiniGain <= bestGiniGain):       #比較是否是最好的結果
                bestGiniGain = GiniGain         #記錄最好的結果和最好的特徵
                bestFeature = i
                bestBinarySplit=(left,right)
    return bestFeature,bestBinarySplit  
"""

#處理連續特徵值
def chooseBestFeatureToSplit(dataSet):
    numFeatures = len(dataSet[0]) - 1
    bestGiniGain = 1.0; bestFeature = -1;bsetValue=""
    for i in range(numFeatures):               #遍歷特徵
        featList = [example[i] for example in dataSet]     #得到特徵列
        uniqueVals = list(set(featList))       #從特徵列獲取該特徵的特徵值的set集合
        uniqueVals.sort()
        for value in uniqueVals:               #遍歷所有的特徵值
            GiniGain = 0.0
            #左基尼指數
            left_subDataSet = splitDataSet(dataSet, i, value,'lt')
            left_prob = len(left_subDataSet)/float(len(dataSet))
            GiniGain += left_prob * calGini(left_subDataSet)
            
            #右基尼指數
            right_subDataSet = splitDataSet(dataSet, i, value,'gt')
            right_prob = len(right_subDataSet)/float(len(dataSet))
            GiniGain += right_prob * calGini(right_subDataSet)
                 
            
            if (GiniGain < bestGiniGain):       #比較是否是最好的結果
                bestGiniGain = GiniGain         #記錄最好的結果和最好的特徵
                bestFeature = i
                bestValue=value
    return bestFeature,bestValue


def majorityCnt(classList):
    classCount={}
    for vote in classList:
        if vote not in classCount.keys(): classCount[vote] = 0
        classCount[vote] += 1
    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)
    return sortedClassCount[0][0]   #返回標籤


"""def createTree(dataSet,labels):
    classList = [example[-1] for example in dataSet]
#    9/0
    # print dataSet
    if classList.count(classList[0]) == len(classList): 
        return classList[0]       #所有的類別都一樣，就不用再劃分了
    if len(dataSet) == 1:         #如果沒有繼續可以劃分的特徵，就多數表決決定分支的類別
        # print "here"
        return majorityCnt(classList)
    bestFeat,bestBinarySplit = chooseBestFeatureToSplit(dataSet)
#    9/0
    # print bestFeat,bestBinarySplit,labels
    bestFeatLabel = labels[bestFeat]
    if bestFeat==-1:
        return majorityCnt(classList)
    myTree = {bestFeatLabel:{}}
    featValues = [example[bestFeat] for example in dataSet]
    uniqueVals = list(set(featValues))
#    9/0
    for value in bestBinarySplit:
#        9/0
        subLabels = labels[:]       #拷貝防止其他地方修改  特徵標籤
        if len(value)<2:
            del(subLabels[bestFeat])
#        9/0
        myTree[bestFeatLabel][value] = createTree(splitDataSet(dataSet, bestFeat, value),subLabels)
#        9/0
    return myTree 
"""

#處理連續特徵值, labels是特徵標籤
def createTree(dataSet,labels):  
    classList = [example[-1] for example in dataSet]
    
    if classList.count(classList[0]) == len(classList): 
        return classList[0]      #所有的類別都一樣，就不用再劃分了
    if len(dataSet) == 1:        #如果沒有繼續可以劃分的特徵，就多數表決決定分支的類別
        return majorityCnt(classList)
    
    bestFeat,bestValue = chooseBestFeatureToSplit(dataSet)
    bestFeatLabel = labels[bestFeat]
    if bestFeat==-1:
        return majorityCnt(classList)
    myTree = {bestFeatLabel:{}}
    featValues = [example[bestFeat] for example in dataSet]
    uniqueVals = list(set(featValues))
    subLabels = labels[:]
    
    myTree[bestFeatLabel][bestFeatLabel+'<='+str(round(float(bestValue),3))] = createTree(splitDataSet(dataSet, bestFeat, bestValue,'lt'),subLabels)
    myTree[bestFeatLabel][bestFeatLabel+'>'+str(round(float(bestValue),3))] = createTree(splitDataSet(dataSet, bestFeat, bestValue,'gt'),subLabels)
    
    return myTree  
#完美沒有問題！！！


####測試分類
#由於在Tree中，連續值特徵的名稱改為了feature<=value的形式  
#因此對於這類特徵，需要利用正則表示式進行分割，獲得特徵名以及分割閾值（其他方法也可以）  
def classify(inputTree,featLabels,testVec):  
    firstStr=inputTree.values()[0].keys()     #第一個為最佳分類特徵      #連續值    
    if '<=' not in firstStr[0]:
        firstStr.reverse()

    
    featvalue=float(re.compile("(<=.+)").search(firstStr[0]).group()[2:])   #例子中的97      
    featkey=re.compile("(.+<=)").search(firstStr[0]).group()[:-2]           #例子中的money       
    featIndex=featLabels.index(featkey)   #特徵列表中當前特徵標籤位置

    if testVec[featIndex]<=featvalue:    #測試樣本中對應位置的值
        secondDict=inputTree.values()[0][firstStr[0]]
        if type(secondDict).__name__=='dict':  
            classLabel=classify(secondDict,featLabels,testVec)    #遞迴呼叫
        else:  
            classLabel=secondDict
    else:
        secondDict=inputTree.values()[0][firstStr[1]]
        if type(secondDict).__name__=='dict':  
            classLabel=classify(secondDict,featLabels,testVec)    #遞迴呼叫
        else:  
            classLabel=secondDict  
#else:離散的先不考慮  
    return classLabel    #返回分類標籤
  
  
def testing(myTree,data_test,labels):  
    error=0.0  
    for i in range(len(data_test)):  #一個個的測試
        if classify(myTree,labels,data_test[i])!=data_test[i][-1]:  #如果測試的結果與實際的標籤不同  
            error+=1    
    print 'myTree %f'%((len(data_test)-error)/len(data_test))   #注意這裡的%f 之前是%d返回整型 
#   9/0
    return None  



df=pd.read_csv('C:/Users/test_5.csv')  
data=df.values[:280,1:].tolist()        #從0行開始 從1列開始  data包含特徵資料和類別值

data_full=data[:]  
data_test=df.values[280:,1:].tolist()     #劃分測試集
#test_length=len(data_test)
labels=df.columns.values[1:-1].tolist()  #特徵標籤 color root knocks texture navel touch 400個
labels_full=labels[:]  
myTree=createTree(data,labels)  

testing(myTree,data_test,labels_full)  
  
import treePlotter  
treePlotter.createPlot(myTree)

MachineLearning—CART分類迴歸樹python應用實現

# -*- coding: utf-8 -*- from numpy import * import numpy as np import pandas as pd from math import log import operator imp

CART之迴歸樹python程式碼實現

一、CART ( Classification And Regression Tree) 分類迴歸樹 1、基尼指數：在分類問題中，假設有KK 個類，樣本點屬於第kk 類的概率為PkPk ，則概率分佈的基尼指數定義為： Gini(P)=∑k=1KPk(1

CART分類迴歸樹分析與python實現

引言前面我們分享過一篇決策樹演算法叫ID3:ID3決策樹原理分析及python實現。首先我們來回顧下ID3演算法。ID3每次選取最佳特徵來分割資料，這個最佳特徵的判斷原則是通過資訊增益來實現的。這種按某種特徵切分完資料集後，當前特徵在下次切分資料集時就不再起

【機器學習】決策樹（基於ID3,C4.5,CART分類迴歸樹演算法）—— python3 實現方案

內含3種演算法的核心部分. 沒有找到很好的測試資料. 但就理清演算法思路來說問題不大剪枝演算法目前只實現了CART迴歸樹的後剪枝. import numpy as np from collections import Counter from sklearn imp

機器學習演算法--CART分類迴歸樹

許多問題都是非線性的，用線性模型並不能很好的擬合數據，這種情況下可以使用樹迴歸來擬合數據。介紹CART, 樹剪枝，模型樹。 1.CART 傳統決策樹是一種貪心演算法，在給定時間內做出最佳選擇，不關心是否達到全域性最優。切分過於迅速，特徵一旦使用後面將不再使用。不能處理連續型特徵，

CART分類迴歸樹

這一篇主要是CART，有幾個重點的詞語先寫下來，重點哦：基尼指數(Gini index)、最小二乘迴歸樹(least squares regression tree) CART：classification and regression tree。分類迴歸樹。

CART分類迴歸樹-（python3）

一、樹迴歸 1、簡介假設X與Y分別是輸入和輸出向量，並且Y是連續變數，給定訓練資料集考慮如何生成迴歸樹。一個迴歸樹對應著輸入空間（即特徵空間）的一個劃分以及在劃分的但單元上的輸出值。

分類-迴歸樹模型（CART）在R語言中的實現

CART模型，即Classification And Regression Trees。它和一般迴歸分析類似，是用來對變數進行解釋和預測的工具，也是資料探勘中的一種常用演算法。如果因變數是連續資料，相對應的分析稱為迴歸樹，如果因變數是分類資料，則相應的分析稱為分

機器學習實戰（八）分類迴歸樹CART（Classification And Regression Tree）

目錄 0. 前言 1. 迴歸樹 2. 模型樹 3. 剪枝（pruning） 3.1. 預剪枝 3.2. 後剪枝 4. 實戰案例 4.1. 迴歸樹 4.2. 模型樹

【機器學習筆記27】CART演算法-迴歸樹和分類樹

基本概念分類和迴歸樹(classification and regression tree, CART) 是應用廣泛的決策樹學習方法，由特徵選擇、樹的生成和剪枝組成，既可以用做分類也可以用作迴歸。迴歸樹迴歸樹的定義假設X和Y分別作為輸入和輸出變數，那麼

機器學習之分類迴歸樹CART

CART：Classification and regression tree，分類與迴歸樹。（是二叉樹） CART是決策樹的一種，主要由特徵選擇，樹的生成和剪枝三部分組成。它主要用來處理分類和迴歸問題，下面對分別對其進行介紹。 1、迴歸樹：使用平方誤差最小準則

【機器學習】CART分類決策樹+程式碼實現

1. 基礎知識 CART作為二叉決策樹，既可以分類，也可以迴歸。分類時：基尼指數最小化。迴歸時：平方誤差最小化。資料型別：標值型，連續型。連續型分類時採取“二分法”，取中間值進行左右子樹的劃分。 2. CART分類樹特徵A有N個取值，將每個取值作為分界點，將資料

最小二乘迴歸樹Python實現——統計學習方法第五章課後題

李航博士《統計學習方法》第五章第二題，試用平方誤差準則生成一個二叉迴歸樹。輸入資料為： x 0 1 2 3

經典演算法詳解--CART分類決策樹、迴歸樹和模型樹

Classification And Regression Tree(CART)是一種很重要的機器學習演算法，既可以用於建立分類樹（Classification Tree），也可以用於建立迴歸樹（Regression Tree），本文介紹了CART用於離散標籤分

分類迴歸樹CART(上)

分類迴歸樹(CART,Classification And Regression Tree)也屬於一種決策樹，上回文我們介紹了基於ID3演算法的決策樹。作為上篇，這裡只介紹CART是怎樣用於分類的。分類迴歸樹是一棵二叉樹，且每個非葉子節點都有兩個孩子，所以對於第一棵子

分類迴歸樹CART（最容易懂得文章）

原文地址：http://www.cnblogs.com/zhangchaoyang作者:Orisun 作者下還有很多優秀的部落格，分類迴歸樹CART 分類迴歸樹(CART,Classification And Regression Tree)也屬於一種決策樹，

簡單易學的機器學習演算法——分類迴歸樹CART

引言分類迴歸樹（Classification and Regression Tree，CART）是一種典型的決策樹演算法，CART演算法不僅可以應用於分類問題，而且可以用於迴歸問題。一、樹迴歸的

常用的幾種機器學習演算法迴歸模型python程式碼實現

由於在論文實驗過程中一直使用的是python語言完成的論文實驗，所以在論文需要使用機器學習方法時就考慮使用了scikit-learn。 scikit-learn是一款很好的Python機器學習庫，它包含以下的特點：（1）簡單高效的資

機器學習：線性迴歸與Python程式碼實現

前言：本篇博文主要介紹線性迴歸模型（linear regression），首先介紹相關的基礎概念和原理，然後通過Python程式碼實現線性迴歸模型。特別強調，其中大多理論知識來源於《統計學習方法_李航》和斯坦福課程翻譯筆記以及Coursera機器學習課程。 1.線性迴歸

【NLP】CNN文字分類原理及python程式碼實現

CNN分類模型架構 python程式碼實現： #!/usr/bin/python # -*- coding: utf-8 -*- import tensorflow as tf class TCNNConfig(object): #class TCNNConfig(

MachineLearning—CART分類迴歸樹python應用實現

相關推薦