決策樹ID3原理及R語言python程式碼實現（西瓜書）

摘要：

決策樹是機器學習中一種非常常見的分類與迴歸方法，可以認為是if-else結構的規則。分類決策樹是由節點和有向邊組成的樹形結構，節點表示特徵或者屬性，
而邊表示的是屬性值，邊指向的葉節點為對應的分類。在對樣本的分類過程中，由頂向下，根據特徵或屬性值選擇分支，遞迴遍歷直到葉節點，將例項分到葉節點對應的類別中。
決策樹的學習過程就是構造出一個能正取分類（或者誤差最小）訓練資料集的且有較好泛化能力的樹，核心是如何選擇特徵或屬性作為節點，
通常的演算法是利用啟發式的演算法如ID3，C4.5，CART等遞迴的選擇最優特徵。選擇一個最優特徵，然後按照此特徵將資料集分割成多個子集，子集再選擇最優特徵，

直到所有訓練資料都被正取分類，這就構造出了決策樹。決策樹有如下特點：

原理簡單, 計算高效；使用基於資訊熵相關的理論劃分最優特徵，原理清晰，計算效率高。
解釋性強；決策樹的屬性結構以及if-else的判斷邏輯，非常符合人的決策思維，使用訓練資料集構造出一個決策樹後，視覺化決策樹，
可以非常直觀的理解決策樹的判斷邏輯，可讀性強。
效果好，應用廣泛;其擬合效果一般很好，分類速度快，但也容易過擬合，決策樹擁有非常廣泛的應用。

本文主要介紹基於ID3的演算法構造決策樹。

決策樹原理

訓練資料集有多個特徵，如何遞迴選擇最優特徵呢？資訊熵增益提供了一個非常好的也非常符合人們日常邏輯的判斷準則，即資訊熵增益最大的特徵為最優特徵。在資訊理論中，熵是用來度量隨機變數不確定性的量綱，熵越大，不確定性越大。熵定義如下:

此處log一般是以2為底，假設一個產品成品率為100%次品率為0%那麼熵就為0，如果是成品率次品率各為50%，那麼熵就為1，熵越大，說明不確定性越高，非常符合我們人類的思維邏輯。假設分類標記為隨機變數Y，那麼H(Y)表示隨機變數Y的不確定性，我們依次選擇可選特徵，如果選擇一個特徵後，隨機變數Y的熵減少的最多，表示得知特徵X後，使得類Y不確定性減少最多，那麼就把此特徵選為最優特徵。資訊熵增益的公式如下：

ID3演算法

決策樹基於資訊熵增益的ID3演算法步驟如下：

如果資料集類別只有一類，選擇這個類別作為，標記為葉節點。
從資料集的所有特徵中，選擇資訊熵增益最大的作為節點，特徵的屬性分別作為節點的邊。

選擇最優特徵後，按照對應的屬性，將資料集分成多個，依次將子資料集從第1步遞迴進行構造子樹。

python實現

#encoding:utf-8

import pandas as pd
import numpy  as np

class DecisionTree:
    def __init__(self):
        self.model = None
    def calEntropy(self, y): # 計算熵
        valRate = y.value_counts().apply(lambda x : x / y.size) # 頻次彙總 得到各個特徵對應的概率
        valEntropy = np.inner(valRate, np.log2(valRate)) * -1
        return valEntropy

    def fit(self, xTrain, yTrain = pd.Series()):
        if yTrain.size == 0:#如果不傳，自動選擇最後一列作為分類標籤
            yTrain = xTrain.iloc[:,-1]
            xTrain = xTrain.iloc[:,:len(xTrain.columns)-1]
        self.model = self.buildDecisionTree(xTrain, yTrain) 
        return self.model
    def buildDecisionTree(self, xTrain, yTrain):
        propNamesAll = xTrain.columns
        #print(propNamesAll)
        yTrainCounts = yTrain.value_counts()
        if yTrainCounts.size == 1:
            #print('only one class', yTrainCounts.index[0])
            return yTrainCounts.index[0]
        entropyD = self.calEntropy(yTrain)

        maxGain = None
        maxEntropyPropName = None
        for propName in propNamesAll:
            propDatas = xTrain[propName]
            propClassSummary = propDatas.value_counts().apply(lambda x : x / propDatas.size)# 頻次彙總 得到各個特徵對應的概率

            sumEntropyByProp = 0
            for propClass, dvRate in propClassSummary.items():
                yDataByPropClass = yTrain[xTrain[propName] == propClass]
                entropyDv = self.calEntropy(yDataByPropClass)
                sumEntropyByProp += entropyDv * dvRate
            gainEach = entropyD - sumEntropyByProp
            if maxGain == None or gainEach > maxGain:
                maxGain = gainEach
                maxEntropyPropName = propName
        #print('select prop:', maxEntropyPropName, maxGain)
        propDatas = xTrain[maxEntropyPropName]
        propClassSummary = propDatas.value_counts().apply(lambda x : x / propDatas.size)# 頻次彙總 得到各個特徵對應的概率
        
        retClassByProp = {}
        for propClass, dvRate in propClassSummary.items():
            whichIndex = xTrain[maxEntropyPropName] == propClass
            if whichIndex.size == 0:
                continue
            xDataByPropClass = xTrain[whichIndex]
            yDataByPropClass = yTrain[whichIndex]
            del xDataByPropClass[maxEntropyPropName]#刪除已經選擇的屬性列
            
            #print(propClass)
            #print(pd.concat([xDataByPropClass, yDataByPropClass], axis=1))
            
            retClassByProp[propClass] = self.buildDecisionTree(xDataByPropClass, yDataByPropClass)
        
        return {'Node':maxEntropyPropName, 'Edge':retClassByProp}
    def predictBySeries(self, modelNode, data):
        if not isinstance(modelNode, dict):
            return modelNode
        nodePropName = modelNode['Node']
        prpVal = data.get(nodePropName)
        for edge, nextNode in modelNode['Edge'].items():
            if prpVal == edge:
                return self.predictBySeries(nextNode, data)
        return None
    def predict(self, data):
        if isinstance(data, pd.Series):
            return self.predictBySeries(self.model, data)
        return data.apply(lambda d: self.predictBySeries(self.model, d), axis=1)

dataTrain = pd.read_csv("xiguadata.csv", encoding = "gbk")

decisionTree = DecisionTree()
treeData = decisionTree.fit(dataTrain)
print(pd.DataFrame({'預測值':decisionTree.predict(dataTrain), '正取值':dataTrain.iloc[:,-1]}))

import json
print(json.dumps(treeData, ensure_ascii=False))

訓練結束後，使用一個遞迴的字典儲存決策樹模型，使用格式json工具格式化輸出後，可以簡潔的看到樹的結構。

R語言實現



dataTrain <- read.csv("xiguadata.csv", header = TRUE)

trainDecisionTree <- function(dataTrain){
    calEntropy <- function(y){ # 計算熵

        values <- table(unlist(y)); # 頻次彙總 得到各個特徵對應的概率

        valuesRate <- values / sum(values); 

        logVal = log2(valuesRate);# log2(0) == infinite
        logVal[is.infinite(logVal)]=0;
        
        valuesEntropy <- -1 * t(valuesRate) %*% logVal;
        if (is.nan(valuesEntropy)){
            valuesEntropy = 0;
        }
        return(valuesEntropy);
    }

    propNamesAll <- names(dataTrain)
    propNamesAll <- propNamesAll[length(propNamesAll) * - 1]
    print(propNamesAll)
    buildDecisionTree <- function(propNames, dataSet){
        
        
        classColumn = dataSet[, length(dataSet)]#最後一列是類別標籤

        classSummary <- table(unlist(classColumn))# 頻次彙總

        defaultRet = c(propNames[1], names(classSummary)[which.max(classSummary)]);
        if (length(classSummary) == 1){#如果所有的都是同一類別，那麼標記為葉節點
            return(defaultRet);
        }
        if (length(propNames) == 1){#如果只剩一種屬性了，那麼返回樣本數量最多的類別作為節點
            return(defaultRet);
        }
        entropyD <- calEntropy(classColumn)
        propGains = sapply(propNames, function(propName){ # propName 對應的是"色澤" "根蒂" "敲聲" "紋理" "臍部" "觸感"
            propDatas <- dataSet[c(propName)]

            propClassSummary <- table(unlist(propDatas))# 頻次彙總
            
            retGain <- sapply(names(propClassSummary), function(propClass){# propClass 對應色澤的種類 如 淺白 青綠 烏黑
                dataByPropClass <- subset(dataSet, dataSet[c(propName)] == propClass); #篩選出色澤等於 種類 propClass 的資料集
                entropyDv <- calEntropy(dataByPropClass[, length(dataByPropClass)]) #最後一列是標記是否為好瓜
                Dv = propClassSummary[c(propClass)][1]
                return(entropyDv * Dv);# 這裡沒有直接除|D|,最後累加後再除，等價的
            });
            
            return(entropyD - sum(retGain)/sum(propClassSummary));
        });
        #print(propGains);
        maxEntropyProp = propGains[which.max(propGains)];#選擇資訊熵增益最大的屬性
        propName = names(maxEntropyProp)[1]
        #print(propName)
        propDatas <- dataSet[c(propName)]

        propClassSummary <- table(unlist(propDatas))# 頻次彙總

        propClassSummary <- propClassSummary[which(propClassSummary > 0)]
        propClassNames <- names(propClassSummary)

        #propClassNames = c(propClassNames[1])
        retGain <- sapply(propClassNames, function(propClass){# propClass 對應色澤的種類 如 淺白 青綠 烏黑
            
            dataByPropClass <- subset(dataSet, dataSet[c(propName)] == propClass); #篩選出色澤等於 種類 propClass 的資料集
            leftClassNames = propNames[which(propNames==propName) * -1] #去掉這個屬性，遞迴構造決策樹
            ret = buildDecisionTree(leftClassNames, dataByPropClass);
            return(ret);
        });
        #names(retGain) = propClassNames
        retList = retGain
        #retList = list()
        #for (propClass in propClassNames){
        #    retList[propClass] = retGain[propClass]
        #}
        #print(retList)

        #索引1表示選擇的屬性名稱 索引2對應的類別，如果有子樹那麼就是frame，否則就是類別
        ret  = list(propName, retList)
        #ret = data.frame(c(retList))
        #names(ret) = c(propName)
        return(ret);
    }
    retProp = buildDecisionTree(propNamesAll, dataTrain);
    return(retProp);
}
decisionTree = trainDecisionTree(dataTrain)
#print(decisionTree)


library("rpart")
library("rpart.plot")
dataTrain <- read.csv("xiguadata.csv", header = TRUE)
print(dataTrain)
fit <- rpart(HaoGua~.,data=dataTrain,control = rpart.control(minsplit = 1, minbucket = 1),method="class")
printcp(fit)

rpart.plot(fit, branch = 1, branch.type = 1, type = 2, extra = 102,shadow.col='gray', box.col='green',border.col='blue', split.col='red',main="DecisionTree")

#library(jsonlite)
#dataJson = toJSON(decisionTree)
#c <- file( "result.txt", "w" )
#writeLines(dataJson, c )
#close( c )   #這裡需要主動關閉檔案

#for (k in propNames) {
#    eachData <- dataSet[c(k)]
#    values <- table(unlist(eachData))# 頻次彙總
#    #print(values)
#    print(k)
#    total <- 0
#    for (m in names(values)) {
#        #print(m)
#        #print(values[m][1])
#        data3 <- subset(dataSet, dataSet[c(k)] == m)
#        entropyDv <- calEntropy(data3[, length(data3)])
#        #print(entropyDv)
#        total = total + entropyDv*values[c(m)][1]
#    }
#    GainDv <- entropyD - total /  sum(values);+
#    print(GainDv)
#}

R語言程式碼包含本人自己編寫的R語言ID3演算法，最後使用R的rpart包訓練了一個決策樹。

總結：

ID3演算法簡潔清晰，符合人類思路方式。
決策樹的解釋性強，視覺化後也方便理解模型和驗證正確性。
ID3演算法時候標籤類特徵的樣本，對應具有連續型數值的特徵，無法執行此演算法。
有過擬合的風險，要通過剪枝來避免過擬合。
資訊增益有時候偏愛屬性很多的特徵，C4.5和CART演算法可以對此有優化。
這是我的github主頁https://github.com/fanchy，有些有意思的分享。
python相比R語言寫起來還是溜多了，主要是遍歷和巢狀，python比R要容易很多，R的資料篩選和選擇方便一點，這個python版本的id3演算法寫的還是很清晰簡潔的正是Talk is cheap. Show me the code。這是在網上可以看到原生實現版本中，最精簡的版本之一。

對應的西瓜書資料集為

色澤  根蒂  敲聲  紋理  臍部  觸感  HaoGua
青綠  蜷縮  濁響  清晰  凹陷  硬滑  是
烏黑  蜷縮  沉悶  清晰  凹陷  硬滑  是
烏黑  蜷縮  濁響  清晰  凹陷  硬滑  是
青綠  蜷縮  沉悶  清晰  凹陷  硬滑  是
淺白  蜷縮  濁響  清晰  凹陷  硬滑  是
青綠  稍蜷  濁響  清晰  稍凹  軟粘  是
烏黑  稍蜷  濁響  稍糊  稍凹  軟粘  是
烏黑  稍蜷  濁響  清晰  稍凹  硬滑  是
烏黑  稍蜷  沉悶  稍糊  稍凹  硬滑  否
青綠  硬挺  清脆  清晰  平坦  軟粘  否
淺白  硬挺  清脆  模糊  平坦  硬滑  否
淺白  蜷縮  濁響  模糊  平坦  軟粘  否
青綠  稍蜷  濁響  稍糊  凹陷  硬滑  否
淺白  稍蜷  沉悶  稍糊  凹陷  硬滑  否
烏黑  稍蜷  濁響  清晰  稍凹  軟粘  否
淺白  蜷縮  濁響  模糊  平坦  硬滑  否
青綠  蜷縮  沉悶  稍糊  稍凹  硬滑  否 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    決策樹ID3原理及R語言python程式碼實現（西瓜書）
      決策樹ID3原理及R語言python程式碼實現（西瓜書）
摘要：
決策樹是機器學習中一種非常常見的分類與迴歸方法，可以認為是if-else結構的規則。分類決策樹是由節點和有向邊組成的樹形結構，節點表示特徵或者屬性，
而邊表示的是屬性值，邊指向的葉節點為對應的分類。在對樣本的分類過程中，由頂向下，根據特徵或屬性 

  
 

    

    
    樸素貝葉斯python程式碼實現（西瓜書）
      樸素貝葉斯python程式碼實現（西瓜書）
摘要：
樸素貝葉斯也是機器學習中一種非常常見的分類方法，對於二分類問題，並且資料集特徵為離散型屬性的時候，
使用起來非常的方便。原理簡單，訓練效率高，擬合效果好。
樸素貝葉斯
貝葉斯公式：
 
樸素貝葉斯之所以稱這為樸素，是因為假設了各個特徵是相互獨立的，因此假定下 

  
 

    

    
    機器學習演算法（二）——決策樹分類演算法及R語言實現方法
      
                
決策樹演算法是分類演算法中最常用的演算法之一。決策樹是一種類似流程圖的樹形結構，可以處理高維資料，直觀易理解，且準確率較高，因此應用廣泛。本篇小博就決策樹的若干演算法：ID3演算法、C4.5演算法以及分類迴歸樹（CART）、C5.0進行對比介紹，並對比C4.5與C5.0處理 

  
 

    

    
    樹的三種遍歷方法程式碼實現 （資料結構）C語言
       
 
 
 樹的三種遍歷方法：前序，中序和後序及其程式碼實現。 
   
  
  在此分別總結先序，中序，後序的結點輸出順序。 
    先序： 1.訪問根結點 
  　　　　2.訪問左子樹 
  　　　　3.訪問右子樹 
   中序：1.訪問左子樹 
  　　　  2.訪問 

  
 

    

    
    決策樹演算法原理及JAVA實現(ID3)
      package sequence.machinelearning.decisiontree.myid3;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.FileWri 

  
 

    

    
    ID3決策樹演算法原理及C++實現(其中程式碼轉自別人的部落格)
      
                
分類是資料探勘中十分重要的組成部分.
分類作為一種無監督學習方式被廣泛的使用.


之前關於"資料探勘中十大經典演算法"中,基於ID3核心思想的分類演算法
C4.5榜上有名.所以不難看出ID3在資料分類中是多麼的重要了.


ID3又稱為決策樹演算法,雖然現在廣義的決策樹演 

  
 

    

    
    決策樹演算法原理及實現
      
							
							
							歡迎大家檢視實現的完整程式碼。。。



決策樹模型

分類決策樹模型是一種描述對例項進行分類的樹形結構。決策樹由結點和有向邊組成。結點有兩種型別：內部節點和葉節點，內部節點表示一個特徵或屬性，葉節點表示一個分類類別。 
分類的時候，從根節點開始，按照某種策略對 

  
 

    

    
    寫程式學ML：決策樹演算法原理及實現（四）
      
                
[題外話]近期申請了一個微信公眾號：平凡程式人生。有興趣的朋友可以關注，那裡將會涉及更多更新機器學習、OpenCL+OpenCV以及影象處理方面的文章。

2.3   決策樹的測試
書中使用隱形眼鏡資料集對決策樹進行了測試。
建立測試檔案contactLenses4Deci 

  
 

    

    
    機器學習（西瓜書）學習筆記（三）---------決策樹
       
 
 1、基本流程 
       決策樹通常從一個最基本的問題出發，通過這個判定問題來對某個“屬性”進行“測試”，根據測試的結果來決定匯出結論還是匯出進一步的判定問題，當然，這個判定範圍是在上次決策結果的限定範圍之內的。 
       出發點 

  
 

    

    
    最詳細的基於R語言的Logistic Regression（Logistic迴歸）原始碼，包括擬合優度，Recall，Precision的計算
      
                

這篇日誌也確實是有感而發，我對R不熟悉，但實驗需要，所以簡單學了一下。發現無論是網上無數的教程，還是書本上的示例，在講Logistic Regression的時候就是給一個簡單的函式及輸出結果說明。從來都沒有講清楚幾件事情：

1. 怎樣用訓練資料訓練模型，然後在測試資料 

  
 

    

    
    邏輯迴歸原理介紹與案例python程式碼實現
      
                邏輯迴歸是用於分類的演算法。平常的線性迴歸方程為f(x)=wx+b，此時f(x)的取值可以是任意的，要讓預測的值可以分類，例如分類到class1是預測值為1，分類到class2時預測值為0。這時我們就要用到分類函式。下面來介紹一個分類函式sigmoid：其中z=wx+bf（z 

  
 

    

    
    大數加法------C語言程式碼實現（含負數）
       
 
 兩個符號相同的數，直接相加即可，所得結果符號不變；兩數符號不同時，需要對兩數的絕對值進行比較，結果的符號同絕對值較大者，值為較大者減去較小者。 
   
 以下是正確C語言原始碼： 
   
 #include<cstdio>
#include<cstring& 

  
 

    

    
    皮爾遜相關係數 定義+python程式碼實現 （與王印討論公式）
      
    作者簡介
    
        
南京大學，簡稱南大，[1] 是一所源遠流長的高等學府。追溯學脈古為源自孫吳永安元年的南京太學，歷經多次變遷，1949年“國立中央大學”易名“國立南京大學”，翌年徑稱“南京大學”，沿用至今。南京大學是教育部與江蘇省共建的全國重點大學，國家首批“211工程”、“9 

  
 

    

    
    主成分降維python程式碼實現（承接上一篇）
       
 
 # coding=utf-8
import pandas as pd
import numpy as np
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
data = pd 

  
 

    

    
    線性表、堆疊、佇列的特點，及程式碼實現（C語音）
      
                一、線性表： 線性表定義：線性表是n個數據元素的有限序列線性表有多種實現方式，線性、鏈式等，其中線性實現採用隨機儲存的方式：（線性）（鏈式）具體的說明大家可以看書對吧，這裡直接貼出實現C語言程式碼（下面是鏈式儲存實現）：#include<stdio.h>
#inc 

  
 

    

    
    Python程式碼實戰（初級篇）————3、企業獎金髮放
      
                題目要求：企業發放的獎金根據利潤提成。利潤(I)低於或等於10萬元時，獎金可提10%；利潤高於10萬元，低於20萬元時，低於10萬元的部分按10%提成，高於10萬元的部分，可提成7.5%；20萬到40萬之間時，高於20萬元的部分，可提成5%；40萬到60萬之間時高於40萬元的 

  
 

    

    
    邏輯式程式語言極簡實現（使用C#） - 1. 邏輯式程式語言介紹
      相信很多朋友對於邏輯式程式語言，都有一種最熟悉的陌生人的感覺。一方面，平時在書籍、在資訊網站，偶爾能看到一些吹噓邏輯式程式設計的話語。但另一方面，也沒見過周圍有人真正用到它（除了SQL）。

遙記當時看《The Reasoned Schemer》（一本講邏輯式程式語言的小人書），被最後兩頁的直譯器實現驚豔到了 

  
 

    

    
    邏輯式程式語言極簡實現（使用C#） - 2. 一道邏輯題：誰是凶手
      本系列前面的文章：

* [邏輯式程式語言極簡實現（使用C#） - 1. 邏輯式程式語言介紹](https://www.cnblogs.com/skabyy/p/13199800.html)

這是一道Prolog經典的練習題，中文翻譯版來自阮一峰的文章[《Prolog 語言入門教程》](https://ww 

  
 

    

    
    邏輯式程式語言極簡實現（使用C#） - 4. 程式碼實現（完結）
      本文是本系列的完結篇。本系列前面的文章：

* [邏輯式程式語言極簡實現（使用C#） - 1. 邏輯式程式語言介紹](https://www.cnblogs.com/skabyy/p/13199800.html)
* [邏輯式程式語言極簡實現（使用C#） - 2. 一道邏輯題：誰是凶手](https://ww 

  
 

    

    
    決策樹ID3;C4.5詳解和python實現與R語言實現比較
      
                
本文網址：http://blog.csdn.net/crystal_tyan/article/details/42130851（請不要在採集站閱讀）
把決策樹研究一下，找來了一些自己覺得還可以的資料：


分類樹（決策樹）是一種十分常用的分類方法。他是一種監管學習，所謂監管

決策樹ID3原理及R語言python程式碼實現（西瓜書）

決策樹ID3原理及R語言python程式碼實現（西瓜書）

摘要：

決策樹原理

ID3演算法

python實現

R語言實現

總結：

對應的西瓜書資料集為

決策樹ID3原理及R語言python程式碼實現（西瓜書）

樸素貝葉斯python程式碼實現（西瓜書）

機器學習演算法（二）——決策樹分類演算法及R語言實現方法

樹的三種遍歷方法程式碼實現（資料結構）C語言

決策樹演算法原理及JAVA實現(ID3)

ID3決策樹演算法原理及C++實現(其中程式碼轉自別人的部落格)

決策樹演算法原理及實現

寫程式學ML：決策樹演算法原理及實現（四）

機器學習（西瓜書）學習筆記（三）---------決策樹

最詳細的基於R語言的Logistic Regression（Logistic迴歸）原始碼，包括擬合優度，Recall，Precision的計算

邏輯迴歸原理介紹與案例python程式碼實現

大數加法------C語言程式碼實現（含負數）

皮爾遜相關係數定義+python程式碼實現（與王印討論公式）

主成分降維python程式碼實現（承接上一篇）

線性表、堆疊、佇列的特點，及程式碼實現（C語音）

Python程式碼實戰（初級篇）————3、企業獎金髮放

邏輯式程式語言極簡實現（使用C#） - 1. 邏輯式程式語言介紹

邏輯式程式語言極簡實現（使用C#） - 2. 一道邏輯題：誰是凶手

邏輯式程式語言極簡實現（使用C#） - 4. 程式碼實現（完結）

決策樹ID3;C4.5詳解和python實現與R語言實現比較