決策樹學習 -- ID3演算法和C4.5演算法（C++實現）

阿新 • • 發佈：2019-02-08

前言

在學習西瓜書的時候，由於書本講的大多是概念，所以打算用C++實現它的演算法部分（至於python和matlab實現，實現簡單了很多，可以自己基於C++程式碼實現）。至於測試資料，採用了書中關於西瓜的資料集。

什麼是決策樹

首先，決策樹（也叫做分類樹或迴歸樹）是一個十分常用的分類方法，在機器學習中它屬於監督學習的範疇。由於決策樹是基於樹結構來決策的，所以學習過資料結構的人，相對來說會比較好理解。

一般的，一顆決策樹包含一個根結點，若干個內部結點和若干個葉結點；葉子結點對應於決策結果，其他每個結點則對應一個屬性測試；每個結點包含的樣本集合根據屬性測試的結果被劃分到子結點中；根節點包含樣本全集。從根結點到每個葉結點的路徑對應了一個判定測試序列。決策樹學習的目的是為了產生一顆泛化能力強，即處理未見示例能力強的決策樹，其基本流程遵循簡單且直觀的“分而治之”策略。（《機器學習（周志華）》）

例如：書中的關於西瓜問題的一顆決策樹

西瓜決策樹

從這個圖可以看出，色澤青綠，根蒂蜷縮，敲聲濁響的西瓜為好瓜

關鍵在於哪裡？

隨著劃分過程不斷進行，我們希望決策樹的分支結點所包含的樣本儘可能屬於同一類別，即結點的“純度”越來越高。這句話的意思是說，在樹的相同層裡，要麼好瓜這一類別越多越好，要麼壞瓜這一類別越多越好。

例如上圖中，西瓜根蒂的分類有：蜷縮，稍蜷和硬挺。

這裡可以打一個比方：足球比賽中，一般會把多個球隊分在同一個小組，如果一個小組中的各支球隊實力都相當，那麼小組出線的可能性就難於預測，如果各個球隊的實力差距相當懸殊，那麼實力較強的球隊出線的可能性會相當大。

同樣的道理我們希望每一個分支下面的類別（即好瓜和壞瓜）儘可能屬於同一類別，如果同一類別更多，換句話說就是該類別實力比較強，依據該屬性（根蒂）

分類得出的結果也就更加可靠（明確）。

基本概念

資訊熵(information entropy)

在資訊理論與概率統計中，熵是表示隨機變數不確定性的度量，熵越大，隨機變數的不確定性就越大。資訊熵是度量樣本集合“純度”最常用的一種指標。假定當前樣本集合D中第k類樣本所佔比例為

pk(k=1，2，...，|γ|)，則D的資訊熵的定義為 Ent(D)=−∑k=1|γ|pk∗log2(pk)

注意：

pk<1 −log2(pk)>0

由

y=−pk∗log2(pk) 影象可以知道

函式一

當超過0.4的時候，隨著

pk的增大，y的值越小

結論：Ent(D)的值越小，則D的純度越高

。

資訊增益(information gain)

資訊增益表示得到特徵X的資訊而使得類Y的資訊的不確定性減少的程度。假定離散屬性a有V個可能值

a1,a2,...,aV，若使用a來對樣本集D進行劃分，則會產生V個分支結點，其中第v個分支結點包含了D中所有在屬性a上取值為av的樣本，記為Dv。其中由於不同的分支結點所包含的樣本數不同，所以|Dv||D|表示分支的權重，即樣本數越多的分支結點的影響越大。

資訊增益

於是可計算出用屬性a對樣本集D進行劃分所獲得的“資訊增益”

Gain(D,a)=Ent(D)−∑v=1V|Dv||D|Ent(D)

一般而言，資訊增益越大，則意味著使用屬性a來劃分所獲得的“純度提升”越大。著名的ID3決策樹學習演算法就是更具資訊增益為準則來選擇劃分屬性的。

由於資訊增益準則對對可取值數目較多的屬性有所偏好，為減少這種偏好可能帶來的不利影響著名的C4.5決策樹演算法不直接使用資訊增益，而是使用“增益率”來選擇最優劃分屬性。

增益率(gain ratio)

Gainratio(D,a)=Gain(D,a)IV(a)

其中

IV(a)=−∑v=1V|Dv||D|∗log2(|Dv||D|)

“IV(a)”稱為屬性a的“固有值”，屬性a的可能性數目越多(即V越大)，則IV(a)的值通常會越大。

需要注意的是，增益率準則對可能取值數目較少的屬性有所偏愛，因此，C4.5演算法並不是直接選擇增益率最大的候選劃分屬性，而是使用了一個啟發式：先從候選劃分屬性中找出資訊增益高於平均水平的屬性，再從中選擇增益率最高的。

資料集

編號	色澤	根蒂	敲聲	紋理	臍部	觸感	好瓜
1	青綠	蜷縮	濁響	清晰	凹陷	硬滑	是
2	烏黑	蜷縮	沉悶	清晰	凹陷	硬滑	是
3	烏黑	蜷縮	濁響	清晰	凹陷	硬滑	是
4	青綠	蜷縮	沉悶	清晰	凹陷	硬滑	是
5	淺白	蜷縮	濁響	清晰	凹陷	硬滑	是
6	青綠	稍蜷	濁響	清晰	稍凹	軟粘	是
7	烏黑	稍蜷	濁響	清糊	稍凹	軟粘	是
8	烏黑	稍蜷	濁響	清晰	稍凹	硬滑	是
9	烏黑	稍蜷	沉悶	清糊	稍凹	硬滑	否
10	青綠	硬挺	清脆	清晰	平坦	軟粘	否
11	淺白	硬挺	清脆	模糊	平坦	硬滑	否
12	淺白	蜷縮	濁響	模糊	平坦	軟粘	否
13	青綠	稍蜷	濁響	稍糊	凹陷	硬滑	否
14	淺白	稍蜷	沉悶	稍糊	凹陷	硬滑	否
15	烏黑	稍蜷	濁響	清晰	稍凹	軟粘	否
16	淺白	蜷縮	濁響	模糊	平坦	硬滑	否
17	青綠	蜷縮	沉悶	稍糊	稍凹	硬滑	否

有興趣的話可以自己算下上面給的公式，這裡直接套用書的算式。

利用該資料預測是不是好瓜，顯然

|γ|=2，其中正例佔p1=817，反例佔p2=917

所以：

Ent(D)=−∑k=1|2|pk∗log2(pk)=−(817∗log2(817)+917∗log2(917))=0.998

ID3演算法

基於資訊增益生成的決策樹圖

ID3決策樹

虛擬碼：

這裡直接使用了書上的：

輸入：訓練集 D = {(x1, y1), (x2, y2), ... , (xm, ym)}
          屬性集 A = {a1, a2, ... , ad}.

過程：函式 TreeGenerate(D, A)
                生成結點node;
                if D中樣本全屬於同一類別C then
                    將node標記為C類葉結點; return
                end if
                if A == ∅ （OR D中樣本在A上取值相同） then
                    將node標記為葉結點，其類別標記為D中樣本數最多的類; return
                end if
                從A中選擇最優劃分屬性a*;
                for a* 的每一個值 a*_v do
                    為node生成一個分支;令Dv表示D中在a*上取值為a*_v的樣本子集;
                    if Dv 為空 then
                        將分支結點標

 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    決策樹學習 -- ID3演算法和C4.5演算法（C++實現）
      
							
							
							前言

在學習西瓜書的時候，由於書本講的大多是概念，所以打算用C++實現它的演算法部分（至於python和matlab實現，實現簡單了很多，可以自己基於C++程式碼實現）。至於測試資料，採用了書中關於西瓜的資料集。



什麼是決策樹

首先，決策樹（也叫做分類 

  
 

    

    
    決策樹ID3演算法和C4.5演算法實戰
       
 
 
 老師給的題目： 
  
 程式碼實現【兩種演算法合在一個檔案裡】：  
 from numpy import *

def createDataSet():
    dataSet = [[1, 1, 1, 0, 'no'],
               [1, 1, 1, 1, ' 

  
 

    

    
    貝爾曼-福特（Bellman-Ford）演算法——解決負權邊（C++實現）
       
 
 Dijkstra演算法雖然好，但是它不能解決帶有負權邊（邊的權值為負數）的圖。 
 接下來學習一種無論在思想上還是在程式碼實現上都可以稱為完美的最短路徑演算法：Bellman-Ford演算法。 
 Bellman-Ford演算法非常簡單，核心程式碼四行，可以完美的解決帶有負權邊的圖。 
 for(k 

  
 

    

    
    樹中兩結點的最低公共祖先（C++實現）
      
							
							
							
  題目是，輸入兩個樹結點，求它們的最低公共祖先


首先，要說明的是，這是一組題目，根據劍指Offer上所講的，這道題可能會分好幾種情況，因此，如果在面試時候遇到，我們需要和麵試官溝通，而不是一上來就寫程式碼。



1. 如果給定樹是二叉搜尋樹



二叉 

  
 

    

    
    演算法設計之計數排序 （C++實現）
      
                
之前的文章介紹的一些排序演算法有一個共同特點，它們都是基於比較的。這些演算法都有的一個性質就是：在排序的最終結果中，各元素的次序依賴於它們之間的比較。對包含n個元素的輸入序列來說，任何比較排序在最好情況下都要經過nlgn次比較。因此，歸併排序和堆排序是漸進最優的，任何已知的 

  
 

    

    
    【轉】深入淺出理解決策樹演算法（二）-ID3演算法與C4.5演算法
       
 
 從深入淺出理解決策樹演算法（一）-核心思想 - 知乎專欄文章中，我們已經知道了決策樹最基本也是最核心的思想。那就是其實決策樹就是可以看做一個if-then規則的集合。我們從決策樹的根結點到每一個都葉結點構建一條規則。 
 並且我們將要預測的例項都可以被一條路徑或者一條規則所覆蓋。 
 如下例：假設我 

  
 

    

    
    weka使用ID3和C4.5演算法 分類實驗
      
							
							
							使用weka做分類任務並建立相應決策樹（ID3演算法和C4.5演算法）


weka安裝 
相關知識理論  
 2.1 決策樹  
 2.2 ID3演算法  
 2.3 C4.5演算法 
分類實驗  
 3.1 資料處理  
 3.2 使用ID3演算法  
 3 

  
 

    

    
    資料探勘領域十大經典演算法之—C4.5演算法（超詳細附程式碼）
      
							
							
							
資料探勘十大經典演算法如下：

簡介
C4.5是決策樹演算法的一種。決策樹演算法作為一種分類演算法，目標就是將具有p維特徵的n個樣本分到c個類別中去。常見的決策樹演算法有ID3,C4.5,CART。
基本思想
下面以一個例子來詳細說明C4.5的基本思想

上述 

  
 

    

    
    決策樹演算法——熵與資訊增益（Python3實現）
      
                1、熵、條件熵與資訊增益

（1）熵（entropy）





（2）條件熵（conditional entropy）







（3）資訊增益（information gain）





2、資訊增益演算法實現流程







2、資料集以及每個特徵資訊增益的計算 

  
 

    

    
    Java實現二叉樹的創建和遍歷操作（有更新）
      inf   pre   讓我   保存   number   定義   ++   錯誤   ole   
博主強烈建議跳過分割線前面的部分，直接看下文更新的那些即可。

最近在學習二叉樹的相關知識，一開始真的是毫無頭緒。本來學的是C++二叉樹，但苦於編譯器老是出故障，於是就轉用Java來實現二叉樹的操作。但是 

  
 

    

    
    for迴圈和遞迴演算法的執行效率比較（c語言）
      
                
實驗目的
在程式語言中，對比不同程式設計風格的程式碼寫法，或者通過使用不同的編譯器和編譯優化引數，通過編譯器生成彙編程式碼，靜態分析所生成彙編程式碼的執行效率。
實驗平臺、工具
在window 7平臺下，採用vc++ 6.0編譯器來編寫相應的C程式，然後通過UltraCom 

  
 

    

    
    apache2.2和tomcat5.5整合（絕對可行）
      
                Apache和Tomcat同是Apache基金會下面的兩個專案。一個是HTTP WEB伺服器，另一個是servlet容器（servlet container），最新的5.5.X系列實現Servlet 2.4/JSP 2.0Spec。在我們生產的環境中，往往需要Apache做前 

  
 

    

    
    SQLite學習筆記（十）-- 事務基本概念和程式碼實現（C++實現）
      
							
							
							1.事務基本概念


什麼是事務？ 
事務是使用者定義的一些列資料操作，這些操作是一個完整的不可分的工作單元。一個事務要麼全部執行，要麼全部不執行。
檢視案例 
例如銀行的轉賬操作，張三向李四轉賬1000元。該事務包含以下兩個操作： 
1.張三賬戶上扣除1000 

  
 

    

    
    SQLite學習筆記（三）-- 開啟和關閉資料庫（C++實現）
      
							
							
							1.Sqlite庫的使用

相對來說Sqlite庫的使用還是比較簡單的。只需要包含標頭檔案和庫檔案，同時將動態連結庫放在執行程式目錄下。



//sqlite3標頭檔案
#include "sqlite3.h"
//sqlite3庫檔案
#pragma com 

  
 

    

    
    LeetCode演算法題-Merge Sorted Array（Java實現）
      這是悅樂書的第161次更新，第163篇原創  
01 看題和準備 
今天介紹的是LeetCode演算法題中Easy級別的第20題（順位題號是88）。給定兩個排序的整數陣列nums1和nums2，將nums2中的元素合併到nums1中，並且作為一個排序的陣列。在nums1和nums2中初始化的元素個數分別為m和 

  
 

    

    
    二叉樹遍歷（C++實現）
       
 
 二叉樹3種深度優先遍歷（遞迴、非遞迴）、層次遍歷，最簡潔、最好記！ 
 #include<iostream>
#include<stack>
#include<queue>

using namespace std;
//節點定義
struct Node
{
	c 

  
 

    

    
    一分鐘學會讀csv檔案和寫csv檔案（python實現）
       
 
   
 import csv
with open('Python-Predict/Data/train.csv') as tra:
    rdr = csv.reader(tra)
    items = list(rdr)
print("rdr:",rdr)
print(items)
 

  
 

    

    
    資料結構——排序與查詢（5）——折半查詢（C++實現）法
       
 
  
  
 順序查詢 
 順序查詢，是一種最直觀的查詢方式。原理閒蕩簡單就是我們正常思維的查詢，從給定的序列出發，依次檢查序列中的每一個專案是否為我們給定的關鍵字。是則查詢成功，否則查詢失敗。 
 bool searchByOrder(vecter<int> vec){
	for(int 

  
 

    

    
    LeetCode演算法題-Balanced Binary Tree（Java實現）
       
 
  
  
 這是悅樂書的第167次更新，第169篇原創  
 01 看題和準備 
 今天介紹的是LeetCode演算法題中Easy級別的第26題（順位題號是110）。給定二叉樹，判斷它是否是高度平衡的。對於此問題，高度平衡二叉樹定義為：一個二叉樹，其中每個節點的兩個子樹的深度從不相差超過1。例如：  

  
 

    

    
    RSA加密演算法驗證（C#實現）
       
 

  RSA演算法簡單原理介紹（節選於網路） 
 假設Alice想要通過一個不可靠的媒體接收Bob的一條私人訊息。她可以用以下的方式來產生一個公鑰和一個私鑰： 
 
  隨意選擇兩個大的質數p和q，p不等於q，計算N=pq。 
  根據尤拉函式，求得r = (p-1)(q-1) 
  選擇一個小於 r

決策樹學習 -- ID3演算法和C4.5演算法（C++實現）

前言

什麼是決策樹

關鍵在於哪裡？

基本概念

資訊熵(information entropy)

資訊增益(information gain)

增益率(gain ratio)

資料集

ID3演算法

基於資訊增益生成的決策樹圖

虛擬碼：

決策樹學習 -- ID3演算法和C4.5演算法（C++實現）

決策樹ID3演算法和C4.5演算法實戰

貝爾曼-福特（Bellman-Ford）演算法——解決負權邊（C++實現）

樹中兩結點的最低公共祖先（C++實現）

演算法設計之計數排序（C++實現）

【轉】深入淺出理解決策樹演算法（二）-ID3演算法與C4.5演算法

weka使用ID3和C4.5演算法分類實驗

資料探勘領域十大經典演算法之—C4.5演算法（超詳細附程式碼）

決策樹演算法——熵與資訊增益（Python3實現）

Java實現二叉樹的創建和遍歷操作（有更新）

for迴圈和遞迴演算法的執行效率比較（c語言）

apache2.2和tomcat5.5整合（絕對可行）

SQLite學習筆記（十）-- 事務基本概念和程式碼實現（C++實現）

SQLite學習筆記（三）-- 開啟和關閉資料庫（C++實現）

LeetCode演算法題-Merge Sorted Array（Java實現）

二叉樹遍歷（C++實現）

一分鐘學會讀csv檔案和寫csv檔案（python實現）

資料結構——排序與查詢（5）——折半查詢（C++實現）法

LeetCode演算法題-Balanced Binary Tree（Java實現）

RSA加密演算法驗證（C#實現）