決策樹(上)-ID3、C4.5、CART

參考資料(要是對於本文的理解不夠透徹，必須將以下部落格認知閱讀，方可全面瞭解決策樹)：

1.https://zhuanlan.zhihu.com/p/85731206

2.https://zhuanlan.zhihu.com/p/29980400

3.https://github.com/Vay-keen/Machine-learning-learning-notes/blob/master/%E5%91%A8%E5%BF%97%E5%8D%8E%E3%80%8AMachine%20Learning%E3%80%8B%E5%AD%A6%E4%B9%A0%E7%AC%94%E8%AE%B0(5)--%E5%86%B3%E7%AD%96%E6%A0%91.md

決策樹是一個非常常見並且優秀的機器學習演算法，它易於理解、可解釋性強，其可作為分類演算法，也可用於迴歸模型。本文將分三篇介紹決策樹，第一篇介紹基本樹（包括 ID3、C4.5、CART），第二篇介紹 Random Forest、Adaboost、GBDT，第三篇介紹 Xgboost 和 LightGBM。

在進入正題之前，先讓我們瞭解一些有關資訊理論的知識！

資訊理論

1.資訊熵

在決策樹演算法中，熵是一個非常非常重要的概念。一件事發生的概率越小，我們說它所蘊含的資訊量越大。比如：我們聽女人能懷孕不奇怪，如果某天聽到哪個男人懷孕了，我們就會覺得emmm…資訊量很大了。

所以我們這樣衡量資訊量：

其中，P(y)是事件發生的概率。資訊熵就是所有可能發生的事件的資訊量的期望：

表達了Y事件發生的不確定度。

決策樹屬性劃分演算法

眾所周知，決策樹學習的關鍵在於如何選擇最優劃分屬性，一般而言，隨著劃分過程不斷進行，我們希望決策樹的分支結點所包含的樣本儘可能屬於同一類別，即結點的“純度”越來越高。

1.ID3

(1)思想

從資訊理論的知識中我們知道：資訊熵越大，從而樣本純度越低，。ID3 演算法的核心思想就是以資訊增益來度量特徵選擇，選擇資訊增益最大的特徵進行分裂。演算法採用自頂向下的貪婪搜尋遍歷可能的決策樹空間（C4.5 也是貪婪搜尋）。

(2)劃分標準(詳細過程以及公式推導見西瓜書即可)

ID3演算法使用資訊增益為準則來選擇劃分屬性，“資訊熵”(information entropy)是度量樣本結合純度的常用指標，假定當前樣本集合D中第k類樣本所佔比例為pk，則樣本集合D的資訊熵定義為：

假定通過屬性劃分樣本集D，產生了V個分支節點，v表示其中第v個分支節點，易知：分支節點包含的樣本數越多，表示該分支節點的影響力越大。故可以計算出劃分後相比原始資料集D獲得的“資訊增益”（information gain）。

資訊增益越大，表示使用該屬性劃分樣本集D的效果越好，因此ID3演算法在遞迴過程中，每次選擇最大資訊增益的屬性作為當前的劃分屬性。

(3)缺點

ID3 沒有剪枝策略，容易過擬合；
資訊增益準則對可取值數目較多的特徵有所偏好，類似“編號”的特徵其資訊增益接近於 1；
只能用於處理離散分佈的特徵；
沒有考慮缺失值。

2. C4.5

2.1 思想

C4.5 演算法最大的特點是克服了 ID3 對特徵數目的偏重這一缺點，引入資訊增益率來作為分類標準。

C4.5 相對於 ID3 的缺點對應有以下改進方式：

引入悲觀剪枝策略進行後剪枝；
引入資訊增益率作為劃分標準；
可以處理連續值：將連續特徵離散化，假設 n 個樣本的連續特徵 A 有 m 個取值，C4.5 將其排序並取相鄰兩樣本值的平均數共 m-1 個劃分點，分別計算以該劃分點作為二元分類點時的資訊增益，並選擇資訊增益最大的點作為該連續特徵的二元離散分類點；
可以處理缺失值：對於缺失值的處理可以分為兩個子問題：
問題一：在特徵值缺失的情況下進行劃分特徵的選擇？（即如何計算特徵的資訊增益率）
問題二：選定該劃分特徵，對於缺失該特徵值的樣本如何處理？（即到底把這個樣本劃分到哪個結點裡）
針對問題一，C4.5 的做法是：對於具有缺失值特徵，用沒有缺失的樣本子集所佔比重來折算；
針對問題二，C4.5 的做法是：將樣本同時劃分到所有子節點，不過要調整樣本的權重值，其實也就是以不同概率劃分到不同節點中。

2.2 劃分標準

利用資訊增益率可以克服資訊增益的缺點，其公式為：

注意：資訊增益率對可取值較少的特徵有所偏好（分母越小，整體越大），因此 C4.5 並不是直接用增益率最大的特徵進行劃分，而是使用一個啟發式方法：先從候選劃分特徵中找到資訊增益高於平均值的特徵，再從中選擇增益率最高的。

2.3 剪枝策略(預剪枝+後剪枝)

決策樹解決過擬合的主要方法：剪枝、隨機森林

2.3.1 預剪枝

(1) 在決策樹生成過程中，對每個結點在劃分前先進行估計，若當前結點的劃分不能帶來決策樹泛化效能提升，則停止劃分並將當前結點標記為葉結點。在構造的過程中先評估，再考慮是否分支。衡量決策樹泛化效能提升的方法：

節點內資料樣本低於某一閾值；
所有節點特徵都已分裂；
節點劃分前準確率比劃分後準確率高。

(2)優缺點

降低過擬合風險、顯著減少決策樹的訓練時間開銷和測試時間開銷。
預剪枝基於“貪心”策略，有可能會帶來欠擬合風險。

2.3.2 後剪枝(C4.5採用的是基於後剪枝的悲觀剪枝方法)

(1) 後剪枝是先從訓練集生成一棵完整的決策樹，然後自底向上地對非葉子結點進行考察，若將該結點對應的子樹替換為葉結點能帶來決策樹泛化效能提升，則將該子樹替換為葉結點。

(2) 後剪枝決策樹的欠擬合風險很小，泛化效能往往優於預剪枝決策樹。但同時其訓練時間會大的多。

2.4 缺點

剪枝策略可以再優化；
C4.5 用的是多叉樹，用二叉樹效率更高；
C4.5 只能用於分類；
C4.5 使用的熵模型擁有大量耗時的對數運算，連續值還有排序運算；
C4.5 在構造樹的過程中，對數值屬性值需要按照其大小進行排序，從中選擇一個分割點，所以只適合於能夠駐留於記憶體的資料集，當訓練集大得無法在記憶體容納時，程式無法執行。

3. CRAT

ID3 和 C4.5 雖然在對訓練樣本集的學習中可以儘可能多地挖掘資訊，但是其生成的決策樹分支、規模都比較大，CART 演算法的二分法可以簡化決策樹的規模，提高生成決策樹的效率。

3.1 思想

CART 在 C4.5 的基礎上進行了很多提升。

C4.5 為多叉樹，運算速度慢，CART 為二叉樹，運算速度快；
C4.5 只能分類，CART 既可以分類也可以迴歸；
CART 使用 Gini 係數作為變數的不純度量，減少了大量的對數運算；
CART 採用代理測試來估計缺失值，而 C4.5 以不同概率劃分到不同節點中；
CART 採用“基於代價複雜度剪枝”方法進行剪枝，而 C4.5 採用悲觀剪枝方法。

3.2 劃分標準

CART決策樹(分類樹)使用“基尼指數”（Gini index）來選擇劃分屬性，基尼指數反映的是從樣本集D中隨機抽取兩個樣本，其類別標記不一致的概率，因此Gini(D)越小越好，這和資訊增益（率）正好相反，基尼指數定義如下：

進而，使用屬性α劃分後的基尼指數為：

3.3 剪枝策略

採用一種“基於代價複雜度的剪枝”方法進行後剪枝，這種方法會生成一系列樹，每個樹都是通過將前面的樹的某個或某些子樹替換成一個葉節點而得到的，這一系列樹中的最後一棵樹僅含一個用來預測類別的葉節點。然後用一種成本複雜度的度量準則來判斷哪棵子樹應該被一個預測類別值的葉節點所代替。這種方法需要使用一個單獨的測試資料集來評估所有的樹，根據它們在測試資料集熵的分類效能選出最佳的樹。

3.4類別不平衡

CART 的一大優勢在於：無論訓練資料集有多失衡，它都可以將其消除不需要建模人員採取其他操作。

CART 使用了一種先驗機制，其作用相當於對類別進行加權。這種先驗機制嵌入於 CART 演算法判斷分裂優劣的運算裡，在 CART 預設的分類模式中，總是要計算每個節點關於根節點的類別頻率的比值，這就相當於對資料自動重加權，對類別進行均衡。

3.5 迴歸樹

CART（Classification and Regression Tree，分類迴歸樹），從名字就可以看出其不僅可以用於分類，也可以應用於迴歸。其迴歸樹的建立演算法上與分類樹部分相似，這裡簡單介紹下不同之處。

3.6.1 連續值處理

對於連續值的處理，CART 分類樹採用基尼係數的大小來度量特徵的各個劃分點。在迴歸模型中，我們使用常見的和方差度量方式，對於任意劃分特徵 A，對應的任意劃分點 s 兩邊劃分成的資料集 $D_1$ 和 $D_2$ ，求出使 $D_1$ 和 $D_2$ 各自集合的均方差最小，同時 $D_1$ 和 $D_2$ 的均方差之和最小所對應的特徵和特徵值劃分點。表示式為：

$\min\limits_{a,s}\Bigg[\min\limits_{c_1}\sum\limits_{x_i \in D_1}(y_i - c_1)^2 + \min\limits_{c_2}\sum\limits_{x_i \in D_2}(y_i - c_2)^2\Bigg] \\$

其中， $c_1$ 為 $D_1$ 資料集的樣本輸出均值， $c_2$ 為 $D_2$ 資料集的樣本輸出均值。

3.6.2 預測方式

對於決策樹建立後做預測的方式，上面講到了 CART 分類樹採用葉子節點裡概率最大的類別作為當前節點的預測類別。而回歸樹輸出不是類別，它採用的是用最終葉子的均值或者中位數來預測輸出結果。

4.總結

最後通過總結的方式對比下 ID3、C4.5 和 CART 三者之間的差異。

除了之前列出來的劃分標準、剪枝策略、連續值確實值處理方式等之外，我再介紹一些其他差異：

劃分標準的差異：ID3 使用資訊增益偏向特徵值多的特徵，C4.5 使用資訊增益率克服資訊增益的缺點，偏向於特徵值小的特徵，CART 使用基尼指數克服 C4.5 需要求 log 的巨大計算量，偏向於特徵值較多的特徵。
使用場景的差異：ID3 和 C4.5 都只能用於分類問題，CART 可以用於分類和迴歸問題；ID3 和 C4.5 是多叉樹，速度較慢，CART 是二叉樹，計算速度很快；
樣本資料的差異：ID3 只能處理離散資料且缺失值敏感，C4.5 和 CART 可以處理連續性資料且有多種方式處理缺失值；從樣本量考慮的話，小樣本建議 C4.5、大樣本建議 CART。C4.5 處理過程中需對資料集進行多次掃描排序，處理成本耗時較高，而 CART 本身是一種大樣本的統計方法，小樣本處理下泛化誤差較大；
樣本特徵的差異：ID3 和 C4.5 層級之間只使用一次特徵，CART 可多次重複使用特徵；
剪枝策略的差異：ID3 沒有剪枝策略，C4.5 是通過悲觀剪枝策略來修正樹的準確性，而 CART 是通過代價複雜度剪枝

相關推薦

決策樹演算法ID3，C4.5， CART

決策樹是機器學習中非常經典的一類學習演算法，它通過樹的結構，利用樹的分支來表示對樣本特徵的判斷規則，從樹的葉子節點所包含的訓練樣本中得到預測值。決策樹如何生成決定了所能處理的資料型別和預測效能。主要的決策樹演算法包括ID3，C4.5， CART等。 1，ID3 ID3是由

【面試考】【入門】決策樹演算法ID3，C4.5和CART

關於決策樹的purity的計算方法可以參考： [決策樹purity/基尼係數/資訊增益 Decision Trees](https://www.cnblogs.com/PythonLearner/p/12940067.html) 如果有不懂得可以私信我，我給你講。 ## ID3 用下面的例子來理解這個演算法：

決策樹(上)-ID3、C4.5、CART

參考資料(要是對於本文的理解不夠透徹，必須將以下部落格認知閱讀，方可全面瞭解決策樹)： 1.https://zhuanlan.zhihu.com/p/85731206 2.https://zhuanlan.zhihu.com/p/29980400 3.https://github.com/Vay-keen/M

決策樹ID3、C4.5、CART、隨機森林的原理與例子

（寫在前面：作者是一名剛入學的模式識別專業的碩士生，第一次寫部落格，有錯誤的地方還請大家多多指教評論，一起交流呀~）決策樹的基本流程 ①劃分特徵的選擇（常見的選擇方法有：資訊增益、增益率、基尼指數，下文會詳細介紹） ②劃分停止準則：停止準則表示該節點不再劃分

決策樹的進化（ID3、C4.5、CART、GBDT、RF、DART、lambdaMART、XGBoost、lightGBM）

pipeline 在資料探勘領域中，決策樹是對資料進行建模的一種很有效的手段。當資料集被清洗好後，資料集就是樣本的集合，每一個樣本都是有一樣多的屬性，但屬性值可能不同（也有可能不存在即屬性值缺失）。每一個樣本，分為屬性（也可稱為特徵）和label兩部分，我們運用決策樹處理資

決策樹（ID3、C4.5、CART）

顧名思義，決策樹是基於樹結構進行決策。 1.ID3決策樹以最大化資訊增益為準則來選擇劃分屬性。假設離散屬性a上有V個可能的取值{a1,...,aV}\{a^1,...,a^V\}{a1,...,aV}，若使用a對樣本集D進行劃分，則會產生V個分支節點。其中第

決策樹之ID3、C4.5、C5.0

2011年獲得了資料探勘領域最高榮譽獎KDD創新獎，昆蘭發明了著名的決策樹學習演算法ID3、C4.5，其個人主頁公佈了C4.5的C程式碼。—————————————————————————————————————————————————————————————————————

決策樹ID3、C4.5、CART演算法：資訊熵，區別，剪枝理論總結

決策樹演算法中的ID3、c4.5、CART演算法，記錄如下：決策樹演算法：顧名思義，以二分類問題為例，即利用自變數構造一顆二叉樹，將目標變數區分出來，所有決策樹演算法的關鍵點如下： 1.分裂屬性的選擇。即選擇哪個自變數作為樹叉，也就是在n個自變數中，優先選

轉載]決策樹ID3、C4.5、CART科普

轉載地址：http://blog.csdn.net/zhangping1987/article/details/23021381 2011年獲得了資料探勘領域最高榮譽獎KDD創新獎，昆蘭發明了著名的決策樹學習演算法ID3、C4.5，其個人主頁公佈了C4.5的C

python機器學習案例系列教程——決策樹（ID3、C4.5、CART）

決策樹簡介決策樹算是最好理解的分類器了。決策樹就是一個多層if-else函式，就是對物件屬性進行多層if-else判斷，獲取目標屬性（類標籤）的類別。由於只使用if-else對特徵屬性進行判斷，所以一般特徵屬性為離散值，即使為連續值也會先進行區間離散

決策樹演算法（ID3，C4.5，CART）

ID3，C4.5，CART是是決策樹的核心演算法。它們都由特徵選擇，樹的生成，剪枝組成。但ID3和C4.5用於分類，CART可用於分類與迴歸。 1.ID3演算法 ID3演算法遞迴地構建決策樹，從根節點開始，對所有特徵計算資訊增益，選擇資訊增益最大的特徵作為節點的特徵，由該特徵的不同取值建

R_針對churn資料用id3、cart、C4.5和C5.0建立決策樹模型進行判斷哪種模型更合適

　　data(churn)匯入自帶的訓練集churnTrain和測試集churnTest 　　用id3、cart、C4.5和C5.0建立決策樹模型，並用交叉矩陣評估模型，針對churn資料，哪種模型更合適　　　　決策樹模型 ID3/C4.5/CART演算法比較　　　傳送門

決策樹ID3、CART、C4.5之間的區別

歷史回顧：1984年提出的cart，1986年提出的ID3，1993年提出的c4.5 理論上總的來說， C4.5是基於ID3優化後產出的演算法，主要優化了關於節點分支的計算方式，優化後解決了ID3分支過程中總喜歡偏向取值較多的屬性 ID3是資訊增益分支：而CAR

機器學習 - 決策樹（下）- CART 以及與 ID3、C4.5的比較

機器學習 - 決策樹（下）- CART 以及與 ID3、C4.5的比較 CART 迴歸樹分類樹剪枝剪枝選擇決策樹特點總結 ID3，C4.

機器學習 - 決策樹（中）- ID3、C4.5 以及剪枝

機器學習 - 決策樹（中）- ID3、C4.5 以及剪枝決策樹簡述決策樹過程 ID3 C4.5 過擬合剪枝定義剪枝過程

【機器學習】決策樹（三）——生成演算法（ID3、C4.5與CRAT）

回顧前面我們介紹了決策樹的特徵選擇，以及根據資訊增益構建決策樹。那麼決策樹的生成又有哪些經典演算法呢？本篇將主要介紹ID3的生成演算法，然後介紹C4.5中的生成演算法。最後簡單介紹CRAT演算法。 ID3演算法前面我們提到，一般而言，資訊增

決策樹分類器（ID3、C4.5 Java實現）

分類什麼是分類？舉個例子，銀行貸款員需要分析資料，以便搞清楚哪些是貸款申請者是值得信賴的。通訊公司也希望能分清楚哪些客戶容易接受某一套餐，從而定向營銷。資料分類一般又包括學習階段（構建分類器）和分類階段（使用模型預測給定資料的類標號）。決策樹分類器

機器學習回顧篇（7）：決策樹演算法（ID3、C4.5）

注：本系列所有部落格將持續更新併發布在github上，您可以通過github下載本系列所有文章筆記檔案。 1 演算法概述¶

機器學習總結（八）決策樹ID3，C4.5演算法，CART演算法

本文主要總結決策樹中的ID3,C4.5和CART演算法，各種演算法的特點，並對比了各種演算法的不同點。決策樹：是一種基本的分類和迴歸方法。在分類問題中，是基於特徵對例項進行分類。既可以認為是if-then規則的集合，也可以認為是定義在特徵空間和類空間上的條件概率分佈。決策樹模型：決策樹由結點和有向邊組

決策樹的構建演算法 -- ID3 與 C4.5 演算法

1. 概述上一篇日誌中，我們介紹了最簡單的分類迴歸演算法 – K 近鄰演算法。 k 近鄰演算法本篇日誌我們來介紹構建專家系統和資料探勘最常用的演算法 – 決策樹。 2. 決策樹在系統流程圖中，我們常