決策樹演算法ID3，C4.5， CART

阿新 • • 發佈：2019-01-29

決策樹是機器學習中非常經典的一類學習演算法，它通過樹的結構，利用樹的分支來表示對樣本特徵的判斷規則，從樹的葉子節點所包含的訓練樣本中得到預測值。決策樹如何生成決定了所能處理的資料型別和預測效能。主要的決策樹演算法包括ID3，C4.5， CART等。

1，ID3

ID3是由 Ross Quinlan在1986年提出的一種構造決策樹的方法。用於處理標稱型資料集，其構造過程如下：

輸入訓練資料是一組帶有類別標記的樣本，構造的結果是一棵多叉樹。樹的分支節點一般表示為一個邏輯判斷，如形式為a=aj的邏輯判斷，其中a是屬性，aj是該屬性的所有取值。

在該節點上選取能對該節點處的訓練資料進行最優劃分的屬性。最後劃分的標準是資訊增益（Information Gain），即劃分前後資料集的熵的差異。

如果在該節點的父節點或者祖先中用了某個屬性，則這個用過的屬性就不再使用。選擇好最優屬性後，假設該屬性有N個取值，則為該節點建立N個分支，將相應的訓練資料傳遞到這N個分支中，遞迴進行，停止條件為：

（1）該節點的所有樣本屬於同一類，該節點成為葉節點，存放相應的類別。

（2）所有的屬性都已被父節點或祖先使用。這種情況下，該節點成為葉節點，並以樣本中元組個數最多的類別作為類別標記，同時也可以存放該結點樣本的類別分佈。

ID3的特點是：（1），容易造成過度擬合。（2），使用標稱型資料，但是很難處理連續型資料。

2， C4.5

C4.5是對ID3的改進，其基本過程與ID3類似，改進的地方在於：

（1）既能處理標稱型資料，又能連續型

資料。為了處理連續型資料，該演算法在相應的節點使用一個屬性的閾值，利用閾值將樣本劃分成兩部分。

（2）能處理缺失了一些屬性的資料。該演算法允許屬性值缺失時被標記為？，屬性值缺失的樣本在計算熵增益時被忽略。

（3）構造完成後可以剪枝。合併相鄰的無法產生大量資訊增益的葉節點，消除過渡匹配問題。

3，CART

CART稱為分類決策樹，classification and regression tree，既能處理分類問題，又能處理迴歸問題。最初由Breiman提出。與ID3不能直接處理連續型特徵不同的是，CART使用二元切分，即使用一個屬性閾值對樣本資料進行劃分。劃分的標準除了使用熵增益外，還有基尼純淨度（Gini impurity）和方差縮減（variance reduction)（用於迴歸）。

決策樹演算法ID3，C4.5， CART

1，ID3

2， C4.5

3，CART

決策樹（ID3、C4.5、CART）

python機器學習案例系列教程——決策樹（ID3、C4.5、CART）

決策樹(上)-ID3、C4.5、CART

決策樹之ID3、C4.5、C5.0

決策樹演算法（ID3，C4.5，CART）

決策樹演算法ID3，C4.5， CART

決策樹ID3、C4.5、CART演算法：資訊熵，區別，剪枝理論總結

【面試考】【入門】決策樹演算法ID3，C4.5和CART

決策樹的構建演算法 -- ID3 與 C4.5 演算法

決策樹ID3、C4.5、CART、隨機森林的原理與例子

決策樹的進化（ID3、C4.5、CART、GBDT、RF、DART、lambdaMART、XGBoost、lightGBM）

轉載]決策樹ID3、C4.5、CART科普

決策樹演算法--ID3

機器學習（三）決策樹演算法ID3的實現

機器學習總結（八）決策樹ID3，C4.5演算法，CART演算法

離散型與連續型資料決策樹構建及列印實現 R語言，ID3，C4.5演算法

決策分類樹演算法之ID3，C4.5算法系列

機器學習演算法 --- 決策樹ID3，C4.5

決策樹（ID3 C4,5 減枝 CART演算法）以及Python實現

決策樹模型 ID3/C4.5/CART演算法比較

決策樹演算法ID3，C4.5， CART

1，ID3

2， C4.5

3，CART

相關推薦