【機器學習】決策樹（三）——生成演算法（ID3、C4.5與CRAT）

回顧

前面我們介紹了決策樹的特徵選擇，以及根據資訊增益構建決策樹。

那麼決策樹的生成又有哪些經典演算法呢？本篇將主要介紹ID3的生成演算法，然後介紹C4.5中的生成演算法。最後簡單介紹CRAT演算法。

ID3演算法

前面我們提到，一般而言，資訊增益越大，則意味著使用該屬性來進行劃分所獲得的“純度”提升就越大。因此，我們可以用資訊增益來進行決策樹的劃分屬性選擇。著名的ID3決策樹學習演算法就是以資訊增益為準則來劃屬性的。

ID3演算法流程
輸入：訓練資料集 $D$ ，特徵集 $A$ ，閥值 $E$
輸出：決策樹 $T$
（1）若 $D$ 中所屬例項屬於同一類 $C_{k}$ ，則T為單結點樹，並將類 $C_{k}$

作為該結點的類標記，返回

T

；
（2）若

A = ϕ

，則

T

為單結點樹，並將

D

中例項數最大的類

C_{k}

作為該結點的類標記，返回

T

；
（3）否則，按照計算

A

中每個特徵對

D

的資訊增益，選擇資訊增益最大的特徵

A_{m}

；
（4）如果

A_{m}

的資訊增益小於閥值

E

，則置

T

為單結點樹，並將

D

中例項數最大的類

C_{k}

作為該結點的類標記，返回

T

；
（5）否則，對

A_{m}

的每一種可能值

a_{i}

，依

A_{m} = a_{i}

將

D

分割為若干非空子集

D_{i}

，將

D_{i}

中例項數最大的類作為標記，構建子結點，由結點及其子結點構成樹

T

，返回

T

；
（6）對第

i

個子結點，以

D_{i}

為訓練集，以

A - A_{m}

為特徵集，遞迴呼叫步驟（1）~（5），得到子樹

T_{i}

，返回

T_{i}

；

ID3演算法的優缺點

優點：

決策樹構建速度快，容易構建

缺點：

計算依賴於特徵數目較多的特徵，而屬性值最多的屬性並不一定最優
ID3演算法不是遞增演算法
ID3演算法是單變數決策樹，對特徵屬性之間的關係不會考慮
抗噪性差
只適合小規模資料集，需要將資料放到記憶體中
容易產生過擬合

C4.5演算法

C4.5演算法與ID3演算法相似，C4.5演算法對ID3演算法進行了改進。C4.5在生成的過程中，用資訊增益比來選特徵。

資訊增益比

以資訊增益作為劃分訓練資料集的特徵，存在偏向於選擇取值較多的特徵的問題，使用資訊增益比可以對這一問題進行校正。這是特徵選擇的另一準則。

定義：特徵 $A$ 對訓練資料集 $D$ 的資訊增益比 $g_{R} (D, A)$ 定義為其資訊增益 $g (D, A)$ 與訓練資料集 $D$ 關於特徵 $A$ 的值的熵 $H_{A} (D)$ 之比，即：

g_{R} (D, A) = \frac{g (D, A)}{H_{A} (D)}

其中：

H_{A} (D) = - \sum_{i = 1}^{n} \frac{| D_{i} |}{| D |} l o g_{2} \frac{| D_{i} |}{| D |}

【機器學習】決策樹（三）——生成演算法（ID3、C4.5與CRAT）

回顧

ID3演算法

C4.5演算法

【機器學習】決策樹（三）——生成演算法（ID3、C4.5與CRAT）

【機器學習】決策樹與隨機森林（轉）

【機器學習】決策樹演算法（二）— 程式碼實現

【機器學習】決策樹（基於ID3,C4.5,CART分類迴歸樹演算法）—— python3 實現方案

【機器學習】決策樹（下)CART演算法分類樹、迴歸樹

【機器學習】決策樹（上）

【機器學習】決策樹（上）——從原理到演算法實現

【機器學習】決策樹（二）——通過例子理解構建過程

【機器學習】決策樹剪枝優化及視覺化

【機器學習】決策樹總結

【機器學習】決策樹演算法的基本原理

【機器學習】決策樹01

【機器學習】動手寫一個全連線神經網路（三）：分類

【Machine Learning·機器學習】決策樹之ID3演算法(Iterative Dichotomiser 3)

【機器學習】使用Python的自然語言工具包（NLTK）對Reddit新聞標題進行情感分析

【機器學習】模型訓練前夜—資料集預處理（概念+圖+實戰）

決策樹分類器（ID3、C4.5 Java實現）

【機器學習】迭代決策樹GBRT（漸進梯度迴歸樹）

【機器學習】分類決策樹與迴歸決策樹案例

機器學習：決策樹過擬合與剪枝，決策樹程式碼實現（三）

【機器學習】決策樹（三）——生成演算法（ID3、C4.5與CRAT）

回顧

ID3演算法

C4.5演算法

相關推薦