機器學習-決策樹-ID3, C4.5
概念:
決策樹:節點間的組織方式像一棵倒樹,以attribute為節點,以attribute的不同值為分支。
重點概念:
1. 資訊熵:
熵是無序性(或不確定性)的度量指標。假如事件A的全概率劃分是(A1,A2,...,An),每部分發生的概率是(p1,p2,...,pn),那資訊熵定義為:(通常以2為底數,所以資訊熵的單位是bit)
熵越大,越無序。當事件A發生概率很大時,熵很小(所以有負號),越穩定。
由上可知,我們希望構造一棵熵遞減的樹(屬性加得越多,越穩定),而且熵縮小地越快越好,這樣可以得到一棵最矮的樹。
2. 資訊增益:
3. 集合S對於屬性A的分裂資訊:
4.
5. 樹的構造:
樹的構造涉及到屬性的選擇。哪個屬性作為根節點呢?首先根據每個屬性計算屬性相對應的資訊熵,然後計算不考慮任何屬性的整體資訊熵。有了以上兩類資訊熵,便可以計算針對每個屬性的資訊增益以及資訊增益率。選擇資訊增益最大的為優先屬性(ID3)或選擇資訊增益率最大的屬性為優先屬性(C4.5)
6. 圖的形象表示:
7. 決策樹優點:
a) 訓練資料可以包含錯誤。
b) 訓練資料可以包含缺少屬性值的例項。
8. 避免過度擬合:
a) 錯誤率降低修剪
i. 修剪一個結點的步驟:
ii. ·刪除以此結點為根的子樹,使它成為葉子結點,把和該結點關聯的訓練樣例的最常見分類賦給它。
iii. ·僅當修剪後的樹對於驗證集合的效能不比原來的樹差時才刪除該結點。
iv. 反覆修剪結點,每次總是選擇那些刪除後可以最大提高決策樹在驗證集合上的精度的結點。直到進一步的修剪是有害的為止(即降低了在驗證集合上的精度)。
b) 規則後修剪(C4.5)
i. 從訓練集合推匯出決策樹,增長決策樹直到儘可能好地模擬訓練資料,允許過度擬合發生。
ii. 將決策樹轉化為等價的規則集合,方法是從根結點到葉子結點的每一條路徑建立一條規則。
iii. 通過刪除任何能導致估計精度提高的前件(precondition)來修剪(泛化)每一條規則。
iv. 按照修剪過的規則的估計精度對它們進行排序,並按照這樣的順序應用這些規則來分類後來的例項。
9. ID3和
a) ID3用資訊增益選擇屬性時偏向於選擇分枝比較多的屬性值,即取值多的屬性;C4.5削弱了這個屬性。
b) ID3不能處理連貫屬性(相互有關係的屬性)