1. 程式人生 > >決策樹ID3、CART、C4.5之間的區別

決策樹ID3、CART、C4.5之間的區別

歷史回顧:1984年提出的cart,1986年提出的ID3,1993年提出的c4.5

理論上總的來說, C4.5是基於ID3優化後產出的演算法,主要優化了關於節點分支的計算方式,優化後解決了ID3分支過程中總喜歡偏向取值較多的屬性 ID3是資訊增益分支:

而CART一般是GINI係數分支:

C4.5一般是資訊增益率分支:

工程上總的來說: CART和C4.5之間主要差異在於分類結果上,CART可以迴歸分析也可以分類,C4.5只能做分類;C4.5子節點是可以多分的,而CART是無數個二叉子節點; 以此拓展出以CART為基礎的“樹群”random forest , 以迴歸樹為基礎的“樹群”GBDT

樣本資料的差異: ID3只能對分類變數進行處理,C4.5和CART可以處理連續和分類兩種自變數 ID3對缺失值敏感,而C4.5和CART對缺失值可以進行多種方式的處理 只從樣本量考慮,小樣本建議考慮c4.5、大樣本建議考慮cart。c4.5處理過程中需對資料集進行多次排序,處理成本耗時較高,而cart本身是一種大樣本的統計方法,小樣本處理下泛化誤差較大

目標因變數的差異: ID3和C4.5只能做分類,CART(分類迴歸樹)不僅可以做分類(0/1)還可以做迴歸(0-1) ID3和C4.5節點上可以產出多叉(低、中、高),而CART節點上永遠是二叉(低、非低)

樣本特徵上的差異: 特徵變數的使用中,多分的分類變數ID3和C4.5層級之間只單次使用,CART可多次重複使用

決策樹產生過程中的優化差異: C4.5是通過枝剪來修正樹的準確性,而CART是直接利用全部資料發現所有樹的結構進行對比

作者:slade_sal 連結:https://www.jianshu.com/p/895a76122c4f 來源:簡書 簡書著作權歸作者所有,任何形式的轉載都請聯絡作者獲得授權並註明出處。