決策樹和隨機森林

阿新 • • 發佈：2019-01-21

三種決策樹的剪枝過程演算法相同，區別僅是對於當前樹的評價標準不同：

資訊增益（ID3），資訊增益率（C4.5），基尼指數（CART）

一個屬性的資訊增益越大，表明屬性對樣本的熵減少的能力越強。這個屬性使得資料由不確定性變為確定性的能力越強。

決策樹的評價：

對於決策樹的某葉節點，假定該葉節點包含有樣本數目為n，其中第k類的樣本數目節點為Nk，k=1,2,3,4...,k

評價函式越小越好。

決策樹的剪枝：

演算法過程：

隨機森林在bagging基礎上做了修改

從樣本中用Bootstrap取樣選出n個樣本

從所有屬性中隨機選擇k個屬性，選擇最佳分割屬性作為節點建立CART決策樹

重複以上步驟m次，即建立了m顆CART決策樹

這m顆CART形成隨機森林，通過投票表決，決定資料屬於哪一類。

影響隨機森林分類效能的主要因素：

森林中單顆樹的分類強度(Strength):每顆樹的分類強度越大，則隨機森林的分類效能越好。

森林中樹之間的相關度(Correlation):樹之間的相關度越大，則隨機森林的分類能力越弱。

OOB估計：以樣本為單位，

對每個樣本，計算它作為OOB樣本的樹對它的分類情況(約1/3的樹)；然後以簡單多數投票作為該樣本的分類結果。

最後用誤分個數佔樣本總數的比率作為隨機森林的OOB誤分率。

構建決策樹的時候，可以讓樹進行完全生長，也可以通過引數控制樹的深度或葉子節點的數量，通常完全生長的樹會帶來過擬合的問題。過擬合一般由資料中的噪聲和離群點導致，一種解決過擬合的方法是進行剪枝，去除樹中的一些雜亂的枝葉。

在實際應用中，一般可用隨機森林來代替，隨機森林在決策樹的基礎上，會有更好的表現，尤其是防止過擬合。

在組合演算法中，一類是Bagging，一類是Boosting，隨機森林便是Bagging中的代表。

隨機就是讓每棵樹不一樣，如果都一樣，組合後的效果不會有任何提升。假設每棵樹不一樣，單獨預測錯誤率大概都是40%，但三顆樹組合後的錯誤率就變成了35.2%（至少兩一半以上同時犯錯結果才會犯錯）

從資料抽樣開始，每棵樹都隨機地在原有資料的基礎上進行有放回的抽樣。假定訓練資料有1萬條，隨機抽取8千條，因為是有放回的抽樣，可能原資料中有500條被抽了兩次，即最後的8000條中有500條是重複的資料。每棵樹都進行獨立的隨機抽樣，這樣保證了每棵樹學習到的資料側重點都不一樣，保證了樹之間的獨立性。

抽取了資料，就可以開始構建決策分支了，在每次決策分支時，也需要加入隨機性。假設資料有20個特徵，每次只隨機取其中的幾個來判斷決策條件。假設取4個屬性，從這4個特徵中來決定當前的決策條件，即忽略其他它的特徵。取特徵的個數，通常不能太小，太小了使得單棵樹的精度太低，太大了樹之間的相關性會加強，獨立性會減弱。通常取總特徵數的平方根，或log2（特徵數）+1

在節點進行分裂的時候，除了先隨機取固定個特徵，然後選擇最好的分裂屬性這種方式，還有一種方式，就是在最好的幾個（依然可以指定sqrt與log2）分裂屬性中隨機選擇一個來進行分裂。scikit-learn中實現了兩種隨機森林演算法，一種是RandomForest，另外一種是ExtraTrees, ExtraTrees就是用這種方式。

總結起來：

隨機有放回的抽取資料，數量可以和原資料相同，也可以略小。

隨機選取N個特徵，選擇最好的屬性進行分裂

在N個最好的分裂特徵中，隨機選擇一個進行分裂。

隨機性是為了保證各個演算法模型之間的相互獨立，從而提升組合後的精度。

決策樹和隨機森林

在OpenCV中實現決策樹和隨機森林

機器學習——決策樹和隨機森林演算法

決策樹和隨機森林演算法

R語言之決策樹和隨機森林

Python 資料科學手冊 5.8 決策樹和隨機森林

決策樹和隨機森林

python在Scikit-learn中用決策樹和隨機森林預測NBA獲勝者

決策樹和隨機森林用 python treeinterpreter實現

決策樹與隨機森林

機器學習之決策樹與隨機森林模型

[三]機器學習之決策樹與隨機森林

R語言︱決策樹族——隨機森林演算法

ml課程：決策樹、隨機森林、GBDT、XGBoost相關（含程式碼實現）

【機器學習】決策樹與隨機森林（轉）

【線上直播】決策樹與隨機森林

決策樹、隨機森林整合演算法（Titanic例項）

決策樹之隨機森林

《web安全之機器學習入門》第6章決策樹與隨機森林演算法

[面試筆記] 決策樹、隨機森林、GBDT、XGBoost

機器學習與人工智障(5):決策樹與隨機森林

決策樹和隨機森林

相關推薦