1. 程式人生 > >決策樹--學習筆記(二)

決策樹--學習筆記(二)

決策樹分割屬性選擇

決策樹演算法是一種“貪心”演算法策略,只考慮在當前 資料特徵的情況下的最好分割方式,不能進行回溯操作。

對於整體的資料集而言,按照所有的特徵屬性進行劃分操作,對於所有劃分操作的結果集“純度”進行比較,選擇“純度”越高的特徵屬性作為當前需要分割的資料集進行分割操作,持續迭代,直到得到最終結果。決策樹是通過“純度”來選擇分割特徵屬性點的。

決策樹量化純度

決策樹的構建是基於樣本概率和純度進行構建操作的,那麼進行判斷資料集是否“純”可以通過三個公式進行判斷,分別是GINI係數、熵(Entropy)、錯誤率,這三個公式值越大,表示資料越不純,越小表示悅椿;實踐證明這三種公式效果差不多,一般情況使用熵公式

決策樹量化純度

當計算各個特徵的屬性的量化純度值後使用資訊增益度來選擇出當前資料集的分割特徵屬性;如果資訊增益度的值越大,表示該特徵屬性上回損失的純度越大,那麼該屬性就越應該在決策上層,計算公式為:

Gain=H(D)-H(D|A)

Gain為A為特徵對訓練資料集D的資訊增益,它為集合D的經驗熵H(D)與特徵A給定條件下D的經驗條件熵H(D|A)之差。

資訊增益率計算方式

決策樹演算法的停止條件

決策樹構建的過程是一個遞迴的過程,所以必須給定停止條件,否則過程將不會進行停止,一般情況下可以設定以下停止條件:

1.大於設定的決策樹的最大深度;

2.小於設定的內部節點再劃分的最小樣本數

3.小於設定的葉子節點最小樣本數

4.大於設定的最大葉子節點數

5.小於設定的節點劃分不純度

決策樹演算法效果評估

決策樹的效果評估和一般的分類演算法一樣,採用混淆矩陣來計算準確率、召回率、精確率等指標。

也可以採用葉子節點的純度值總和來評估演算法的效果,效果越好

決策樹的損失函式(該值越小,演算法效果越好)

決策樹直觀理解