決策樹--學習筆記（二）

阿新 • • 發佈：2018-11-17

決策樹分割屬性選擇

決策樹演算法是一種“貪心”演算法策略，只考慮在當前資料特徵的情況下的最好分割方式，不能進行回溯操作。

對於整體的資料集而言，按照所有的特徵屬性進行劃分操作，對於所有劃分操作的結果集“純度”進行比較，選擇“純度”越高的特徵屬性作為當前需要分割的資料集進行分割操作，持續迭代，直到得到最終結果。決策樹是通過“純度”來選擇分割特徵屬性點的。

決策樹量化純度

決策樹的構建是基於樣本概率和純度進行構建操作的，那麼進行判斷資料集是否“純”可以通過三個公式進行判斷，分別是GINI係數、熵（Entropy）、錯誤率，這三個公式值越大，表示資料越不純，越小表示悅椿；實踐證明這三種公式效果差不多，一般情況使用熵公式

決策樹量化純度

當計算各個特徵的屬性的量化純度值後使用資訊增益度來選擇出當前資料集的分割特徵屬性；如果資訊增益度的值越大，表示該特徵屬性上回損失的純度越大，那麼該屬性就越應該在決策上層，計算公式為：

Gain=H(D)-H(D|A)

Gain為A為特徵對訓練資料集D的資訊增益，它為集合D的經驗熵H(D)與特徵A給定條件下D的經驗條件熵H(D|A)之差。

資訊增益率計算方式

決策樹演算法的停止條件

決策樹構建的過程是一個遞迴的過程，所以必須給定停止條件，否則過程將不會進行停止，一般情況下可以設定以下停止條件：

1.大於設定的決策樹的最大深度；

2.小於設定的內部節點再劃分的最小樣本數

3.小於設定的葉子節點最小樣本數

4.大於設定的最大葉子節點數

5.小於設定的節點劃分不純度

決策樹演算法效果評估

決策樹的效果評估和一般的分類演算法一樣，採用混淆矩陣來計算準確率、召回率、精確率等指標。

也可以採用葉子節點的純度值總和來評估演算法的效果，效果越好

決策樹的損失函式（該值越小，演算法效果越好）

決策樹--學習筆記（二）

決策樹分割屬性選擇

決策樹量化純度

決策樹量化純度

Gain=H(D)-H(D|A)

資訊增益率計算方式

決策樹演算法的停止條件

決策樹演算法效果評估

決策樹直觀理解

決策樹--學習筆記（二）

決策樹學習筆記（二）

決策樹--學習筆記（一）

Cocos Creator 系統學習筆記（二）--場景樹

機器學習：結點的實現，決策樹程式碼實現（二）

php laravel框架學習筆記（二）數據庫操作

java學習筆記（二）圖形用戶接口

數據結構學習筆記（二）線性表的順序存儲和鏈式存儲

Memcache 學習筆記（二）---- PHP 腳本操作 Memcache 服務器

javascript學習筆記（二）：定義函數、調用函數、參數、返回值、局部和全局變量

神箭手爬蟲學習筆記（二）

thinkphp5.0學習筆記（二）API後臺處理與命名空間

MongoDB學習筆記（二）

設計模式學習筆記（二）設計基本原則之【單一職責原則】

CSS學習筆記（二）：特性

tensorflow學習筆記（二）

SSH學習筆記（二）

Git學習筆記（二）

MySql學習筆記（二）

Unity3D之Mecanim動畫系統學習筆記（二）：模型導入

決策樹--學習筆記（二）

決策樹分割屬性選擇

決策樹量化純度

決策樹量化純度

Gain=H(D)-H(D|A)

資訊增益率計算方式

決策樹演算法的停止條件

決策樹演算法效果評估

決策樹直觀理解

相關推薦