決策樹是一種基本的分類與迴歸方法，在整合方法中經常作為基礎分類器，比如說隨機森林演算法。決策樹模型具有可讀性和分類速度快兩大特點，但是也容易造成過擬合的問題。一般來說，決策樹演算法通常包括3個步驟：特徵選擇、決策樹的生成和決策樹的修剪！

一、特徵選擇

當我們使用決策樹演算法對資料進行分類時，我們面臨的第一個問題就是：我們在哪個特徵上進行資料分類劃分得到的收益最大？因此，我們需要工具來定量地評價在不同特徵上進行劃分資料時各自的效益。

1.1 資訊增益

熵：在資訊與概率統計中，熵代表隨機變數不確定的度量。
設 $X$

X

是一個取有限個值得離散隨機變數，則其概率分佈位：

P(X = x_i) = p_i , i = 1,2,3.....,n

則隨機變數

X

的熵為：

H(X) = -\sum_{i=1}^{n} p_i log p_i

熵的值越大，隨機變數的不確定性越大。

條件熵 ：隨機變數 $X$ 在給定的條件下隨機變數 $Y$ 的條件熵 $H(Y|X)$ ，定義為 $X$ 在給定條件 $Y$ 下的條件概率分佈的熵對 $X$ 的數學期望: $H(Y|X) = \sum_{i=1}^{n}p_iH(Y|X=x_i) = \sum_{i=1}^{n} P(X=x_i)H(Y|X=x_i) , i = 1,2,3....,n$

資訊增益：特徵A對訓練資料集的資訊增益 $g(D,A)$ , 定義為資料集D的熵與特徵A給定條件下的條件熵之差，即： $g(D,A) = H(D) - H(D|A)$ 資訊增益越大的特徵具有更強的分類特徵。

在以資訊增益為劃分資料集的特徵的依據時，存在偏向選擇取值較多的特徵的問題，因此，可以使用資訊增益比對其進行校正。

資訊增益比：特徵A對訓練資料集的資訊增益比 $g_R(D,A)$ 定義為其資訊增益與訓練資料集D關於特徵A的值的熵 $H_A(D)$ 之比，即： $g_R(D,A) = \frac{g(D,A)}{H_A(D)}$ 其中 $H_A(D) = - \sum_{i=1}^{n} \frac{D_i}{ D} log_2 \frac{D_i}{D}$ , $n$ 是特徵A的取值個數， $D_i$ 是指資料集中 $A = A_i$ 的資料的個數

1.2 基尼指數

在分類樹中，不僅僅可以通過是使用資訊增益或者資訊增益比來決定資料集中的最優劃分特徵，也可以通過基尼指數來選擇最優特徵。

基尼指數： 分類問題中，假設資料集D中有 $K$ 個類，樣本點屬於第k個類的概率為 $p_k$ ，則該資料集D的基尼指數定義為： $Gini(p) = \sum_{k=1}^{K} p_k(1-p_k) = 1 - \sum_{k=1}^{K}p_k^2$ 即： $Gini(D) = 1 - \sum_{k=1}^{K}(\frac{C_k}{D})^2$ 其中， $C_k$ 是指資料集D中屬於第k類的樣本子集，K是類的個數。
$Gini(D)$

相關推薦

機器學習筆記（四）——決策樹如何長成森林？

決策樹是一種基本的分類與迴歸方法，在整合方法中經常作為基礎分類器，比如說隨機森林演算法。決策樹模型具有可讀性和分類速度快兩大特點，但是也容易造成過擬合的問題。一般來說，決策樹演算法通常包括3個步驟：特徵選擇、決策樹的生成和決策樹的修剪！一、特徵選擇當我們使用決策樹演算法對資料進

機器學習筆記（六）決策樹

決策樹決策樹決策樹劃分選擇剪枝過擬合產生的原因常用剪枝方法連續值與缺失值處理連續值處理缺失值處理

機器學習（西瓜書）學習筆記（三）---------決策樹

1、基本流程決策樹通常從一個最基本的問題出發，通過這個判定問題來對某個“屬性”進行“測試”，根據測試的結果來決定匯出結論還是匯出進一步的判定問題，當然，這個判定範圍是在上次決策結果的限定範圍之內的。出發點

機器學習筆記（四）機器學習可行性分析

資料表示 image 隨機訓練樣本 -s mage 例如 lin 從大量數據中抽取出一些樣本，例如，從大量彈珠中隨機抽取出一些樣本，總的樣本中橘色彈珠的比例為，抽取出的樣本中橘色彈珠的比例為，這兩個比例的值相差很大的幾率很小，數學公式表示為：用抽取到的樣本作為訓練

機器學習筆記（2）——CART樹

而後並不是參數生成 AS 最大值介紹 ... 訓練數據　CART樹　　CART樹與上一篇文章提到的ID3、C4.5的區別在於：　　（1）CART樹只能夠生成2個結點，即CART樹是一棵二叉決策樹，而後兩者在進行劃分時可以根據特征值的種類生成2個以上的結點

機器學習實戰（二）決策樹DT（Decision Tree、ID3演算法）

目錄 0. 前言 1. 資訊增益（ID3） 2. 決策樹（Decision Tree） 3. 實戰案例 3.1. 隱形眼鏡案例 3.2. 儲存決策樹 3.3. 決策樹畫圖表示學習完機器學習實戰的決策樹，簡單的做

機器學習總結（八）決策樹ID3，C4.5演算法，CART演算法

本文主要總結決策樹中的ID3,C4.5和CART演算法，各種演算法的特點，並對比了各種演算法的不同點。決策樹：是一種基本的分類和迴歸方法。在分類問題中，是基於特徵對例項進行分類。既可以認為是if-then規則的集合，也可以認為是定義在特徵空間和類空間上的條件概率分佈。決策樹模型：決策樹由結點和有向邊組

機器學習實戰（2）-決策樹

構建決策樹最重要的是分裂屬性的選取,重要的是每個屬性在節點的位置，比如說第一個節點屬性為什麼是A而不是B。分裂屬性就是在某個節點處按照某一特徵屬性的不同劃分構造不同的分支，其目標是讓各個分裂子集更加的純，所謂的純是指儘量讓一個分裂子集中待分類項屬於同一類別。判斷純的方法有ID3，C4.5，CART演算法。&n

機器學習筆記（四）Logistic迴歸實現及正則化

一、Logistic迴歸實現（一）特徵值較少的情況 1. 實驗資料吳恩達《機器學習》第二課時作業提供資料1。判斷一個學生能否被一個大學錄取，給出的資料集為學生兩門課的成績和是否被錄取，通過這些資料來預測一個學生能否被錄取。 2. 分類結果評估橫縱軸（特徵）為學生兩門課成績，可以在圖

機器學習筆記（四）Scikit-learn CountVectorizer 與 TfidfVectorizer

Scikit-learn CountVectorizer 與 TfidfVectorizer 在文字分類問題中，我們通常進行特徵提取，這時，我們需要利用到要介紹的工具，或者其他工具。文字的特徵提取特別重要，體現這個系統做的好壞，分類的準確性，文字的特徵需要自己

機器學習入門（六）決策樹

--------韋訪 20181030 1、概述這一講，我們來看看決策樹。 2、概念決策樹（decision tree）是一種常用的分類與迴歸方法，其模型為樹狀結構，如下圖所示，其中，最頂部的圓點為根節點，其他圓點為內部節點，方形為葉子節點。決策樹

機器學習筆記（四）Logistic迴歸

我們都知道，如果預測值y是個連續的值，我們通常用迴歸的方法去預測，但如果預測值y是個離散的值，也就是所謂的分類問題，用線性迴歸肯定是不合理的，因為你預測的值沒有一個合理的解釋啊。比如對於二分類問題，我

機器學習演算法（二）——決策樹分類演算法及R語言實現方法

決策樹演算法是分類演算法中最常用的演算法之一。決策樹是一種類似流程圖的樹形結構，可以處理高維資料，直觀易理解，且準確率較高，因此應用廣泛。本篇小博就決策樹的若干演算法：ID3演算法、C4.5演算法以及分類迴歸樹（CART）、C5.0進行對比介紹，並對比C4.5與C5.0處理

機器學習筆記（四）——最大似然估計

一、最大似然估計的基本思想最大似然估計的基本思想是：從樣本中隨機抽取n個樣本，而模型的引數估計量使得抽取的這n個樣本的觀測值的概率最大。最大似然估計是一個統計方法，它用來求一個樣本集的概率密度函式的引數。二、似然估計在講最小二乘法的時候，我們的例

機器學習筆記（四）卷積神經網路CNN

1.前言：卷積神經網路在計算視覺領域的表現十分出色,與普通的BP神經網路一樣，CNN同樣由神經元組成。其實卷積神經網路是卷積+神經網路，基本上由三部分組成：卷積層，pooling層，全連線層。 2.CNN：卷積層卷積是一個訊號領域的概念，我們這裡提

ExtJS學習筆記（四）使用樹控制元件TreeNode ，TreeLoader

在ExtJS中，不管是葉子節點還是非葉子節點，都統一用TreeNode表表示樹的節點。在ExtJS中，有兩種型別的樹節點。一種節點是普通的簡單樹節點，由Ext.tree.TreeNode定義，另外一種是需要非同步載入子節點資訊的樹節點，該類由Ext.tree.Asyn

周志華《Machine Learning》學習筆記（5）--決策樹

上篇主要介紹和討論了線性模型。首先從最簡單的最小二乘法開始，討論輸入屬性有一個和多個的情形，接著通過廣義線性模型延伸開來，將預測連續值的迴歸問題轉化為分類問題，從而引入了對數機率迴歸，最後線性判別分析LDA將樣本點進行投影，多分類問題實質上通過劃分的方法轉化為多

【10月31日】機器學習實戰（二）決策樹：隱形眼鏡資料集

決策樹的優點：計算的複雜度不高，輸出的結果易於理解，對中間值的確實不敏感，可以處理不相關的特徵資料決策樹的缺點：可能會產生過度匹配的問題。其本質的思想是通過尋找區分度最好的特徵（屬性），用於支援分類規則的制定。那麼哪些特徵是區分度好的，哪些特徵是區分度壞的呢？換句話說

Python_sklearn機器學習庫學習筆記（四）decision_tree（決策樹）

min n) 空間 strong output epo from 標簽 ict # 決策樹 import pandas as pd from sklearn.tree import DecisionTreeClassifier from sklearn.

《機器學習》周志華學習筆記第四章決策樹（課後習題）python 實現

一、基本內容 1.基本流程決策樹的生成過程是一個遞迴過程，有三種情形會導致遞迴返回（1）當前節點包含的yangben全屬於同一類別，無需劃分；（2）當前屬性集為空，或是所有yangben在所有屬性上的取值相同，無法劃分；（3）當前結點包含的yangben集合為空，不能