決策樹是一種基本的分類和迴歸方法。決策樹呈樹形結構，在分類問題中，表示基於特徵對例項進行分類的過程。它可以認為是if-then規則的集合，也可以認為是定義在特徵空間和類空間上的條件概率分佈。學習時，利用訓練資料，根據損失函式最小化的原則建立決策樹模型。預測時，對新的資料，利用決策樹模型進行分類。決策樹學習通常包括三個步驟：特徵選擇、決策樹的生成和決策樹的剪枝。（ID3、C4.5、CART）

1 特徵選擇

特徵選擇在於選取對訓練資料具有分類能力的特徵。通常特徵選擇的準則是資訊增益或資訊增益比。

1.1 熵（entropy）

熵是表示隨機變數不確定性的度量。X是一個取有限個值的離散隨機變數，其概率分佈為

P(X=xi)=pi,i=1,2,…,n
則隨機變數X的熵定義為
H(X)=−∑i=1npilogpi
熵越大，隨機變數的不確定性就越大。

1.2 條件熵

設有隨機變數(X,Y)，其聯合概率分佈為

P(X=xi,Y=yi)=pij,i=1,2,…,n;j=1,2,…,m
條件熵H(Y|X)表示在已知隨機變數X的條件下隨機變數Y的不確定性。
H(Y|X)=∑i=1npiH(Y|X=xi)
這裡，pi=P(X=xi),i=1,2,…,n.

1.3 資訊增益

資訊增益：特徵A對訓練資料集D的資訊增益g(D,A)，定義為集合D的經驗熵H(D)與特徵A給定條件下D的經驗條件熵H

(D|A)之差，即

g(D,A)=H(D)−H(D|A)

1.4 資訊增益比

以資訊增益作為劃分訓練資料集的特徵，存在偏向於選擇取值較多的特徵的問題。（取值較多的特徵，可以這樣理解，這個特徵取值特別多，每條例項一個值，如果選擇這個特徵，那麼每個分支都只有一條例項，也就是每個分支都屬於同一個類，這個分支的熵就是0，這個特徵的條件熵也就是0。這對其他的特徵是不公平的，所以將資訊增益除於這個特徵的熵）

資訊增益比：特徵A對訓練資料集D的資訊增益比gR(D,A)定義為其資訊增益g(D,A)與訓練資料集D關於特徵A的值的熵HA(D)之比，即

gR(D,A)=g(D,A)HA(D)
其中，HA

(D)=−∑ni=1|Di||D|log2|Di||D|，n是特徵A取值的個數。

2 決策樹的生成

2.1 ID3 演算法

ID3演算法的核心是在決策樹各個結點上應用資訊增益準則選擇特徵，遞迴地構建決策樹。

2.2 C4.5 演算法

C4.5用資訊增益比來選擇特徵

3 決策樹的剪枝

決策樹的剪枝往往通過極小化決策樹整體的損失函式來實現。設樹T的葉節點個數為|T|，t是樹T的葉節點，該葉節點有Nt個樣本點，其中k類的樣本點有Ntk個，k=1,2,…,K，Ht(T)為葉節點t上的經驗熵，α≥0為引數，則決策樹學習的損失函式可以定義為

Cα(T)=∑t=1|T|

李航統計學習方法第五章決策樹課後習題答案

1 特徵選擇

1.1 熵（entropy）

1.2 條件熵

1.3 資訊增益

1.4 資訊增益比

2 決策樹的生成

2.1 ID3 演算法

2.2 C4.5 演算法

3 決策樹的剪枝

李航統計學習方法第五章決策樹課後習題答案

《統計學習方法（李航）》講義第05章決策樹

統計學習方法第五章

最小二乘迴歸樹Python實現——統計學習方法第五章課後題

統計學習方法第五章CART演算法程式碼實踐例題5.4

計算機網路教程第五章運輸層課後習題答案

李航《統計學習方法》——第五章決策樹模型

李航-統計學習方法-習題-第九章

李航·統計學習方法筆記·第6章 logistic regression與最大熵模型（1）·邏輯斯蒂迴歸模型

統計學習方法-第2章-感知機(1)

李航—統計學習方法筆記（一）

李航統計學習方法查缺補漏

李航統計學習方法之樸素貝葉斯法（含python及tensorflow實現）

統計學習方法第四章課後習題

演算法工程師修仙之路：李航統計學習方法（一）

李航統計學習方法習題5.1

統計學習方法第四章極大似然估計的樸素貝葉斯分類方法例題4.1程式碼實踐

李航-統計學習方法筆記（一）：統計學習方法概論

《機器學習》第三章決策樹學習筆記加總結

《機器學習》周志華學習筆記第四章決策樹（課後習題）python 實現

李航 統計學習方法 第五章 決策樹 課後 習題 答案

1 特徵選擇

1.1 熵（entropy）

1.2 條件熵

1.3 資訊增益

1.4 資訊增益比

2 決策樹的生成

2.1 ID3 演算法

2.2 C4.5 演算法

3 決策樹的剪枝

相關推薦

李航統計學習方法第五章決策樹課後習題答案