1. 程式人生 > >第五章決策樹

第五章決策樹

決策樹是基於特徵(非數字,如年齡,身高特徵)進行分類的過程,通常包括特徵選擇,決策樹的生成,決策樹的剪修。

5.1決策樹模型與學習

5.1.1決策樹模型
決策樹由節點(內節點(特徵或者說屬性)和葉節點(類))和有向邊組成,是一種對例項進行分類的樹形結構。
5.1.2決策樹與if-then
決策樹模型可以看做是if-then的合集,每條路徑構建一條規則,每個例項都能隨此找到對應的分類。
5.1.3決策樹與條件概率分佈
決策樹還表示給定特徵條件下的條件概率分佈(有點類似kd樹)。對特徵空間進行劃分,葉節點上的例項對該處類的條件概率較大,往往偏向該一類。
5.1.4決策樹學習
學習的目的是根據所給的資料集建一個模型樹(確定分類的規則),使他能夠進行正確的分類(預測)。
可以用損失函式(通常是正則化的極大似然函式)量化決策樹學習成績(損失函式小成績高),但從所有損失函式中找到最優解是一個NP問題,不切實際,通過近似求解找到其次優解才是真正需要的。
演算法通常是遞迴選擇各個節點的最優特徵。

5.2特徵選擇

5.2.1特徵選擇問題
通過資訊增益或者資訊增益比定量的選擇有利於分類的特徵。
5.2.2資訊增益
隨機變數X的熵的定義: H ( X ) = Σ p

i l o g p i H(X)=-Σp_ilogp_i (該值始終大於0,通常以2或e為底)
熵越大,隨機變數的不確定性越大,從定義可知: 0
< = H ( p ) < = l o g n 0<=H(p)<=logn

在隨機變數X的條件下隨機變數Y的條件熵: H ( Y X ) = Σ p i H ( Y X = x i ) H(Y|X)=Σp_iH(Y|X=x_i) (與之前不一樣)
當概率 p i p_i 是由資料估計(特別是極大似然估計)得到的話,所對應的是經驗熵經驗條件熵
一般的,熵和條件熵的差被稱為互資訊,等價於決策樹學習中的資訊增益
g ( D , A ) = H ( D ) H ( D A ) g(D,A)=H(D)-H(D|A)
他表示了特徵A使得資料集D資訊不確定性減少的程度。
資訊增益比:相對資料集而言,並沒有絕對意義。