機器學習筆記（7）——C4.5決策樹中的缺失值處理

阿新 • • 發佈：2019-01-19

缺失值處理是C4.5決策樹演算法中的又一個重要部分，前面已經討論過連續值和剪枝的處理方法：

現實任務中，通常會遇到大量不完整的樣本，如果直接放棄不完整樣本，對資料是極大的浪費，例如下面這個有缺失值的西瓜樣本集，只有4個完整樣本。

在構造決策樹時，處理含有缺失值的樣本的時候，需要解決兩個問題：

（1）如何在屬性值缺失的情況下選擇最優劃分屬性？

（2）選定了劃分屬性，若樣本在該屬性上的值是缺失的，那麼該如何對這個樣本進行劃分？

以上兩個問題在周志華老師的《機器學習》書中有詳細的講解。但是還有一個問題：

（3）決策樹構造完成後，如果測試樣本的屬性值不完整，該如何確定該樣本的類別？

書中沒有介紹，好在昆蘭在1993年發表的文章中提供瞭解決方案。下面我們對以上3個問題逐一討論。

1. 選擇最優劃分屬性

之前的演算法中，我們選擇資訊增益最大的屬性作為最優劃分屬性，那麼對於有缺失值的屬性，其資訊增益就是無缺失值樣本所佔的比例乘以無缺失值樣本子集的資訊增益。

$Gain(D,a)=\rho \times Gain(\tilde{D},a)$

其中 $\rho$ 是屬性a上無缺失值樣本所佔的比例； $\tilde{D}$ 是屬性a上無缺失值的樣本子集。回顧一下ID3演算法中，資訊增益的計算方法：

$Ent(D)=-\sum_{k=1}^{|Y|}p_klog_2p_k$ $Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac{|D^v|}{|D|}Ent(D^v)$

色澤：

$Ent(\tilde{D})=-(\frac{6}{14}log_2\frac{6}{14}+\frac{8}{14}log_2\frac{8}{14})=0.985$

另 $\tilde{D}^1,\tilde{D}^2,\tilde{D}^3$ 分別表示“色澤”屬性上取值為“青綠”、“烏黑”、“淺白”的樣本子集。

$Ent(\tilde{D^1})=-(\frac{2}{4}log_2\frac{2}{4}+\frac{2}{4}log_2\frac{2}{4})=1$

$Ent(\tilde{D^2})=-(\frac{4}{6}log_2\frac{4}{6}+\frac{2}{6}log_2\frac{2}{6})=0.918$

$Ent(\tilde{D^3})=-(\frac{0}{4}log_2\frac{0}{4}+\frac{4}{4}log_2\frac{4}{4})=0$

$Gain(\tilde{D},a) = 0.985-\left (\frac{4}{14}\times1+ \frac{6}{14}\times0.918+\frac{4}{14}\times0\right ) = 0.306$

$Gain(D,a)=\rho \times Gain(\tilde{D},a) = \frac{14}{17}\times0.306=0.252$

同樣可以計算出其他幾個屬性的資訊增益：

屬性	色澤	根蒂	敲聲	紋理	臍部	觸感
資訊增益	0.252	0.171	0.145	*0.424*	0.289	0.006

因此，選擇“紋理”作為根節點進行劃分。編號為{1,2,3,4,5,6,15}的7個樣本進入“紋理=清晰”的分支，編號為{7,9,13,14,17}的5個樣本進入“紋理=稍糊”的分支，編號為{11,12,16}的3個樣本進入“紋理=模糊”的分支。

那麼選定了劃分屬性，若樣本在該屬性上的值是缺失的，那麼該如何對這個樣本進行劃分？（也就是問題2）

重點來了：對於編號為8和10的缺失值樣本，將分別以7/15、5/15、3/15的權重劃分到以上3個分支。也就是說，將缺失值樣本按不同的概率劃分到了所有分支中，而概率則等於無缺失值樣本在每個分支中所佔的比例。

這裡引入了權重的概念，在學習開始時，樣本的預設權重為1，對於無缺失值的樣本，劃分到子節點時其權重保持不變。

樣本有了權重，我們需要對資訊增益的計算公式做一些改進。

$Gain(D,a)=\rho \times Gain(\tilde{D},a)=\rho \times \left ( Ent( \tilde{D} ) -\sum_{v=1}^{V} \tilde{r}_vEnt( \tilde{D}^v ) \right )$

$Ent(\tilde{D})=-\sum_{k=1}^{|Y|}\tilde{p}_klog_2\tilde{p}_k$

$\rho =\frac {\sum_{x\in \tilde{D}}w_x }{\sum_{x\in D}w_x}$ （無缺失值樣本所佔的比例，樣本的個數按權重 $w_x$ 來計算）

$\tilde{p}_k =\frac {\sum_{x\in \tilde{D}_k}w_x }{\sum_{x\in \tilde{D}}w_x}$ （無缺失值樣本中第k類所佔的比例，樣本的個數按權重 $w_x$ 來計算）

$\tilde{r}_v =\frac {\sum_{x\in \tilde{D}^v}w_x }{\sum_{x\in \tilde{D}}w_x}$ （無缺失值樣本中屬性a上取值為 $a^v$ 的樣本所佔的比例，樣本個數按權重 $w_x$ 來計算）

下面我們再以“紋理=清晰”這個分支為例，看看下一步將如何劃分：

色澤：

$\rho =\frac {\sum_{x\in \tilde{D}}w_x }{\sum_{x\in D}w_x}=\frac{5+2\times\frac{7}{15}}{7+2\times\frac{7}{15}}=0.748$

$\tilde{p}_1 =\frac {\sum_{x\in \tilde{D}_1}w_x }{\sum_{x\in \tilde{D}}w_x}=\frac{4+\frac{7}{15}}{5+2\times\frac{7}{15}}=0.753$ （無缺失值樣本中，好瓜的比例）

$\tilde{p}_2 =\frac {\sum_{x\in \tilde{D}_2}w_x }{\sum_{x\in \tilde{D}}w_x}=\frac{1+\frac{7}{15}}{5+2\times\frac{7}{15}}=0.247$ （無缺失值樣本中，壞瓜的比例）

$\tilde{r}_1 =\frac {\sum_{x\in \tilde{D}^1}w_x }{\sum_{x\in \tilde{D}}w_x}=\frac{3+\frac{7}{15}}{5+2\times\frac{7}{15}}=0.584$ （無缺失值樣本中，“色澤=烏黑”的樣本的比例）

$\tilde{r}_2 =\frac {\sum_{x\in \tilde{D}^2}w_x }{\sum_{x\in \tilde{D}}w_x}=\frac{2+\frac{7}{15}}{5+2\times\frac{7}{15}}=0.416$ （無缺失值樣本中，“色澤=青綠”的樣本的比例）

$Ent(\tilde{D})=-\sum_{k=1}^{|Y|}\tilde{p}_klog_2\tilde{p}_k=-0.753 \times log_20.753-0.247 \times log_20.247 = 0.806$

$Ent(\tilde{D^1})=-(\frac{2.467}{3.467}log_2\frac{2.467}{3.467}+\frac{1}{3.467}log_2\frac{1}{3.467})=0.867$ （“色澤=烏黑”）

$Ent(\tilde{D^2})=-(\frac{2}{2.467}log_2\frac{2}{2.467}+\frac{0.467}{2.467}log_2\frac{0.467}{2.467})=0.700$ （“色澤=青綠”）

$Gain(D,a)=\rho \times \left ( Ent( \tilde{D} ) -\sum_{v=1}^{V} \tilde{r}_vEnt( \tilde{D}^v ) \right )$

$=0.748 \times \left ( 0.806-0.584\times 0.867- 0.416 \times 0.700\right )=0.006$

根蒂：

無缺失值， $\rho =1$

無缺失值樣本中，正負樣本所佔比例：

$\tilde{p}_1 =\frac{6+\frac{7}{15}}{7+2\times\frac{7}{15}}=0.815$ $\tilde{p}_2 =\frac{1+\frac{7}{15}}{7+2\times\frac{7}{15}}=0.185$

屬性值為“蜷縮”、“稍蜷”、“硬挺”的樣本比例：

$\tilde{r}_1 =\frac{5}{7+2\times\frac{7}{15}}=0.630$ $\tilde{r}_2 =\frac{2+\frac{7}{15}}{7+2\times\frac{7}{15}}=0.311$ $\tilde{r}_3 =\frac{\frac{7}{15}}{7+2\times\frac{7}{15}}=0.059$

$Ent(\tilde{D})=-0.815 \times log_20.815-0.185 \times log_20.185 = 0.691$

$Ent(\tilde{D^1})=-(\frac{5}{5}log_2\frac{5}{5}+\frac{0}{5}log_2\frac{0}{5})=0$

$Ent(\tilde{D^2})=-(\frac{1.467}{2.467}log_2\frac{1.467}{2.467}+\frac{1}{2.467}log_2\frac{1}{2.467})=0.974$

$Ent(\tilde{D^3})=-(\frac{0}{0.467}log_2\frac{0}{0.467}+\frac{0.467}{0.467}log_2\frac{0.467}{0.467})=0$

$Gain(D,a)=1 \times \left ( 0.691-0.630\times 0- 0.311 \times 0.974-0.059 \times 0\right )=0.388$

敲聲：

$\rho =\frac{6+2\times\frac{7}{15}}{7+2\times\frac{7}{15}}=0.874$

無缺失值樣本中，正負樣本所佔比例：

$\tilde{p}_1 =\frac{5+\frac{7}{15}}{6+2\times\frac{7}{15}}=0.856$ $\tilde{p}_2 =\frac{1}{6+2\times\frac{7}{15}}=0.144$

屬性值為“濁響”、“沉悶”、“清脆”的樣本比例：

$\tilde{r}_1 =\frac{4+\frac{7}{15}}{6+2\times\frac{7}{15}}=0.644$ $\tilde{r}_2 =\frac{2}{6+2\times\frac{7}{15}}=0.288$ $\tilde{r}_3 =\frac{\frac{7}{15}}{6+2\times\frac{7}{15}}=0.067$

$Ent(\tilde{D})=-0.856 \times log_20.856-0.144 \times log_20.144 = 0.595$

$Ent(\tilde{D^1})=-(\frac{3.467}{4.467}log_2\frac{3.467}{4.467}+\frac{1}{4.467}log_2\frac{1}{4.467})=0.767$

$Ent(\tilde{D^2})=-(\frac{2}{2}log_2\frac{2}{2}+\frac{0}{2}log_2\frac{0}{2})=0$

$Ent(\tilde{D^3})=-(\frac{0}{0.467}log_2\frac{0}{0.467}+\frac{0.467}{0.467}log_2\frac{0.467}{0.467})=0$

$Gain(D,a)=0.874 \times \left ( 0.595-0.644\times 0.767- 0.288 \times 0-0.067 \times 0\right )=0.088$

臍部：

$\rho =\frac{5+2\times\frac{7}{15}}{7+2\times\frac{7}{15}}=0.748$

無缺失值樣本中，正負樣本所佔比例：

$\tilde{p}_1 =\frac{5+\frac{7}{15}}{5+2\times\frac{7}{15}}=0.921$ $\tilde{p}_2 =\frac{\frac{7}{15}}{5+2\times\frac{7}{15}}=0.079$

屬性值為“凹陷”、“稍凹”、“平坦”的樣本比例：

$\tilde{r}_1 =\frac{5}{5+2\times\frac{7}{15}}=0.843$ $\tilde{r}_2 =\frac{\frac{7}{15}}{5+2\times\frac{7}{15}}=0.079$ $\tilde{r}_3 =\frac{\frac{7}{15}}{5+2\times\frac{7}{15}}=0.079$