【機器學習】決策樹剪枝優化及視覺化

前言

$\quad\quad$ 前面，我們介紹了分類決策樹的實現，以及用 sklearn 庫中的 DecisionTreeClassifier 和 DecisionTreeRegressor 類實現了分類決策樹和迴歸決策樹的一些案例。

具體可見：分類決策樹與迴歸決策樹

其中，我們也對決策樹的不同深度對模型的欠擬合和過擬合的影響進行了比較。

本篇原始碼可見：Github

一、欠擬合與過擬合

$\quad\quad$ 我們在構建決策樹的時候，為了儘可能正確分類訓練樣本，節點劃分過程不斷重複，有時候就會導致決策樹節點過多，使得模型對訓練樣本學得 “過好” ，以至於把訓練樣本的一些個別特徵資訊也當做一般性質，從而導致 “過擬合”；如果節點過少，就會導致訓練樣本的特徵資訊不能夠很好的學習到，從而導致 “欠擬合”。

在這裡插入圖片描述

圖中，藍色的線由於學習訓練樣本的太好，將噪聲資訊也學習到了，所以導致了過擬合；而黃色的線，決策樹深度只有一層，說明只劃分了一次，明顯出現了欠擬合。

對此，我們可以通過主動去掉一些分支來降低過擬合的風險，也就是 “剪枝處理”。

二、剪枝處理

決策樹的剪枝處理是決策樹演算法中最基本、最有用的一種優化方案，主要分為兩大類：

前置剪枝：

前置剪枝是指在決策樹生成過程中，對每個節點在劃分前先進行評估，若當前節點的劃分不能夠給模型帶來泛化效能的提升，則停止劃分並將當前節點標記為葉節點；

後置剪枝：

後置剪枝則是先從訓練樣本生成一棵完整的決策樹，然後自底向上地對非葉節點進行考察，若將該節點對應的子樹替換為葉節點能夠給模型帶來泛化效能的提升，則將該子樹替換為葉節點。

那麼我們如何檢視模型的泛化效能是否提升呢？

下面我們通過周志華的《機器學習》中的西瓜資料來詳細介紹剪枝過程。假設有如下西瓜資料：

訓練集

編號	色澤	根蒂	敲聲	紋理	臍部	觸感	好瓜
1	青綠	蜷縮	濁響	清晰	凹陷	硬滑	是
2	烏黑	蜷縮	沉悶	清晰	凹陷	硬滑	是
3	烏黑	蜷縮	濁響	清晰	凹陷	硬滑	是
6	青綠	稍蜷	濁響	清晰	稍凹	軟粘	是
7	烏黑	稍蜷	濁響	稍糊	稍凹	軟粘	是
–	–	–	–	–	–	–	–
10	青綠	硬挺	清脆	清晰	平坦	軟粘	否
14	淺白	稍蜷	沉悶	稍糊	凹陷	硬滑	否
15	烏黑	稍蜷	濁響	清晰	稍凹	軟粘	否
16	淺白	蜷縮	濁響	模糊	平坦	硬滑	否
17	青綠	蜷縮	沉悶	稍糊	稍凹	硬滑	否

測試集

編號	色澤	根蒂	敲聲	紋理	臍部	觸感	好瓜
4	青綠	蜷縮	沉悶	清晰	凹陷	硬滑	是
5	淺白	蜷縮	濁響	清晰	凹陷	硬滑	是
8	烏黑	稍蜷	濁響	清晰	稍凹	硬滑	是
–	–	–	–	–	–	–	–
9	烏黑	稍蜷	沉悶	稍糊	稍凹	硬滑	否
11	淺白	硬挺	清脆	模糊	平坦	硬滑	否
12	淺白	蜷縮	濁響	模糊	平坦	軟粘	否
13	青綠	稍蜷	濁響	稍糊	稍凹	硬滑	否

1、由測試集構建決策樹

計算原資訊熵：
$p(好瓜_是) = \frac{1}{2} \quad\quad p(好瓜_否)=\frac{1}{2}$
$Ent(D) = -\frac{1}{2}log\frac{1}{2} -\frac{1}{2}log\frac{1}{2} = 1$
計算第一個特徵色澤的資訊熵

$p(青綠) = \frac{4}{10} = \frac{2}{5} \quad\quad p(烏黑) = \frac{4}{10} = \frac{2}{5} \quad\quad p(淺白) = \frac{2}{10} = \frac{1}{5}$
$p(好瓜|青綠) = \frac{2}{4} = \frac{1}{2} \quad\quad p(壞瓜|青綠) = \frac{2}{4} = \frac{1}{2}$
$p(好瓜|烏黑) = \frac{3}{4} \quad\quad p(壞瓜|烏黑) = \frac{1}{4}$
$p(好瓜|淺白) =0 \quad\quad p(壞瓜|淺白) = 1$
$Ent(青綠) = - \frac{1}{2}log \frac{1}{2} - \frac{1}{2}log \frac{1}{2} = 1$
$Ent(烏黑) = - \frac{3}{4}log \frac{3}{4} - \frac{1}{4}log \frac{1}{4} \approx 0.8113$
$Ent(淺白) = - 0log 0- 1log 1 = 0$
$Gain(色澤)= Ent(D) - p(青綠)Ent(青綠)-p(烏黑)Ent(烏黑)- p(淺白)Ent(淺白) \approx 0.276$

【機器學習】決策樹剪枝優化及視覺化

前言

一、欠擬合與過擬合

二、剪枝處理

1、由測試集構建決策樹

【機器學習】決策樹剪枝優化及視覺化

【機器學習】決策樹與隨機森林（轉）

【機器學習】決策樹演算法（二）— 程式碼實現

【機器學習】決策樹（基於ID3,C4.5,CART分類迴歸樹演算法）—— python3 實現方案

【機器學習】決策樹（下)CART演算法分類樹、迴歸樹

【機器學習】決策樹（上）

【機器學習】決策樹總結

【機器學習】決策樹（上）——從原理到演算法實現

【機器學習】決策樹（三）——生成演算法（ID3、C4.5與CRAT）

【機器學習】決策樹演算法的基本原理

【機器學習】決策樹（二）——通過例子理解構建過程

【機器學習】決策樹01

【Machine Learning·機器學習】決策樹之ID3演算法(Iterative Dichotomiser 3)

【機器學習】神經網路DNN的正則化

【機器學習】Tensorflow:理解和實現快速風格化影象fast neural style

【機器學習】支援向量機SVM及例項應用

【WPF學習】第四十五章視覺化物件

【機器學習】分類決策樹與迴歸決策樹案例

【機器學習】CART分類決策樹+程式碼實現

【機器學習】分類決策樹基本介紹+程式碼實現

【機器學習】決策樹剪枝優化及視覺化

前言

一、欠擬合與過擬合

二、剪枝處理

1、由測試集構建決策樹

相關推薦