自己自學機器學習的相關知識，過了一遍西瓜書後準備再刷一遍，後來在看別人打比賽的程式碼時多次用到XGBoost，lightGBM，遂痛下決心認真學習機器學習關於樹的知識，自己學習的初步流程圖為：

決策樹（ID3,C4.5）---->CART----->Boost Tree---->Gradient Boosting Decision Tree(GBDT)----->XGBoost------>lightGBM

後面還會補上，Bagging，RF(Random Forest），那麼機器學習中關於樹的知識算是入門了！

一決策樹（ID3演算法基礎）

決策樹模型是是一種描述對例項進行分類的樹形結構。決策樹由結點（node）和有向邊（directed edge）組成。結點有兩種型別：內部結點（internal node）和葉結點（leaf node）。內部結點表示一個特徵或屬性，葉結點表示一個類（即決策的結論）

下圖是一個決策樹的示例（注意我們僅用了兩個feature就對資料集中的5個記錄實現了準確的分類）：

上圖問題我們採用Headache特徵作為根節點劃分，那麼當然我們也可以採用其他特徵如：cough,temperatu等特徵劃分，所以我們要解決的問題是依據什麼特徵對資料集進行劃分最為合理

資訊熵：

熵：源於物理學中度量一個熱力學系統的無序程度。而在資訊學中，熵是對不確定的度量（即混亂程度的度量），1948年，夏農引入了資訊熵的概念

資訊熵：為離散隨機事件出現的概率。一個系統越有序，資訊熵就越低；反之，一系統越是混亂，它的資訊熵就越高。所以資訊熵可以被認為是系統有序化的度量。

假設當前樣本集合D中第k類樣本所佔的比例為 $p_k$ （k=1,2,3,...,N），則D的資訊熵定義為：

$Ent(D) = -\sum _{y=1}^Np_klog_2p_k$

計算資訊熵時約定：若 $p=0$ ，則 $plog_2p = 0$ ,顯然當N=1時 $Ent(D) = 0$ 最小;當 $N\to\infty$ , $Ent(D) = log_2\mid N\mid$ ,因為資訊熵是衡量一系統不確定（本人喜歡用混亂這個詞）程度，顯然 $Ent(D)$ 越大，這當前集合 $D$ 的混亂程度越高！

具體計算來看下面的一個簡單的例子，以二分類為例（ $C1$ 表示第一類， $C2$ 表示第二類）：

現在我們需要一個定量來找到最佳的劃分點

資訊增益（information gain） :

假設離散特徵 $A$ （如上面的例子中的Headache）有 $V$ 個可能的屬性取值 $\left \{ a^1,a^2,...,a^V\right \}$ ,(如特徵headache的severe，no，mild），若使用離散特徵 $A$ 來對樣本集合 $D$ 進行劃分，則會產生 $V$ 個分支結點，其中第 $v$ 個分支結點包含了集合 $D$ 中所用在特徵 $A$ 中屬性為 $a^v$ 的樣本，記為 $D^v$ ，而 $\left | D^v \right |$ 即屬性為 $a^v$ 的樣本個數,我們可以根據資訊熵公式算出 $D^v$ 的資訊熵 $Ent(D^v)$ ,再考慮到不同的分支結點所包含的樣本數不同，給分支結點賦予權重 $\left | D^v \right |/\left | D \right |$ ,即樣本數越多的分支結點的影響越大，於是便可計算出用特徵 $A$ 對樣本集 $D$ 進行劃分所獲得的“資訊增益（information gain）”：

$Gain(D,A) = Ent(D) - \sum _{v=1}^V\frac{\left | D^v \right |}{\left | D \right |}Ent(D^v)$

現在我們用上面的例子依次計算下分別取特徵（headache，Cough，Temperature，Sore）的資訊增益就一目瞭然：

首先要先計算 $Ent(D)$ ：顯然，這是一個二分類問題，我們要根據特徵來診斷病人是Flu，還是Cold兩類，所以公式中的 $N=2$ ，當前樣本 $D$ 中的樣本個數為 $\left | D \right | = 5$ ;

分類為Flu的樣本個數為 $\left | D^{flu}\right | = 3$ (即病人編號為p1,p3,p5),則 $p_{Flu} = \left | D^{Flu} \right | / \left | D \right | = 3 / 5=0.6$

分類為cold的樣本個數為 $\left | D^{cold} \right | = 2$ （即病人編號為p2,p4）;則 $p_{cold} = \left | D^{cold} \right | / \left | D} \right | = 2 / 5 = 0.4$

故

$Ent(D) = -\sum _{y=1}^Np_klog_2p_k = -(0.6*log_20.6 + 0.4*log_20.4) = 0.97$

（1）計算特徵值為Headache的資訊增益 $Gain(D,A=Headache)$

1：特徵headache的屬性值分別為severe，no，mild：

則 $\left | D^{severe} \right | = 2$ $\left | D^{severe} \right | / \left | D \right | = 2 / 5 = 0.4$

$\left | D^{no} \right | = 1$ $\left | D^{no} \right | / \left | D \right | = 1 / 5 = 0.2$

$\left | D^{mild} \right | = 2$ $\left | D^{mild} \right | / \left | D \right | = 2 / 5 = 0.4$

2:分別計算 $Ent(D^{severe}),Ent(D^{no}),Ent(D^{mild})$ :

i): $D^{severe}$ = $\left \{ p1,p5 \right \}$ 兩個樣本，所以：

$Ent(D^{severe}) = -(2/2 * log_22/2 + 0/2 *log_20/2) = 0$

ii): $D^{no}$ = $\left \{ p2 \right \}$ 一個樣本，所以：

$Ent(D^{no}) = -(0/1 * log_20/1 + 1/ 1*log_21/1) = 0$

Iii): $D^{mild}$ = $\left \{ p3,p4 \right \}$ 兩個樣本，所以：

$Ent(D^{mild}) = -(1/2 * log_21/2 + 1/2 *log_21/2) = 1.0$

3.計算headache的資訊增益（將上面的值依次帶入公式）

$Gain(D,A=Headache)$ = $0.97 - (0.4*0 +0.2*0+0.4*1 ) = 0.57$

（2）分別計算特徵值為Cough,Temperature,Sore資訊增益 $Gain(D,A=Cough)$ ， $Gain(D,A=Temperature)$

$Gain(D,A=Sore)$

與上面的求Headache的步驟一樣，在這裡不在詳細寫出

$Gain(D,A=Cough)$ = $0.97-(0.4*0+0.4*1+0.2*0)=0.57$

$Gain(D,A=Temperature)$ = $0.97-(0.2*0+0.8*1) =0.17$

$Gain(D,A=Sore)$ = $0.97-(0.8*0.75+0.2*0) = 0.37$

（3）比較每個特徵的資訊增益，選取最大的特徵進行劃分（在這裡Headache與Cough資訊增益相同，我們選取Headache劃分），之後再對每一個劃分後的子集進行相同的步驟（已用的特徵將不再以後的劃分中使用），一般情況下葉子節點的生成滿足以下步驟：

i):當前結點包含的樣本全屬於同一類別，將不再劃分並作為葉子結點，其類別標籤為樣本的類別

ii):當前屬性集為空，或是所有樣本在所有屬性上取值相同，將不再劃分並作為葉子結點，其類別標籤為該結點所含樣本最多的類別

iii):當前結點包含的樣本集合為空，不能劃分並將該結點作為葉子結點，但將其類別設定為其父結點所含樣本最多的類別

（我的理解是：以上例子來說，我們假設先取Headache劃分，則severe中的樣本為（p1，p5），然後在子集（p1，p5）中，我們假設用Sore的特徵劃分這個子集，那麼在Sore中屬性值為no的樣本是沒有的，這個時候就用它的父結點的樣本最多的類別來做該葉結點（空集）的類別）

實際上，資訊增益準則對可取值數目較多的屬性有所偏好，為減小這種偏好可能帶來的不利影響，下面介紹著名的C4.5演算法

二 C4.5演算法

C4.5演算法採用增益率（Gain ratio）來選擇最優劃分特徵，我們來看看增益率的計算公式：

$Gain Ratio(D,A) = \frac{Gain(D,A)}{IV(A)}$

其中：

$IV(A) = -\sum_{v=1}^{V}\frac{\left | D^v \right |}{\left | D \right |}log_2\frac{\left | D^v \right |}{\left | D \right |}$

稱為特徵A的固有值（intrinsic value），特徵A的可能取值數目越多（即 $V$ 越大），則 $IV(A)$ 的值通常會越大，需要注意的是，增益率準則對可取值數目較少的特徵有所偏好，因此，C4.5演算法並不是直接選擇增益率最大的候選劃分特徵，而是使用了一個啟發式：先從候選劃分屬性中找出一個信心增益高於平均水平的特徵，再從中選擇增益率最高的。

連續與缺失值處理：

一連續值處理：到目前為止我們都是用離散特徵來生成決策樹，但現實學習中有很多連續特徵，因為連續特徵的可取數目不再有限，因此，不能直接根據連續特徵的可取值來對結點進行劃分，在這裡，我們採用的策略是二分法（bi-partition）對連續特徵進行處理。

給定樣本集 $D$ 和連續特徵 $a$ ，假定 $a$ 在 $D$ 上有 $n$ 個不同的取值，其中第 $n$ 個取值記為 $a^n$ ：

1:將這些值從小到大進行排序，記為 $\left \{ a^1,a^2,...,a^n \right \}$ ;

2:基於劃分點 $t$ 可將樣本集 $D$ 分為子集 $D_{t}^{-}$ 和 ${D_{t}^{+}}$ ,其中 $D_{t}^{-}$ 包含那些在特徵 $a$ 上取值不大於 $t$ 的樣本， $\left |D_{t}^{-} \right |$ 表示其樣本個數；而 ${D_{t}^{+}}$ 則包含那些在特徵 $a$ 上取值大於 $t$ 的樣本， $\left |D_{t}^{-} \right |$ 則表示取值大於 $t$ 的樣本個數；

3:把區間 $[a^i,a^{i+1})$ 的中位點 $\frac{a^i+a^{i+1}}{2}$ 作為候選劃分點。因此，對連續特徵 $a$ ，我們可考察包含 $n-1$ 個元素的候選劃分點集合

$T_a=\left \{ \frac{a^i+a^{i+1}}{2}\mid 1\leq i\leq n-1 \right \}$

4:然後我們可以像離散屬性值一樣來考察這些劃分點，選取最優的劃分點進行樣本集合的劃分，則屬性 $a$ 的資訊增益公式為：

$Gain(D,a)=\underset{t\in T_a}{max} Gain(D,a,t)$

$=\underset{t\in T_a}{max}Ent(D)-\sum _{\lambda \in \left \{ -,+ \right \}}\frac{\left | D_{t}^{\lambda } \right |}{\left | D \right |}Ent(D_{t}^{\lambda })$

其中 $Gain(D,a,t)$ 是樣本集 $D$ 基於劃分點 $t$ 二分後的資訊增益，於是，我們就可選擇使 $Gain(D,a,t)$ 最大化的劃分點

具體計算參考下面的一個例子即一目瞭然：假設我們有6個樣本，其一個特徵 $x$ 為連續特徵，現計算其特徵 $x$ 的資訊增益，具體步驟與例子如下：

編號	1	2	3	4	5	6
$x$	0.5	0.4	0.1	0.6	0.3	0.2
$y$	0	0	1	0	1	0

i):對連續特徵 $x$ 從下到大進行排序：

編號	3	6	5	2	1	4
$x$	0.1	0.2	0.3	0.4	0.5	0.6
$y$	1	0	1	0	0	0

ii):候選劃分點 $t$ 集合：

劃分點

0.15

0.25

0.35

0.45

0.55

iii):計算每個劃分點 $t$ 對應的 $Gain(D,a,t)$ ：

先計算出 $Ent(D)$ $=$ $-(4/6*log_24/6 +2/6*log_22/6)=0.918$

1:取劃分點 $t=$ 0.15

則 $D_{t}^{-}$ = $\left \{ 3 \right \}$ ， ${D_{t}^{+}}$ = $\left \{ 1,2,4,5,6 \right \}$ ；

$\frac{\left | D_t^{-} \right |}{\left | D \right |}=1/6$ ; $\frac{\left | D_t^{+} \right |}{\left | D \right |}=5/6$

$Ent(D_{t}^{- })=-(1/1log_21/1+0/1log_20/1)=0$

$Ent(D_{t}^{+ })=-(4/5log_24/5+1/5log_21/5)=0.721$

$Gain(D,a,t)=0.918-(\frac{1}{6}*0+\frac{5}{6}*0.721)=0.317$

2:取劃分點 $t=$ 0.25

則 $D_{t}^{-}$ = $\left \{ 3,6 \right \}$ ， ${D_{t}^{+}}$ = $\left \{ 1,2,4,5\right \}$ ；

$\frac{\left | D_t^{-} \right |}{\left | D \right |}=2/6$ ; $\frac{\left | D_t^{+} \right |}{\left | D \right |}=4/6$

$Ent(D_{t}^{- })=-(1/2log_21/2+1/2log_21/2)=1.0$

$Ent(D_{t}^{+ })=-(3/4log_23/4+1/4log_21/4)=0.811$

$Gain(D,a,t)=0.918-(\frac{2}{6}*1.0+\frac{4}{6}*0.811)=0.044$

3:取劃分點 $t=$ 0.35

則 $D_{t}^{-}$ = $\left \{ 3,6,5 \right \}$ ， ${D_{t}^{+}}$ = $\left \{ 1,2,4\right \}$ ；

$\frac{\left | D_t^{-} \right |}{\left | D \right |}=3/6$ ; $\frac{\left | D_t^{+} \right |}{\left | D \right |}=3/6$

$Ent(D_{t}^{- })=-(2/3log_22/3+1/3log_21/3)=0.918$

$Ent(D_{t}^{+ })=-(3/3log_23/3+0/3log_20/3)=0$

$Gain(D,a,t)=0.918-(\frac{3}{6}*0.918+\frac{3}{6}*0)=0.459$

4:取劃分點 $t=$ 0.45

則 $D_{t}^{-}$ = $\left \{ 3,6,5,2 \right \}$ ， ${D_{t}^{+}}$ = $\left \{ 1,4\right \}$ ；

$\frac{\left | D_t^{-} \right |}{\left | D \right |}=4/6$ ; $\frac{\left | D_t^{+} \right |}{\left | D \right |}=2/6$

$Ent(D_{t}^{- })=-(2/4log_22/4+2/4log_22/4)=1$

$Ent(D_{t}^{+ })=-(2/2log_22/2+0/2log_20/2)=0$

$Gain(D,a,t)=0.918-(\frac{4}{6}*1+\frac{2}{6}*0)=0.251$

5:取劃分點 $t=$ 0.55

則 $D_{t}^{-}$ = $\left \{ 3,6,5,2,1 \right \}$ ， ${D_{t}^{+}}$ = $\left \{ 4\right \}$ ；

$\frac{\left | D_t^{-} \right |}{\left | D \right |}=5/6$ ; $\frac{\left | D_t^{+} \right |}{\left | D \right |}=1/6$

$Ent(D_{t}^{- })=-(2/5log_22/5+3/5log_23/5)=0.970$

$Ent(D_{t}^{+ })=-(1/1log_21/1+0/1log_20/1)=0$

$Gain(D,a,t)=0.918-(\frac{5}{6}*0.970+\frac{1}{6}*0)=0.109$

iV):比較每個劃分點 $t$ 對應的 $Gain(D,a,t)$ ，取最大的作為劃分點：

顯然 $t=$ 0.35時 $Gain(D,a,t)$ 最大，故取其作為該連續特徵的劃分點。

須知，與離散特徵不同，若當前結點劃分特徵為連續特徵，那麼該特徵還可作為其後代結點的劃分特徵！

注意：其實連續值得處理有一個最優化的方法，不需要逐個計算每個劃分點的 $Gain(D,a,t)$ ，僅考慮位於具有不同類標號的兩個相鄰記錄之間的候選劃分點，最佳劃分點一定是在這些候選劃分點中的一個，例如上面的不同類別劃分點有 $t = \left \{ 0.15,0.25,0.35 \right \}$ 這3個，因此大大簡化了計算；這是因為資訊增益的目的是找出一個劃分點能最好的劃分將相同的類別放在一起，將不同的類別分開，所以若一個劃分點左邊與右邊的樣本類別相同，但我們將他們分開，顯然是不合理的，所以我們僅需考慮位於不同類別標籤之間的候選劃分點即可！！！

二缺失值處理：現實任務中常會遇到不完整的樣本，即樣本某些特徵值缺失。如果簡單地放棄不完整樣本，僅使用無缺失值的樣本進行學習，顯然是對資料資訊極大的浪費，下表是我們以前使用的例子，但一些特徵的特徵值已經缺失，如果放棄不完整的樣本，則僅有一個樣本可為我們所用!

所以，我們需要解決兩個問題 ：

（1）：如何在特徵值缺失的情況下進行劃分特徵選擇；

（2）：給定劃分特徵，若樣本在該特徵上的值缺失，如何對樣本進行劃分？

對缺失值得處理的核心想法是為每個特徵都附加一個權重 $p_{A}$ ,每一個樣本都附加一個權重 $w_x$ ,在決策樹學習開始階段，根結點中各樣本的權重初始化為1

接下來我們看看如何在特徵值缺失的情況下進行劃分特徵選擇。

（1）特徵值缺失的情況下進行劃分特徵選擇

給定訓練集 $D$ 和特徵 $A$ ，令 $\widetilde{D}$ 表示 $D$ 中特徵 $A$ 上沒有缺失值得樣本集合，顯然我們可以僅根據 $\widetilde{D}$ 來判斷用特徵 $A$ 劃分時的資訊增益；假設特徵 $A$ 有 $V$ 個可取值 $\left \{ a^1,a^2,...,a^v \right \}$ ，令 $\widetilde{D}^v$ 表示 $\widetilde{D}$ 中特徵 $A$ 上取值為 $a^v$ 樣本子集； $\widetilde{D}_k$ 表示 $\widetilde{D}$ 中屬於第 $k$ 類（ $k=1,2,...,N$ ）的樣本子集，現假設我們為每個樣本 $x$ 賦予一個權重 $w_x$ ，直觀地看，對特徵 $A$ 來說，定義以下3個佔比：

$\rho =\frac{\sum _{x\in \widetilde{D}}w_x}{\sum_{x\in D}w_x }$ （ $\rho$ 表示無缺失值樣本佔訓練集 $D$ 的比例，即前面提到的特徵的權重 $p_{A}$ ，算資訊增益用）

$\widetilde{p_k}=\frac{\sum _{x\in \widetilde{D_k}}w_x}{\sum _{x\in \widetilde{D}}w_x}$ （ $\widetilde{p_k}$ 表示無缺失值樣本中第 $k$ 類樣本的權重之和與無缺失值樣本的權重之和的比例，算資訊熵用）

$\widetilde{r_v}=\frac{\sum _{x\in \widetilde{D^v}}w_x}{\sum _{x\in \widetilde{D}}w_x}$ （ $\widetilde{r_v}$ 表示無缺失值樣本中特徵值為 $a^v$ 的樣本權重之和與無缺失值樣本的權重之和的比例，算資訊增益用）

基於上述定義，我們可將資訊增益的計算式推廣為如下公式（注意上面幾個引數的用處）：

$Gain(D,A)=\rho \times Gain(\widetilde{D},A)$

$=\rho \times\left ( Ent(\widetilde{D})-\sum _{v=1}^{V}\widetilde{r_v}Ent(\widetilde{D}^v) \right )$ ,

其中：

$Ent(\widetilde{D})=-\sum _{v=1}^{N}\widetilde{p_k}log_2\widetilde{p_k}$

直接看上面的公式有些晦澀難懂，其實跟前面學的資訊增益相差無幾，我們就簡單的以上面的例子計算一下：我們想算出特徵為Headache的資訊增益，其他的類似

訓練集 $D$ = $\left \{ p1,p2,p3,p4,p5 \right \}$ ； $\widetilde{D}$ = $\left \{ p1,p2,p3,p4 \right \}$ ； $\widetilde{D}_{flu}$ = $\left \{ p1,p3 \right \}$ ; $\widetilde{D}_{cold}$ = $\left \{ p2,p4 \right \}$ ; 同樣 $N=2$ ；為每個樣本賦予權重 $w_x$ =1；

接下來我們開始一個一個的根據公式算出引數：

$\rho =(1+1+1+1) / (1+1+1+1+1) = 4/5$ (不是樣本個數比，是權重之和的比值)

$\widetilde{p}_{flu}=(1+1)/(1+1+1+1)) = 1/2$

$\widetilde{p}_{cold}=(1+1)/(1+1+1+1)) = 1/2$

$\widetilde{r}_{severe}=(1)/(1+1+1+1)=1/4$

$\widetilde{r}_{no}=(1)/(1+1+1+1)=1/4$

$\widetilde{r}_{mild}=(1+1)/(1+1+1+1)=1/2$

$Ent(\widetilde{D})=-(2/4*log_22/4+2/4*log_22/4)=1$

$Ent(\widetilde{D}^{severe})=-(1/1*log_21/1+0/1*log_20/1)=0$

$Ent(\widetilde{D}^{no})=-(1/1*log_21/1+0/1*log_20/1)=0$

$Ent(\widetilde{D}^{mild})=-(1/2*log_21/2+1/2*log_21/2)=1$

萬事俱備只欠帶公式啦：

$Gain(D,A)=\rho \times Gain(\widetilde{D},A)$

$=4/5\times (1-(1/4*0+1/4*0+1/2*1))=0.4$

相關推薦

機器學習爬大樹之決策樹（ID3,C4.5）

自己自學機器學習的相關知識，過了一遍西瓜書後準備再刷一遍，後來在看別人打比賽的程式碼時多次用到XGBoost，lightGBM，遂痛下決心認真學習機器學習關於樹的知識，自己學習的初步流程圖為：決策樹（ID3,C4.5）---->CART-----&

機器學習爬大樹之決策樹（CART與剪枝）

  分類與迴歸樹（classification and regression tree，CART）是應用廣泛的決策樹學習方法，同樣由特徵選擇，樹的生成以及剪枝組成，既可以用於分類也可以用於迴歸。CART假設假設決策樹是二叉樹，內部結點特徵

機器學習筆記：決策樹（ID3,C4.5,CART）

學習資料：《統計學習方法》，《機器學習》(周志華)，韓小陽ppt，鄒博ppt。決策樹是一種樹形結構，對例項進行分類和迴歸的，下面主要說的是用來進行分類，最後說道CART的時候也會說到決策樹用到迴歸問題上。 1、決策樹模型與學習先給出分類決策樹模型定義：是一種對例項資料進行

python機器學習案例系列教程——決策樹（ID3、C4.5、CART）

決策樹簡介決策樹算是最好理解的分類器了。決策樹就是一個多層if-else函式，就是對物件屬性進行多層if-else判斷，獲取目標屬性（類標籤）的類別。由於只使用if-else對特徵屬性進行判斷，所以一般特徵屬性為離散值，即使為連續值也會先進行區間離散

決策樹（ID3 C4,5 減枝 CART演算法）以及Python實現

演算法簡述在《統計學習方法》中，作者的if-then的描述，簡單一下子讓人理解了決策樹的基本概念。決策樹，就是一個if-then的過程。本文主要學習自《統計學習方法》一書，並努力通過書中數學推導來

機器學習爬大樹之（GBDT原理）--二分類篇

上一篇文章講了GBDT的迴歸篇，其實這一篇文章的原理的思想基本與迴歸相同，不同之處在於分類任務需用的損失函式一般為logloss、指數損失函式。   回

機器學習爬大樹之（GBDT原理）--迴歸篇

   整合學習（ensemble learning）想必應該是最為火爆的機器學習演算法了，它通過構建並結合多個學習器來完成學習任務；類似於我們長說的“採百家之長”，目前的整合學習方法

十大機器學習演算法之決策樹（用於信用風險）

演算法原理 Decision Trees (DTs) 是一種用來和 regression 的無參監督學習方法。其目的是建立一種模型從資料特徵中學習簡單的決策規則來預測一個目標變數的值。決策樹類似於流程圖的樹結構，分支節點表示對一個特徵進行測試，根據測試結果進行分類，樹節點

機器學習面試知識點之決策樹相關

決策樹面試知識點最全總結（一）一：首先明確以下幾個基本問題： 1.決策樹是幹什麼用的？一種最基本的分類與迴歸方法，因為實際應用中基本上全是用來分類，所以重點討論分類決策樹。 2.決策樹優缺點：優點： 1）

機器學習實戰——1.2決策樹（2）

宣告：參考書目《機器學習實戰》作者: Peter Harrington 出版社: 人民郵電出版社譯者: 李銳 / 李鵬 / 曲亞東 / 王斌宣告：參考書目《統計學習方法》作者: 李航出版社: 清華大學出版社 ISBN: 9787302275954

機器學習實戰——1.2決策樹（1）

宣告：參考書目《機器學習實戰》作者: Peter Harrington 出版社: 人民郵電出版社譯者: 李銳 / 李鵬 / 曲亞東 / 王斌宣告：參考書目《統計學習方法》作者: 李航出版社: 清華大學出版社 ISBN: 9787302275954

機器學習經典演算法之決策樹

一、背景及問題決策樹演算法是為了解決二分類問題出現的，是根據歷史經驗（或訓練集）來做判斷，生成決策結果（或樹狀圖）的過程。 /*請尊重作者勞動成果，轉載請標明原文連結：*/ /* https://www.cnblogs.com/jpcflyer/p/11037256.html

機器學習分類演算法之K近鄰（K-Nearest Neighbor）

一、概念 KNN主要用來解決分類問題，是監督分類演算法，它通過判斷最近K個點的類別來決定自身類別，所以K值對結果影響很大，雖然它實現比較簡單，但在目標資料集比例分配不平衡時，會造成結果的不準確。而且KNN對資源開銷較大。二、計算通過K近鄰進行計算，需要： 1、載入打標好的資料集，然

機器學習：決策樹及ID3,C4.5,CART演算法描述

文章目錄概念理解熵: 條件熵: 資訊增益，互資訊: 資訊增益比基尼指數 ID3演算法描述 C4.5演算法描述 CART (Classification and Regression Tree

決策樹模型 ID3/C4.5/CART演算法比較

決策樹模型在監督學習中非常常見，可用於分類（二分類、多分類）和迴歸。雖然將多棵弱決策樹的Bagging、Random Forest、Boosting等tree ensembel 模型更為常見，但是“完全生長”決策樹因為其簡單直觀，具有很強的解釋性，也有廣泛的應用，而且決策樹是

機器學習之決策樹（二）

天氣次數 format 定義表示葉子節點 ast 代碼 wid 一、復習信息熵　　為了解決特征選擇問題，找出最優特征，先要介紹一些信息論裏面的概念。　　1、熵（entropy）　　　　　　　　python3代碼實現： def calcShannonEnt(

機器學習十大演算法之決策樹（詳細）

什麼是決策樹？如何構建決策樹？ ID3 C4.5 CART 決策樹的優缺點及改進什麼是決策樹？決策樹是運用於分類的一種樹結構，其本質是一顆由多個判斷節點組成的樹，其中的每個內部節點代表對某一屬性的一次測試，每條邊代表一個測試結果，而葉節點代表某個類或類的分佈。屬於有監督學習核心思想：

機器學習十大經典演算法之決策樹（學習筆記整理）

一、決策樹概述決策樹是一種樹形結構，其中每個內部節點表示一個屬性上的測試，每個分支代表一個測試輸出，每個葉節點代表一種類別。決策樹是一個預測模型，代表的是物件屬性與物件值之間的一種對映關係。最初的節點稱為根節點（如圖中的"顏色"），有分支的節點稱為中間節點

機器學習之決策樹（Decision Tree）文字演算法的精確率

目錄背景效果圖整體流程這裡用詞向量，而不是TF-IDF預處理後的向量原始碼背景最近的專案中，用到了很多機器學習的演算法，每個機器學習的演算法在不同的樣本下的精準率是不同的。為了驗證每個演算法在每種不同樣本數

機器學習之決策樹（一）

1、演算法介紹決策樹是一種基本的分類和迴歸方法，決策樹模型呈樹形結構，在分類問題中，表示基於特徵對例項進行分類的過程。決策樹學習通常包括三個步驟：特徵選擇、決策樹的生成和決策樹的修剪。決策樹的本質是從訓練資料集中歸納出一組分類規則。本文主要是對決策樹的ID3演算法的介紹，後文會介紹C4.5和CART演算

機器學習爬大樹之決策樹（ID3,C4.5）

一 決策樹 （ID3演算法基礎）