機器學習技法課程學習筆記11 -- Gradient Boosted Decision Tree

上節課我們主要介紹了Random Forest演算法模型。Random Forest就是通過bagging的方式將許多不同的decision tree組合起來。除此之外，在decision tree中加入了各種隨機性和多樣性，比如不同特徵的線性組合等。RF還可以使用OOB樣本進行self-validation，而且可以通過permutation test進行feature selection。本節課將使用Adaptive Boosting的方法來研究decision tree的一些演算法和模型。

Adaptive Boosted Decision Tree

Random Forest的演算法流程我們上節課也詳細介紹過，就是先通過bootstrapping“複製”原樣本集D，得到新的樣本集D’；然後對每個D’進行訓練得到不同的decision tree和對應的g

t；最後再將所有的gt通過uniform的形式組合起來，即以投票的方式得到G。這裡採用的Bagging的方式，也就是把每個gt的預測值直接相加。現在，如果將Bagging替換成AdaBoost，處理方式有些不同。首先每輪bootstrap得到的D’中每個樣本會賦予不同的權重u(t)；然後在每個decision tree中，利用這些權重訓練得到最好的gt；最後得出每個gt所佔的權重，線性組合得到G。這種模型稱為AdaBoost-D Tree。

這裡寫圖片描述

但是在AdaBoost-DTree中需要注意的一點是每個樣本的權重u(t)。我們知道，在Adaptive Boosting中進行了bootstrap操作，u

(t)表示D中每個樣本在D’中出現的次數。但是在決策樹模型中，例如C&RT演算法中並沒有引入u(t)。那麼，如何在決策樹中引入這些權重u(t)來得到不同的gt而又不改變原來的決策樹演算法呢？

在Adaptive Boosting中，我們使用了weighted algorithm，形如：

Euin(h)=1N∑n=1Nun⋅err(yn,h(xn))

每個犯錯誤的樣本點乘以相應的權重，求和再平均，最終得到了Euin(h)。如果在決策樹中使用這種方法，將當前分支下犯錯誤的點賦予權重，每層分支都這樣做，會比較複雜，不易求解。為了簡化運算，保持決策樹演算法本身的穩定性和封閉性，我們可以把決策樹演算法當成一個黑盒子，即不改變其結構，不對演算法本身進行修改，而從資料來源D’上做一些處理。按照這種思想，我們來看權重u實際上表示該樣本在bootstrap中出現的次數，反映了它出現的概率。那麼可以根據u值，對原樣本集D進行一次重新的隨機sampling，也就是帶權重的隨機抽樣。sampling之後，會得到一個新的D’，D’中每個樣本出現的機率與它權重u所佔的比例應該是差不多接近的。因此，使用帶權重的sampling操作，得到了新的樣本資料集D’，可以直接代入決策樹進行訓練，從而無需改變決策樹演算法結構。sampling可看成是bootstrap的反操作，這種對資料本身進行修改而不更改演算法結構的方法非常重要！

這裡寫圖片描述

所以，AdaBoost-DTree結合了AdaBoost和DTree，但是做了一點小小的改變，就是使用sampling替代權重u(t)，效果是相同的。

這裡寫圖片描述

上面我們通過使用sampling，將不同的樣本集代入決策樹中，得到不同的gt。除此之外，我們還要確定每個gt所佔的權重αt。之前我們在AdaBoost中已經介紹過，首先算出每個

機器學習技法課程學習筆記11 -- Gradient Boosted Decision Tree

Adaptive Boosted Decision Tree

機器學習技法課程學習筆記11 -- Gradient Boosted Decision Tree

臺灣大學林軒田機器學習技法課程學習筆記1 -- Linear Support Vector Machine

臺灣大學林軒田機器學習技法課程學習筆記8 -- Adaptive Boosting

臺灣大學林軒田機器學習技法課程學習筆記10 -- Random Forest

『機器學習筆記』GBDT原理-Gradient Boosting Decision Tree

臺灣大學林軒田機器學習基石課程學習筆記8 -- Noise and Error

吳恩達斯坦福大學機器學習 CS229 課程學習筆記（一）

臺灣大學林軒田機器學習基石課程學習筆記1 -- The Learning Problem

臺灣大學林軒田機器學習基石課程學習筆記6 -- Theory of Generalization

吳恩達《deeplearning深度學習》課程學習筆記【1】（精簡總結）

吳恩達《deeplearning深度學習》課程學習筆記【3】（精簡總結）

嵌入式小白到大神學習全攻略（學習路線+課程+學習書籍+練習專案）

嵌入式小白到大神學習全攻略（學習路線+課程+學習書籍+練習項目）

Deep Learning(深度學習)程式碼/課程/學習資料整理

梯度提升決策樹(Gradient Boosting Decision Tree)，用於分類或迴歸。

Gradient Boosting Decision Tree (GBDT)

GBDT(Gradient boosting Decision Tree)梯度提升決策樹

梯度提升決策樹-GBDT（Gradient Boosting Decision Tree）

GBDT(Gradient Boosting Decision Tree) 沒有實現只有原理

『論文閱讀』LightGBM原理-LightGBM: A Highly Efficient Gradient Boosting Decision Tree

機器學習技法課程學習筆記11 -- Gradient Boosted Decision Tree

Adaptive Boosted Decision Tree

相關推薦