Boosting決策樹：GBDT

阿新 • • 發佈：2019-01-18

GBDT (Gradient Boosting Decision Tree)屬於整合學習中的Boosting流派，迭代地訓練基學習器 (base learner)，當前基學習器依賴於上一輪基學習器的學習結果。不同於AdaBoost自適應地調整樣本的權值分佈，GBDT是通過不斷地擬合殘差 (residual)來“糾錯”基學習器的。

1. Gradient Boosting

Gradient Boosting Machine (GBM) 是由大牛Friedman [1,2] 提出來，基本思想非常簡單：基學習器存在著分類/迴歸錯誤的情況，在下一輪基學習器學習時努力地糾正這個錯誤。在迴歸問題中，這個錯誤被稱為殘差。比如，在學習樣本\((x, y)\)

得到一個模型\(f\)，預測值為\(\hat{y} = f(x)\)；那麼殘差則為：

\[ y - \hat{y} = y- f(x) \]

如果定義損失函式為平方損失\(\frac{1}{2}(y-f(x))^2\)，那麼其梯度為

\[ \frac{\partial \frac{1}{2}(y-f(x))^2}{\partial f(x)} = f(x) - y \]

可以發現：殘差為負梯度方向。對於平方損失，每一步優化是很簡單的；但是，對於其他損失函式呢？Friedman利用負梯度近似殘差，將Gradient Boosting推廣到一般損失函式\(L(y, x)\)。步驟如下：

(1) 計算偽殘差 (pseudo-residual

)，

\[ r_{im} = - \left[ \frac{\partial L(y_i, f(x_i))}{\partial f(x_i)} \right]_{f = f_{m-1}} \]

(2) 基學習器\(h_m(x)\)擬合樣本\(\{ (x_i, r_{im}) \}\)；

(3) 計算最優乘子 (multiplier) \(\gamma_m\)，使得

\[ \gamma_m = \mathop{\arg \min} \limits_{\gamma} \sum_{i} L(y_i, f_{m-1}(x) + \gamma h_m(x_i)) \]

(4) 更新模型

\begin{equation}
f_m(x) = f_{m-1}(x) + \gamma_m h_m(x)
\label{eq:update}
\end{equation}

如此迭代，直至結束或模型收斂；最後一步得到的模型\(f_M(x)\)即為GBM的最終模型。

2. GBDT

如果基學習器為決策樹時，GBM則被稱為GBDT。決策樹本質上是對特徵空間的劃分\(\{ R_{jm} \}\)，因此基學習器\(h_m(x)\)可改寫為
\[ h_m(x) = \sum_j b_{jm} I(x \in R_{jm}) \]

其中，\(b_{jm}\)為預測值，\(I(.)\)為指示函式。那麼，式子\eqref{eq:update}可以改寫為

\[ f_m(x) = f_{m-1}(x) + \sum_j \gamma_{jm} I(x \in R_{jm}) \]

GBDT的演算法步驟如下圖所示（圖片來自於 ESL [3]）：

為了減小過擬合，通過Shrinkage的方式：

\[ f_m(x) = f_{m-1}(x) + \upsilon \cdot \gamma_m h_m(x) \]

其中，\(\upsilon\)稱之為學習率 (learning rate)。經驗表明：當學習率\(\upsilon < 0.1\)時，泛化能力遠遠超過沒有Shrinkage的模型（即\(\upsilon =1\)）。但是，低學習率同時也帶來了更多的迭代次數。

sklearn包GradientBoostingRegressor實現了迴歸GBDT（分類用GradientBoostingClassifier），引數如下

loss: 損失函式，預設為平方損失ls
learning_rate: 學習率
n_estimators: 基學習器數目
max_depth: 決策樹的最大深度
max_features: 最多特徵數

3. 參考資料

[1] Friedman, Jerome H. "Greedy function approximation: a gradient boosting machine." Annals of statistics (2001): 1189-1232.
[2] Friedman, Jerome H. "Stochastic gradient boosting." Computational Statistics & Data Analysis 38.4 (2002): 367-378.
[3] Trevor Hastie, Robert Tibshirani, Jerome H. Friedman. The elements of statistical learning. Springer, Berlin: Springer series in statistics, 2009.
[4] Cheng Li, A Gentle Introduction to Gradient Boosting.

Boosting決策樹：GBDT

1. Gradient Boosting

2. GBDT

3. 參考資料

Boosting決策樹：GBDT

[譯] 設計師的決策樹：當遇到豬隊友時，你需要一個系統來控制每個人

樹模型的一些理解（從決策樹到GBDT）

決策樹：特徵分佈空間劃分方法

機器學習決策樹：提煉出分類器演算法

從決策樹到GBDT梯度提升決策樹和XGBoost

SAS決策樹：信貸風險建模試驗

梯度提升決策樹（GBDT）

【ML筆記】梯度提升決策樹（GBDT）和隨機森林（RF）的異同

【10月31日】機器學習實戰（二）決策樹：隱形眼鏡資料集

ml課程：決策樹、隨機森林、GBDT、XGBoost相關（含程式碼實現）

GBDT(Gradient boosting Decision Tree)梯度提升決策樹

梯度提升決策樹-GBDT（Gradient Boosting Decision Tree）

決策樹、Bagging、隨機森林、Boosting、AdaBoost、GBDT、XGBoost

GBDT：梯度提升決策樹

決策樹模型組合之隨機森林與GBDT（轉）

分類算法：決策樹（C4.5）(轉)

Spark機器學習(6)：決策樹算法

我的機器學習之旅（六）：決策樹

機器學習：決策樹（基尼系數）

Boosting決策樹：GBDT

1. Gradient Boosting

2. GBDT

3. 參考資料

相關推薦