1. 背景

決策樹是一種基本的分類與迴歸方法。決策樹模型具有分類速度快，模型容易視覺化的解釋，但是同時是也有容易發生過擬合，雖然有剪枝，但也是差強人意。

提升方法（boosting）在分類問題中，它通過改變訓練樣本的權重（增加分錯樣本的權重，減小分隊樣本的的權重），學習多個分類器，並將這些分類器線性組合，提高分類器效能。boosting數學表示為：

f (x) = w_{0} + \sum_{m = 1}^{M} w_{m} ϕ_{m} (x)

其中w是權重， $ϕ$ 是弱分類器的集合，可以看出最終就是基函式的線性組合。

於是決策樹與boosting結合產生許多演算法，主要有提升樹、GBDT等。本文主要是GBDT學習筆記。

1.1 Gradient Boosting

Gradient Boosting是一種Boosting的方法，它主要的思想是，每一次建立模型是在之前建立模型損失函式的梯度下降方向。損失函式是評價模型效能（一般為擬合程度+正則項），認為損失函式越小，效能越好。而讓損失函式持續下降，就能使得模型不斷改性提升效能，其最好的方法就是使損失函式沿著梯度方向下降（講道理梯度方向上下降最快）。

Gradient Boost是一個框架，裡面可以套入很多不同的演算法。

1.2 提升樹-boosting tree

以決策樹為基函式的提升方法稱為提升樹，其決策樹可以是分類樹OR迴歸樹。提升樹模型可以表示為決策樹的加法模型。

f_{M} (x) = \sum_{m = 1}^{M} T (x; Θ_{m})

其中，

T (x; Θ_{m}) 表 示 决 策 树 ，

Θ_{m}

表示樹的引數，M為樹的個數。

迴歸問題提升樹演算法

輸入：訓練資料集 $T = {(x_{1}, y_{1}), (x_{2}, y_{2}), \cdot \cdot \cdot, (x_{N}, y_{N})}, x_{i} \in χ = R^{n}, y_{i} \in γ, i = 1, 2, \cdot \cdot \cdot, N$ ； $γ$ 為輸出空間。

輸出：提升樹 $f_{M} (x)$

初始化 $f_{0} (x) = 0$
對於 $m = 1, 2, . . . M$ :
1. 計算殘差（後一棵樹擬合前一顆樹殘差）：
  
  $r_{m i} = y_{i} - f_{m - 1} (x_{i})$
2. 擬合殘差學習一個迴歸樹，得到 $T (x; Θ_{m})$
3. 更新 $f_{m} (x) = f_{m - 1} (x) + T (x; Θ_{m})$
M次迭代之後得到提升樹：
$f_{M} (x) = \sum_{m = 1}^{M} T (x; Θ_{m})$

2 Gradient Boosting Decision Tree

提升樹的學習優化過程中，損失函式平方損失和指數損失時候，每一步優化相對簡單，但對於一般損失函式優化的問題，Freidman提出了Gradient Boosting演算法，其利用了損失函式的負梯度在當前模型的值

- [\frac{\partial L (y, f (x_{i}))}{\partial f (x_{i})}]_{f (x) = f_{m - 1} (x)}

作為迴歸問題提升樹演算法的殘差近似值，去擬合一個迴歸樹。

2.1 函式空間的數值優化

優化目標是使得損失函式最小，(N是樣本集合大小)：

F^{*} (x) = \underset{ρ}{\arg min} \sum_{i = 1}^{N} L (y_{i}, ρ)

『機器學習筆記』GBDT原理-Gradient Boosting Decision Tree

1. 背景

1.1 Gradient Boosting

1.2 提升樹-boosting tree

迴歸問題提升樹演算法

2 Gradient Boosting Decision Tree

2.1 函式空間的數值優化

『機器學習筆記』GBDT原理-Gradient Boosting Decision Tree

梯度提升決策樹-GBDT（Gradient Boosting Decision Tree）

機器學習筆記——梯度下降（Gradient Descent）

『PHP學習筆記』系列七：讀取MySQL資料庫中的資料表

『PHP學習筆記』系列三：函式初步

『PHP學習筆記』系列二：氣泡排序

『PHP學習筆記』系列一：利用for迴圈解決過路口問題

『PHP學習筆記』系列六：二分法查詢演算法

『PHP學習筆記』系列五：選擇排序

『PHP學習筆記』系列四：利用函式遞迴呼叫思想解決【斐波那契數列】問題和【猴子吃桃問題】問題

『PHP學習筆記』系列九：利用from表單的onSubmit事件進行瀏覽器端的資料驗證

『PHP學習筆記』系列八：向MySQL資料庫中新增資料

機器學習筆記——梯度下降（Gradient D）

『論文閱讀』LightGBM原理-LightGBM: A Highly Efficient Gradient Boosting Decision Tree

GBDT(Gradient Boosting Decision Tree) 沒有實現只有原理

機器學習系列(11)_Python中Gradient Boosting Machine(GBM）調參方法詳解

機器學習入門 - 1. 介紹與決策樹(decision tree)

Gradient Boosting Decision Tree (GBDT)

GBDT(Gradient boosting Decision Tree)梯度提升決策樹

【機器學習演算法-python實現】決策樹-Decision tree（1）資訊熵劃分資料集

『機器學習筆記 』GBDT原理-Gradient Boosting Decision Tree

1. 背景

1.1 Gradient Boosting

1.2 提升樹-boosting tree

迴歸問題提升樹演算法

2 Gradient Boosting Decision Tree

2.1 函式空間的數值優化

『機器學習筆記』GBDT原理-Gradient Boosting Decision Tree