機器學習演算法二：詳解Boosting系列演算法一Adaboost

本文主要介紹boosting演算法得基本原理，以及的三種典型演算法原理：adaboost，GBM（Gradient bossting machine），XGBoost。

Boosting方法原理

boosting演算法是一類將弱學習器提升為強學習器的整合學習演算法，它通過改變訓練樣本的權值，學習多個分類器，並將這些分類器進行線性組合，提高泛化效能。

先介紹一下“強學習”和“弱學習”的概念：一個分類，如果存在一個多項式演算法能夠學習他，並得到很高的正確率，那麼這個演算法稱為強學習器，反之如果正確率只是稍大於隨機猜測（50%），則稱為弱學習器。在實際情況中，我們往往會發現弱學習器比強學習器更容易獲得，所以就有了能否把弱學習器提升（boosting）為強學習器的疑問。於是提升類方法應運而生，它代表了一類從弱學習器出發，反覆訓練，得到一系列弱學習器，然後組合這些弱學習器，構成一個強學習器的演算法。大多數boost方法會改變資料的概率分佈（改變資料權值）

，具體而言就是提高前一輪訓練中被錯分類的資料的權值，降低正確分類資料的權值，使得被錯誤分類的資料在下輪的訓練中更受關注；然後根據不同分佈呼叫弱學習演算法得到一系列弱學習器實現的，再將這些學習器線性組合，具體組合方法是誤差率小的學習器會被增大權值，誤差率大的學習器會被減小權值，典型代表adaboost演算法。

1.1 Adaboost演算法

Adaboost，全稱adaptive boosting，前面已經大致介紹了它的基本原理，接下來會簡答推導它的演算法過程。

給定一個二分類的訓練資料集： $T = (x_{1}, y_{1}), (x_{2}, y_{2}), \dots \dots, (x_{N}, y_{N})$

xN,yN),標記

y_{i} \in [- 1, 1]

。
（1）初始化訓練資料的權值分佈

D_{1} = (w_{11}, \dots ， w_{1 i}, \dots ， w_{1 N}) ， w_{1 i} = 1 / N, i = 1, 2, \dots ， N

（2）指定生成 $T$ 個學習器，即進行 $t = 1, 2, \dots ， T$ 迭代。
（3）對於第 $t$ 次迭代，根據前一次迭代得到的權值分佈 $D_{t}$ 訓練資料集，得到弱分類器

G_{t} (x) : X \to {- 1, 1}

（4）計算

G_{t} (x)

在權值分佈

D_{t}

上的分類誤差

e_{t} = P (G_{t} (x_{i}) \neq y_{i}) = \sum_{i = 1}^{N} w_{1 i} I (G_{t} (x_{i}) \neq y_{i})

這裡很關鍵，我們可以發現，分類誤差 $e_{t}$ 是當前學習器得到的未正確分類資料項對應的權值之和，說明adaboost演算法的分類誤差是受權值分佈 $D_{t}$ 影響的，具體怎麼影響繼續往下看。
（5）計算當前學習器 $G_{t} (x)$ 的權值 $α_{t} = \frac{1}{2} l o g \frac{1 - e_{t}}{e_{t}}$ 這個權值是用在最後線性組合時乘在分類器前的，仔細觀察這個函式式不難發現當 $e_{t} \leq 1 / 2$ 時， $α_{t} > 0$ ,並且隨著 $e_{t}$ 的減小而增大，也就是說分類誤差越小分類器的權值越大，這裡還可以看出可以看出權值分佈 $D_{t}$ 通過影響 $e_{t}$ 來影響了 $α_{t}$ ，這是 $D_{t}$ 的第一個影響。
（6）更新權值分佈