1. 程式人生 > >整合學習之boosting,Adaboost、GBDT 和 xgboost(二)

整合學習之boosting,Adaboost、GBDT 和 xgboost(二)

AdaBoost 演算法的訓練誤差分析

AdaBoost最基本的性質是它能在學習過程中不斷減少訓練誤差,即在訓練資料集上的分類誤差率。

定理:AdaBoost的訓練誤差界:
1 N i

= 1 N I ( G ( x
i
) y i ) 1
N
i e x p ( y i f ( x i ) ) = Z m \frac{1}{N}\displaystyle\sum_{i=1}^{N}I(G(x_i)≠y_i)≤\frac{1}{N}\displaystyle\sum_{i}exp(-y_if(x_i))=∏Z_m
證明:當 G ( x i ) y i G(x_i)≠y_i 時, y i f ( x i ) < 0 y_if(x_i)<0 ,因而 e x p ( y i f ( x i ) ) 1 exp(-y_if(x_i))≥1 ,由此直接推匯出前半部分。
後半部分的推導要利用 Z m Z_m 的定義式及其變形:
w m i e x p ( α m y i G m ( x i ) ) = Z m w m + 1 , i w_{mi}exp(-α_my_iG_m(x_i))=Z_mw_{m+1,i}
推導過程如下:
在這裡插入圖片描述
這一定理說明,可以再每一輪選取適當的 G m G_m 使得 Z m Z_m 最小,從而使得訓練誤差下降最快。
G m D m 使 G_m的選擇時在權重向量D_m確定的情況下,使樣本誤分類率最低

定理2:二分類問題AdaBoost的訓練誤差界:
在這裡插入圖片描述
在這裡插入圖片描述