【機器學習】XGBoost學習筆記

阿新 • • 發佈：2019-01-21

XGB的改進

傳統GBDT以CART作為基分類器，xgboost還支援線性分類器，這個時候xgboost相當於帶L1和L2正則化項的邏輯斯蒂迴歸（分類問題）或者線性迴歸（迴歸問題）。 —可以通過booster [default=gbtree]設定引數:gbtree: tree-based models/gblinear: linear models
xgboost在代價函式里加入了正則項，用於控制模型的複雜度。正則項裡包含了樹的葉子節點個數、每個葉子節點上輸出的score的L2模的平方和。從Bias-variance tradeoff角度來講，正則項降低了模型variance，使學習出來的模型更加簡單，防止過擬合，這也是xgboost優於傳統GBDT的一個特性
—正則化包括了兩個部分，都是為了防止過擬合，剪枝是都有的，葉子結點輸出L2平滑是新增的。下面的式子就是正則化的式子。加號左邊為葉子節點樹的複雜度懲罰，右邊是L2正則化。
傳統GBDT在優化時只用到一階導數資訊，xgboost則對代價函式進行了二階泰勒展開，同時用到了一階和二階導數。順便提一下，xgboost工具支援自定義代價函式，只要函式可一階和二階求導。 —對損失函式做了改進（泰勒展開，一階資訊g和二階資訊h），下圖就具體展示了目標函式。

去掉常數項之後就長這個樣子。這個損失函式就是用來建樹的，可以理解成cart樹的MSE建樹過程。後面會做一些變形。

Shrinkage（縮減），相當於學習速率（xgboost中的eta）。xgboost在進行完一次迭代後，會將葉子節點的權重乘上該係數，主要是為了削弱每棵樹的影響，讓後面有更大的學習空間。實際應用中，一般把eta設定得小一點，然後迭代次數設定得大一點。（補充：傳統GBDT的實現也有學習速率）
column subsampling列(特徵)抽樣，說是從隨機森林那邊學習來的，防止過擬合的效果比傳統的行抽樣還好（行抽樣功能也有），並且有利於後面提到的並行化處理演算法。
xgboost工具支援並行。boosting不是一種序列的結構嗎?怎麼並行的？注意xgboost的並行不是tree粒度的並行，xgboost也是一次迭代完才能進行下一次迭代的（第t次迭代的代價函式裡包含了前面t-1次迭代的預測值）。xgboost的並行是在特徵粒度上的。我們知道，決策樹的學習最耗時的一個步驟就是對特徵的值進行排序（因為要確定最佳分割點），xgboost在訓練之前，預先對資料進行了排序，然後儲存為block結構，後面的迭代中重複地使用這個結構，大大減小計算量。這個block結構也使得並行成為了可能，在進行節點的分裂時，需要計算每個特徵的增益，最終選增益最大的那個特徵去做分裂，那麼各個特徵的增益計算就可以開多執行緒進行。（其實就是在特徵分類的時候，傳統的做法是遍歷每個特徵再遍歷每個特徵的所有分裂點，然後去尋找一個損失最小的特徵的分裂點。這些特徵與特徵間的選擇是獨立的，所以給了實現平行計算的可能性。同時在分裂點的選取的時候還需要對特徵進行排序，這個也是獨立的，所以也給了實現平行計算的可能。）

對缺失值的處理。對於特徵的值有缺失的樣本，xgboost可以自動學習出它的分裂方向。 —稀疏感知演算法，論文3.4節，Algorithm 3: Sparsity-aware Split Finding
split finding algorithms(劃分點查詢演算法)：

（1）exact greedy algorithm—貪心演算法獲取最優切分點
（2）approximate algorithm— 近似演算法，提出了候選分割點概念，先通過直方圖演算法獲得候選分割點的分佈情況，然後根據候選分割點將連續的特徵資訊對映到不同的buckets中，並統計彙總資訊。詳細見論文3.3節
（3）Weighted Quantile Sketch—分散式加權直方圖演算法，論文3.4節
這裡的演算法（2）、（3）是為了解決資料無法一次載入記憶體或者在分散式情況下演算法（1）效率低的問題，以下引用的還是wepon大神的總結：

可並行的近似直方圖演算法。樹節點在進行分裂時，我們需要計算每個特徵的每個分割點對應的增益，即用貪心法列舉所有可能的分割點。當資料無法一次載入記憶體或者在分散式情況下，貪心演算法效率就會變得很低，所以xgboost還提出了一種可並行的近似直方圖演算法，用於高效地生成候選的分割點。

好了，講完了優缺點，大概可以知道了XGBoost改進了哪些地方，接下來就來介紹一下具體的演算法流程。

爭取講的簡單一點。

監督學習中總會有目標函式和模型。上圖中就是我們最終想要得到的模型和優化模型所用的目標函式。這裡可能什麼都看不懂，後面會慢慢解釋。

xbg也是一個加法模型，通GBDT一樣，下一個模型是之前所有模型的累加。但有一點區別，在GBDT中第二步是計算殘差，但在xgb中新模型的輸出就是實際的預測值了，我們不計算殘差而是直接用預測值與損失函式去得到下一時刻的決策樹。

$\tilde{y}_i^{(t)}$ 是t時刻的預測，我們希望 $\tilde{y}_i^{(t)}$ 能夠越接近真實值越好，而由加法公式可以知道 $\tilde{y}_i^{(t)} = \tilde{y}_i^{(t-1)} +f_t{(x_i)}$ ， $\tilde{y}_i^{(t-1)}$ 是t-1時刻的預測值，我們已經知道了。可想而知，t時刻的任務就是擬合 $f_t{(x_i)}$ 使得結果儘可能好，這就是上圖中第二個公式所表達的意思。第三個公式只是把式子展開來之後，把與當前時刻t無關的變數通通扔到了const中去。

這一步對應回GBDT中就是計算負梯度（MSE損失函式的化就是殘差），不過這邊用了二階導數，海森矩陣。這也是xgb效能更強大的原因之一。（廢話，計算複雜度高了，精度不提高要它幹嘛T_T）

樹分裂的打分函式是什麼，就是cart分類樹中的基尼係數增益或者回歸樹中的mse

xgb也允許我們自定義損失函式，只要它是一階二階可導的

這樣我們就得到了新的目標函式，白話一點也就是t時刻的損失函式。去掉常數項時因為 $l(y_i,\hat{y}_i^{t-1})$ 是t-1時刻的損失，所以在t時刻是已知的，當作常數項就去掉了。

後面一串英文講的是，為什麼我們要話費如此大的精力去得到目標函式，而不是直接去生成樹。論文從兩方面來講,一方面從理論層面上講，我們是做什麼，讓模型達到最優解，最優解怎麼達到，降低誤差，誤差怎麼降低，讓損失函式收斂。從工程層面上來理解，就是為了方便實現，可以把模型分離開來，就是損失函式不依賴於樹的生成過程，只依賴於一階導數與二階導數，這樣就可以分離開來。

做個小結吧，前面做了這麼多事都在幹什麼呢！其實都是在定義目標函式。僅僅完成了GBDT中對應的1，2兩步，第一步就是初始化模型為常數0，第二步對應的是計算負梯度（殘差）。因為在xgb中用到了一階導二階導，所以目標函式的定義比較複雜。前面這麼長的篇幅都只是在解釋，當xgb是如何在gbdt的基礎上改進了這個目標函式。利用了二階導資訊和更新了目標函式的公式使得模型具有更強大效能。

補充：其實到這裡xgb第二步“負梯度”還沒有計算出來，只是計算了損失函式L，後面還要推導真正的對應“負梯度”的葉節點值。

好了，大家回想一下gbdt做完這兩步接下來要做什麼了！bingo，接下來就是根據計算得到的負梯度建新的cart樹。那來回想一下在gbdt中cart樹是怎麼被構建的（這裡再提一嘴，gbdt無論是分類還是迴歸，都是cart迴歸樹，對於分類問題只是在最後加了一層啟用層，將數值型變數轉換成對應類別的概率輸出而已。），很簡單，cart樹的構建是通過最小化均方誤差損失來構建的。

在xgb中也差不多類似，不過就是最小化的目標函式變了一個東西。

先要鋪墊一點東西，xgb做了一些新的定義。

這整個都算是正則項，模型的懲罰項，就在前面的目標函式中已經有了。

在上面我們已經得到了目標函式最後長這個樣子

現在我們把最後的正則項帶進去，然後把 $f_t{(x_i)}$ 替換掉， $f_t{(x_i)}$ 表示 $x_i$ 這個樣本在t時刻被樹預測成什麼值，其實就是 $w_{q(x_i)}$ ,表示 $x_i$ 被分到的葉子節點的值。這麼一替換，公式就好看多了

接下來就是一個樹特徵分裂的判斷標準了。

臥槽，其實到這邊才真正搞出來對應GDBT中殘差或者負梯度的葉子節點值W的計算。……

損失函式的作用在這裡才用到了。求增益最大的特徵進行分裂。gain越大越好

好，特徵分裂完，最後一步就是更新強學習器，用加法模型加上去就結束了。

接下來貼一下完整的演算法流程。

好了，接下講一下XGB的一些注意事項

多類別分類時，類別需要從0開始編碼
Watchlist不會影響模型訓練。
類別特徵必須編碼，因為xgboost把特徵預設都當成數值型的
訓練的時候，為了結果可復現，記得設定隨機數種子。
XGBoost的特徵重要性是如何得到的？某個特徵的重要性（feature score），等於它被選中為樹節點分裂特徵的次數的和，比如特徵A在第一次迭代中（即第一棵樹）被選中了1次去分裂樹節點，在第二次迭代被選中2次…..那麼最終特徵A的feature score就是 1+2+….

正則項：

LightGBM

以後有時間再另開一章。

【機器學習】XGBoost學習筆記

推薦博文

先確定一個概念，xgboost是什麼？就是一堆二叉樹，準確來講是CART樹，和GBDT一樣，在GBDT中，無論是分類還是迴歸，也都是一堆CART樹。當然xgboost還支援其它的基分類器。

XGB的改進

好了，講完了優缺點，大概可以知道了XGBoost改進了哪些地方，接下來就來介紹一下具體的演算法流程。

好了，接下講一下XGB的一些注意事項

LightGBM

【機器學習】XGBoost學習筆記

【機器學習】XgBoost 原理詳解數學推導

【Apache Kafka】Kafka學習筆記

【深度學習】Pytorch 學習筆記

【Redis資料庫】命令學習筆記——釋出訂閱、事務、指令碼、連線命令彙總

【微服務】Springcloud學習筆記(一) —— Eureka

【機器學習】整合學習+程式碼實現

【論文閱讀】深度學習與多種機器學習方法在不同的藥物發現數據集進行對比

【機器學習】整合學習(一)----基本思想和方法

【我的javaEE學習】elTagJsl學習筆記

【整理自用】統計學習、機器學習常見演算法（整理更新）

【點分治】的學習筆記和眾多例題

【尚矽谷】spring學習筆記（1）：HelloWorld

【IOS學習】CoreText學習筆記（二）設定文字屬性和插入圖片

【C/C++】STL學習筆記

【Unity開發】Unity3d學習筆記記錄

GTD180007：【運維】LINUX學習

【dubbo基礎】dubbo學習過程、使用經驗分享及實現原理簡單介紹

【收集資料】OpenGL學習

【衛星軌道】初步學習，零散知識點

【機器學習】XGBoost學習筆記

推薦博文

先確定一個概念，xgboost是什麼？就是一堆二叉樹，準確來講是CART樹，和GBDT一樣，在GBDT中，無論是分類還是迴歸，也都是一堆CART樹。當然xgboost還支援其它的基分類器。

XGB的改進

好了，講完了優缺點，大概可以知道了XGBoost改進了哪些地方，接下來就來介紹一下具體的演算法流程。

好了，接下講一下XGB的一些注意事項

LightGBM

相關推薦