對xgboost的一些理解

阿新 • • 發佈：2019-01-23

xgboost

簡介
xgboost 的全稱是eXtreme Gradient Boosting，由華盛頓大學的陳天奇博士提出，在Kaggle的希格斯子訊號識別競賽中使用，因其出眾的效率與較高的預測準確度而引起了廣泛的關注。
與GBDT的區別
GBDT演算法只利用了一階的導數資訊，xgboost對損失函式做了二階的泰勒展開，並在目標函式之外加入了正則項對整體求最優解，用以權衡目標函式的下降和模型的複雜程度，避免過擬合。所以不考慮細節方面，兩者最大的不同就是目標函式的定義，接下來就著重從xgboost的目標函式定義上來進行介紹。
xgboost的模型

xgboost對應的模型就是一堆CART樹。一堆樹如何做預測呢？就是將每棵樹的預測值加到一起作為最終的預測值，可謂簡單粗暴。

下圖就是CART樹和一堆CART樹的示例，用來判斷一個人是否會喜歡計算機遊戲：

第二圖的底部說明了如何用一堆CART樹做預測，就是簡單將各個樹的預測分數相加。

目標函式
xgboost的目標函式定義如下：
其中，t表示第t輪，表示第t輪所生成的樹模型，表示正則項，。接下來是xgboost的重點，我們使用二階泰勒展開
來定義一個近似的目標函式如下：
因為的值由之前的過程決定，所以本輪不變，constant也不影響本輪的訓練，所以將這兩者其去掉，得到：
現在的目標函式有一個非常明顯的特點，它只依賴於每個資料點在誤差函式上的一階導數和二階導數。接下來，我們對

的定義做一下細化，將樹拆分成結構部分q和葉子權重部分w：
當我們給定了如上定義之後，就可以對樹的複雜度進行定義了：
其中，第一部分中的T為葉子的個數，第二部分為w的L2模平方。我們來看下圖的示例：

可以看到葉子的權重w就是GBDT例子中葉子結點的值，而q就是將某個樣本點對映到某個葉子結點的函式。有了上邊的兩個式子後，繼續對目標函式進行如下改寫：
其中，為每個葉子節點上的樣本集合。現在這個目標函式包含了T個相互獨立的單變數二次函式，我們定義：
那麼我們就得到了最終的目標函式樣子：
現在我們假設q已知，通過將上式對w求導並令其等於0，就可以求出令最小的w：

此時目標函式的值為：

剩下的工作就很簡單了，通過改變樹的結構來找到最小的，而對應的結構就是我們所需要的結果。不過列舉所有樹的結構不太可行，所以常用的是貪心法，每一次嘗試去對已有的葉子加入一個分割。對於一次具體的分割，我們可以獲得的增益可以由如下公式計算：

問題是：樹的結構近乎無限多，一個一個去測算它們的好壞程度，然後再取最好的顯然是不現實的。所以，我們仍然需要採取一點策略，這就是逐步學習出最佳的樹結構。這與我們將K棵樹的模型分解成一棵一棵樹來學習是一個道理，只不過從一棵一棵樹變成了一層一層節點而已。下面我們就來看一下具體的學習過程。
我們以上文提到過的判斷一個人是否喜歡計算機遊戲為例子。最簡單的樹結構就是一個節點的樹。我們可以算出這棵單節點的樹的好壞程度obj*。假設我們現在想按照年齡將這棵單節點樹進行分叉，我們需要知道：
1、按照年齡分是否有效，也就是是否減少了obj的值
2、如果可分，那麼以哪個年齡值來分。

為了回答上面兩個問題，我們可以將這一家五口人按照年齡做個排序。如下圖所示：

按照這個圖從左至右掃描，我們就可以找出所有的切分點。對每一個確定的切分點，我們衡量切分好壞的標準如下：

這個Gain實際上就是單節點的obj*減去切分後的兩個節點的樹obj*，Gain如果是正的，並且值越大，表示切分後obj*越小於單節點的obj*，就越值得切分。同時，我們還可以觀察到，Gain的左半部分如果小於右側的γ，則Gain就是負的，表明切分後obj反而變大了。γ在這裡實際上是一個臨界值，它的值越大，表示我們對切分後obj下降幅度要求越嚴。這個值也是可以在xgboost中設定的。

掃描結束後，我們就可以確定是否切分，如果切分，對切分出來的兩個節點，遞迴地呼叫這個切分過程，我們就能獲得一個相對較好的樹結構。

注意：xgboost的切分操作和普通的決策樹切分過程是不一樣的。普通的決策樹在切分的時候並不考慮樹的複雜度，而依賴後續的剪枝操作來控制。xgboost在切分的時候就已經考慮了樹的複雜度，就是那個γ引數。所以，它不需要進行單獨的剪枝操作。

觀察xgboost的目標函式會發現如下三點：
- 這個公式形式上跟ID3演算法（採用entropy計算增益）、CART演算法（採用gini指數計算增益）是一致的，都是用分裂後的某種值減去分裂前的某種值，從而得到增益
- 引入分割不一定會使情況變好，因為最後有一個新葉子的懲罰項。所以這也體現了預減枝的思想，即當引入的分割所帶來的增益小於一個閾值時，就剪掉這個分割
- 上式中還有一個係數λλ，是正則項裡ww的L2模平方的係數，對ww做了平滑，也起到了防止過擬合的作用，這個是傳統GBDT裡不具備的特性
總結
xgboost與傳統的GBDT相比，對代價函式進行了二階泰勒展開，同時用到了一階與二階導數，而GBDT在優化時只用到一階導數的資訊，個人認為類似牛頓法與梯度下降的區別。另一方面，xgboost在損失函式里加入的正則項可用於控制模型的複雜度。正則項裡包含了樹的葉子節點個數、每個葉子節點上輸出score的L2模的平方和。從Bias-variance tradeoff角度來講，正則項降低了模型的variance，使學習出來的模型更加簡單，防止過擬合，這也是xgboost優於傳統GBDT的一個特性。

xgboost的優化：

在尋找最佳分割點時，考慮傳統的列舉每個特徵的所有可能分割點的貪心法效率太低，xgboost實現了一種近似的演算法。大致的思想是根據百分位法列舉幾個可能成為分割點的候選者，然後從候選者中根據上面求分割點的公式計算找出最佳的分割點。
xgboost考慮了訓練資料為稀疏值的情況，可以為缺失值或者指定的值指定分支的預設方向，這能大大提升演算法的效率，paper提到50倍.
特徵列排序後以塊的形式儲存在記憶體中，在迭代中可以重複使用；雖然boosting演算法迭代必須序列，但是在處理每個特徵列時可以做到並行。
按照特徵列方式儲存能優化尋找最佳的分割點，但是當以行計算梯度資料時會導致記憶體的不連續訪問，嚴重時會導致cache miss，降低演算法效率。paper中提到，可先將資料收集到執行緒內部的buffer，然後再計算，提高演算法的效率。
xgboost 還考慮了當資料量比較大，記憶體不夠時怎麼有效的使用磁碟，主要是結合多執行緒、資料壓縮、分片的方法，儘可能的提高演算法的效率。

xgboost的優勢：

1、正則化

標準GBM的實現沒有像XGBoost這樣的正則化步驟。正則化對減少過擬合也是有幫助的。
實際上，XGBoost以“正則化提升(regularized boosting)”技術而聞名。

2、並行處理

XGBoost可以實現並行處理，相比GBM有了速度的飛躍，LightGBM也是微軟最新推出的一個速度提升的演算法。 XGBoost也支援Hadoop實現。

3、高度的靈活性

XGBoost 允許使用者定義自定義優化目標和評價標準。

4、缺失值處理

XGBoost內建處理缺失值的規則。使用者需要提供一個和其它樣本不同的值，然後把它作為一個引數傳進去，以此來作為缺失值的取值。XGBoost在不同節點遇到缺失值時採用不同的處理方法，並且會學習未來遇到缺失值時的處理方法。

5、剪枝

當分裂時遇到一個負損失時，GBM會停止分裂。因此GBM實際上是一個貪心演算法。XGBoost會一直分裂到指定的最大深度(max_depth)，然後回過頭來剪枝。如果某個節點之後不再有正值，它會去除這個分裂。
這種做法的優點，當一個負損失（如-2）後面有個正損失（如+10）的時候，就顯現出來了。GBM會在-2處停下來，因為它遇到了一個負值。但是XGBoost會繼續分裂，然後發現這兩個分裂綜合起來會得到+8，因此會保留這兩個分裂。

6、內建交叉驗證

XGBoost允許在每一輪boosting迭代中使用交叉驗證。因此，可以方便地獲得最優boosting迭代次數。
而GBM使用網格搜尋，只能檢測有限個值。

7、在已有的模型基礎上繼續

XGBoost可以在上一輪的結果上繼續訓練。
sklearn中的GBM的實現也有這個功能，兩種演算法在這一點上是一致的。

Reference

對xgboost的一些理解

xgboost 簡介 xgboost 的全稱是eXtreme Gradient Boosting，由華盛頓大學的陳天奇博士提出，在Kaggle的希格斯子訊號識別競賽中使用，因其出眾的效率與較高的預測準確度而引起了廣泛的關注。與GBDT的區別 GBDT演算

對協程的一些理解

quasar 習慣 -h 獨立 mil 相關 ots clas 性能協程協程(coroutine)最早由Melvin Conway在1963年提出並實現，一句話定義：協程是用戶態的輕量級的線程線程和協程線程和協程經常被放在一起比較；線程一旦被創建出來，編寫者是無法決定什麽

軟件開發中對MVC的一些理解

https 我們直接 mod 一個 span 最大的控制器用戶接口隔離通俗一點講，接口隔離就是當一個類需要繼承另一個類時，如果被繼承的類中有繼承的類用不到的方法或者屬性時，就不要去實現這個繼承。如果真的情非得已必須要繼承，那麽也需要從被繼承的類中再提取出一個只包

對xgboost和lightgbm的理解及其調參應該關註的點

analytic 精度 PE sam 訓練 pick import 構建 oos 這兩個算法都是集成學習了分類回歸樹模型，先討論是怎麽集成的。集成的方法是 Gradient Boosting比如我要擬合一個數據如下：第一次建了一個模型如上圖中的折線，效果不是很理想，然後要

對php裡的Session和Cookie的一些理解

Cookie是客戶端的儲存空間，由瀏覽器來維持。具體來說cookie機制採用的是在客戶端保持狀態的方案，而session機制採用的是在伺服器端保持狀態的方案。同時我們也看到，由於才伺服器端保持狀態的方案在客戶端也需要儲存一個標識，所以session機制可能需要藉助於cookie機制來達到儲存標識的目

對Image caption的一些理解(看圖說話)

1. 背景在計算機視覺中，影象分類和目標檢測任務是比較成熟的領域，已經應用到實際的產品領域。而“看圖說話”要實現的功能是，給定一張影象，計算機能告訴我們圖片的內容，顯然，這會使一個比較複雜的任務，因為它涉及到了如下的子任務： 1）檢測影象中的目標； 2）目標的屬性，比如

對GAN網路公式推導的一些理解

詳見https://blog.csdn.net/mr_tyting/article/details/79336802 這段公式表示，首先固定生成器，也就是G的網路引數，然後判別器D要使V的值儘可能大，也就是真實樣本和造假樣本的區別要儘可能大（故意找茬）。然後關於這個V函式的構造其實也挺好理解的，

Day 1 python學習,個人對計算機硬體的一些理解

1. 什麼是語言語言是一個事物與另外一個事物溝通的介質 python則是人（程式設計師）與計算機溝通的介質 2. 什麼是程式設計程式設計就是程式設計師將自己想要讓計算機做的事情用程式語言翻譯出來寫到一系列的檔案中

對View繪製流程的一些理解

這裡只是記錄一下個人對View繪製這一塊的理解，寫的會比較粗糙，如果想要詳細瞭解，請參考如下部落格： http://blog.csdn.net/yanbober/article/details/46128379 在view的繪製過程中，一般會分如下三個過程： measur

【Linux】- 對find，xargs，grep和管道的一些理解

問題相信大家都知道在目錄中搜索含有固定字串檔案的命令： find . -name '*.py' |xargs grep test 剛開始的時候，我不熟悉xargs命令，所以直接使用的命令是： find . -name '*.py' |grep test 結果並不是自己所期望的。

關於對iOS中自動釋放池autoreleasepool的一些理解

因為現在大家都在使用ARC模式下進行程式設計，一個很重要的問題也是最容易被大家所忽視的問題就是自動釋放池，大部分程式設計師尤其是剛入行的都只是知道有這麼一個東西，但具體是什麼，工作的原理是什麼，在什麼時候使用它都一概不知。所以寫一篇文章，記錄一下個人對自動釋放池的一些理解。

【目標檢測】對RCNN論文的一些理解

RCNN可謂是深度學習應用目標檢測的開山之作，RCNN提出之前，目標檢測往往用傳統的HOG、SIFT等方法提取特徵，RBG大神認為CNN既然在圖片分類產生了巨大作用，為何不能用來提特徵呢？於是RCNN就誕生了。在設計神經網路應用目標檢測的時候，首先我們可能考慮將其作

對CNN網路卷積層的一些理解

關於CNN的全連線層可以看這篇文章：https://blog.csdn.net/zgcr654321/article/details/84894860 CNN網路的卷積層的組成和全連線層類似，它也由線性部分和非線性部分組成。但是CNN卷積層的線性部分計算與全連線層不同。 CNN卷積層的線

對CNN網路全連線層的一些理解

CNN網路的全連線層一般包含兩個部分：線性運算部分：完成線性變換的工作，將輸入經過線性變換轉換成輸出。非線性運算部分（以下簡稱非線性部分）：緊接著線性部分，完成非線性變換。線性運算部分的作用：線性部分從運算過程上看就是線性變換，對於一個輸入向量，線性部分的輸出向量是，線

【目標檢測】對SPPNet論文的一些理解

SPPNet不得不說，對後續的Fast-RCNN，Faster-RCNN都起到了舉足輕重的作用。SPPNet主要解決的是固定輸入層尺寸的這個限制，也從各個方面說明了不限制輸入尺寸帶來的好處。文章在一開始的時候就說明了目前深度網路存在的弊端：如果固定網路輸入size的話，要麼選擇crop策略，要麼選擇

對影象頻率的一些理解

一、影象高頻訊號和低頻訊號的理解 1.1 影象中的低頻訊號和高頻訊號也叫做低頻分量和高頻分量。簡單一點說，影象中的高頻分量，指的是影象強度（亮度/灰度）變化劇烈的地方，也就是我們常說的邊緣（輪廓）；影象中的低頻分量，指的是影象強度（亮度/灰度）變換平緩的地方，也就是大片色

以一元及二元函式為例，通過多項式的函式影象觀察其擬合效能；以及對用多項式作目標函式進行機器學習時的一些理解。

先給出程式碼： import numpy as np from mpl_toolkits.mplot3d import Axes3D from matplotlib import pyplot as plt from datetime import datetime t

我對call與apply的一些理解

call與apply: call與apply最重要的一個作用就是改變函式內的上下文(其實就是改變函式內this的指向) 如果不是一個物件內的方法 this均為當前window物件（可自行在控制檯下測試）： fu

[Unity基礎]對Rotation的一些理解與例項(一)

using UnityEngine; using System.Collections; public class TestRotation : MonoBehaviour{ // Update is called once per frame void Updat

對CSS vertical-align的一些理解與認識

上週我們頭還給我們講一些知識的過程中，提到了vertical-align，大概是跟display差不多牛批的能講好久的一個樣式吧，回來看了大神的文章，vertical-align屬性牽扯到的知識太多，本篇就只挑幾個典型或是重要的地方說一說吧。在開始之前，希望

對xgboost的一些理解

xgboost

xgboost的優化：

xgboost的優勢：

相關推薦