機器學習 - 提升樹（下）- XGBoost 以及與 GBDT 的比較

XGBoost（eXtreme Gradient Boost）

原理
預剪枝
與 GBDT 的比較

本文介紹 Kaggle 等資料競賽的大殺器：XGBoost ！

XGBoost（eXtreme Gradient Boost）
1. 原理
  
  XGBoost 的核心原理與之前所講的提升樹是類似的，都是通過學習殘差近似來訓練模型。不同的是 XGBoost 同時使用了一階導與二階導。而且XGBoost 加入了正則項，從某種程度上可以進行預剪枝，所以約束了模型的複雜度。說了這麼多，“關鍵看療效”，但 XGBoost 真正工程應用上也是非常的棒，陳天奇前輩可謂“華人之光”啊！
  
  對於加法模型與前向分步演算法的過程是一樣的，那麼我們從損失函式來看 XGBoost 的靈性：
  
  我們想構建損失函式，並且想得到具有正則項的結構損失函式，那麼我就可以先抽象化的定義結構損失函式目標：
  
  $L^{m} = \sum$
  
  i = 1 n l (
  
  y i , y i ( m − 1 ) + f m ( x i ) ) + Ω f m L^{m}=\sum_{i=1}^{n}l(y_i, y_i^{(m-1)}+f_m(x_i))+Ωf_m $L^{m} = \sum_{i = 1}^{n} l (y_{i}, y_{i}^{(m - 1)} + f_{m} (x_{i})) + Ω f_{m}$
  
  其中 $l(y_i, y_i^{(m+1)}+f_m(x_i))$ 為經驗損失函式， $y_i$ 為真實值， $y_i^{(m-1)}$ 為第 m-1 次迭代後模型的預測值， $Ωf_m$ 為正則項。
  
  那麼我們該如何具體地表示殘差以及正則項呢，XGBoost 選擇使用 泰勒公式的二階展開！
  
  泰勒公式的二階展開式為： $f(x+\triangle x)=f(x) + f'(x)\triangle x+\frac{1}{2}f''(x)\triangle x^2$
  
  根據此，我們將經驗損失函式 $l(y_i, y_i^{(m+1)}+f_m(x_i))$ 進行泰勒公式的二階展開:
  
  我們定義：
  
  $一階導：g_i=\frac{\partial l(y_i, y_i^{(m-1)})}{\partial y_i^{m-1}}，二階導：h_i=\frac{\partial^2 l(y_i, y_i^{(m-1)})}{\partial (y_i^{m-1})^2}，且恰好 \triangle x=f_m(x_i)$
  
  所以：
  
  $l(y_i, y_i^{(m-1)})=\sum_{i=1}^{n}[l(y_i, y_i^{(m-1)}+f_m(x))+g_if_m(x_i)+\frac{1}{2}h_if_m^2(x_i)]$
  
  相關推薦
  
  機器學習 - 提升樹（下）- XGBoost 以及與 GBDT 的比較
  
  機器學習 - 提升樹（下）- XGBoost 以及與 GBDT 的比較 XGBoost（eXtreme Gradient Boost）原理預剪枝與 GBDT 的比較
  
  機器學習 - 決策樹（下）- CART 以及與 ID3、C4.5的比較
  
  機器學習 - 決策樹（下）- CART 以及與 ID3、C4.5的比較 CART 迴歸樹分類樹剪枝剪枝選擇決策樹特點總結 ID3，C4.
  
  機器學習 - 提升樹（上）- BT、GBDT
  
  機器學習 - 提升樹（上）- BT、GBDT BT（Boosting Tree）介紹原理演算法過程舉例 GBDT（Gradient Boosting De
  
  機器學習第一篇（下）
  
  實戰演練 ——MovieLens 第一步：獲取資料集第二步：解壓檔案後，將u.item以及u.data新增到專案中，加入方法loadMovieLens def loadMovieLens(path='data/movielens'): movies={} for
  
  機器學習作業KNN（下）——字元分類
  
  作業背景：今天機器學習實驗課，老師給了個很小的資料集，是劃分英文字母B和M，讓我們用KNN做，看看分類效果嗎，正好我上個實驗也用的KNN，所以把上次的程式稍微修改一下即可（偷懶狂魔）。資料預處理：大致看了下資料集，是這個樣子的： 2.1 特徵選
  
  機器學習 - 決策樹（中）- ID3、C4.5 以及剪枝
  
  機器學習 - 決策樹（中）- ID3、C4.5 以及剪枝決策樹簡述決策樹過程 ID3 C4.5 過擬合剪枝定義剪枝過程
  
  機器學習 - 決策樹（上）- 資訊理論基礎
  
  機器學習 - 決策樹 and 資訊理論基礎熵自資訊夏農熵交叉熵條件熵互資訊（ID3 所使用的資訊增益） KL 散度（相對熵）
  
  機器學習小實戰（六） XGBoost基本原理
  
  一、xgboost原理 1. 實踐證明，tree boosting（樹提升）可以有效地用於分類和迴歸任務中，提升方法是一種非常有效的機器學習方法，xgboost是提升的強化版本。 2. 和決策樹相關，集成了多個弱學習器。 3. 提升演算法，相當於一棵樹一棵樹地加，每加一
  
  機器學習速成筆記（二）：訓練與損失
  
  訓練模型通過有標籤樣本來學習（確定）所有的權重和偏差的理想值。損失是對槽糕預測的懲罰，損失是一個數值，模型的預測完全正確，則損失為零，反之，模型的預測越槽糕，損失越大。平方損失：一種常見的損失函式，線性迴歸模型就是使用該平方損失均方誤差：每個樣本的平均平方損失，計算均方誤差，要算出
  
  機器學習系列：（三）特徵提取與處理
  
  第一個SURF描述符： [ 1.15299134e+02 2.56185453e+02 3.51230841e+00 3.32786485e+02 1.00000000e+00 1.75644866e+00 -2.94268692e-03 3.30736379e-03 2
  
  我的機器學習之旅（六）：決策樹
  
  family 分配根據 drop chrom labels arch ntp -o 決策樹概念：分類決策樹模型是一種描述對實例進行分類的樹形結構。決策樹由結點和有向邊組成。結點有兩種類型：內部節點和葉節點，內部節點表示一個特征或屬性，葉節點表示一個類。分類的時候，從根
  
  機器學習讀書筆記（三）決策樹基礎篇之從相親說起
  
  方法事務家裏分類筆記判斷都是 rom tro 一、決策樹決策樹是什麽？決策樹(decision tree)是一種基本的分類與回歸方法。舉個通俗易懂的例子，如下圖所示的流程圖就是一個決策樹，長方形代表判斷模塊(decision block)，橢圓形成代
  
  HIT機器學習期末複習（1）——機器學習簡介及決策樹
  
  劉楊的機器學習終於上完了惹，下週就要考試了，趕緊複習ing...... 趁機做個總結，就當是複習了惹...... 機器學習簡介 1、什麼是機器學習簡單來說，就是一個三元組<P, T, E> P——performance效能（對應著效能的評估函式，也就是常說的loss或者likeli
  
  Python3實現機器學習經典演算法（四）C4.5決策樹
  
  一、C4.5決策樹概述　　C4.5決策樹是ID3決策樹的改進演算法，它解決了ID3決策樹無法處理連續型資料的問題以及ID3決策樹在使用資訊增益劃分資料集的時候傾向於選擇屬性分支更多的屬性的問題。它的大部分流程和ID3決策樹是相同的或者相似的，可以參考我的上一篇部落格：https://www.cnblogs.
  
  機器學習-決策樹（decision tree）
  
  機器學習中分類和預測演算法的評估：準確率速度強壯性（演算法中當有噪音和某些值缺失時，演算法能否依然很好）可規模性可解釋性（能否很好的解釋模型）一、什麼是決策樹？ 1、判定樹（決策樹）是一個類似於流程圖的樹結構，其中，每個內部節點表示在一個屬性上的
  
  機器學習實戰決策樹（一）——資訊增益與劃分資料集
  
  from math import log #計算給定的熵 def calcsahnnonent(dataset): numentries = len(dataset) #計算例項的總數 labelcounts ={} #
  
  機器學習實戰教程（三）：決策樹實戰篇之為自己配個隱形眼鏡
  
  原文連結：cuijiahua.com/blog/2017/1… 一、前言上篇文章機器學習實戰教程（二）：決策樹基礎篇之讓我們從相親說起講述了機器學習決策樹的原理，以及如何選擇最優特徵作為分類特徵。本篇文章將在此基礎上進行介紹。主要包括：決策樹構建決策樹視覺化使用決
  
  機器學習系列：（五）決策樹——非線性迴歸與分類
  
  和猜猜看一樣，決策樹也是通過對解釋變數序列的逐條測試獲取響應變數結果的。那麼，哪個解釋變數應該先測試？直覺觀察會發現，解釋變數集合包含所有貓或者所有狗的測試，比既包含貓又包含狗的解釋變數集合的測試要好。如果子整合員種類不同，我們還是不能確定種類。我們還需要避免建立那種測試，把單獨的一隻貓或一條狗分離出
  
  3分鐘瞭解入門「機器學習」該學習什麼？（下）
  
  本文來自作者劉明在 GitChat 上分享「機器學習/深度學習書單推薦及學習方法」，「閱讀原文」檢視交流實錄「文末高能」編輯 | 阪本寫在前面本人是個對數學和人工智慧極其感興
  
  機器學習小實戰（二）建立決策樹
  
  目錄一、決策樹簡介決策樹既可以分類，也可以迴歸。構造決策樹兩種方式：預剪枝/後剪枝難點：如何構造決策樹，選什麼特徵作為結點。特點：根節點是分類效果最好的，其餘次之、再次之。決策樹停止劃分結點的原因可能是：達到最大葉子節點數了、葉子結點樣本數

機器學習 - 提升樹（下）- XGBoost 以及與 GBDT 的比較

機器學習 - 提升樹（下）- XGBoost 以及與 GBDT 的比較

XGBoost（eXtreme Gradient Boost）

原理

相關推薦