ml課程：XGBoost和lightGBM工具庫學習及相關案例程式碼

阿新 • • 發佈：2018-12-20

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。

本文主要介紹kaggle大殺器xgboost和lightgbm兩個工具庫的簡單使用，以及相關案例程式碼。

首先回憶一下boosting原理，以及由boosting衍生出來的演算法：Adaboost和GBDT以及後面更強的xgboost，忘記的同學可以查閱我之前的文章：ml課程：決策樹、隨機森林、GBDT、XGBoost相關（含程式碼實現），除此之外當然還有樹模型的相關整合演算法的內容：ml課程：模型融合與調優及相關案例程式碼。回憶殺完了，我們進入正文。

XGboost：

是eXtreme Gradient Boosting的簡稱，原始碼在這：

xgboost，是由陳天奇大佬團伙開發的實現可擴充套件，編寫，分散式的GBDT演算法的一個庫，可以用於c++，python，R，julia，java，scala，hadoop，現在有很多協作者共同維護開發。

xgboost計算速度更快的原因有以下幾點：

Parallelization：訓練是可以用所有的cpu核心來並行化建樹（單棵樹）。
Distributed Computing ：用分散式計算來訓練非常大的模型。
Out-of-Core Computing：對於非常大的資料集還可以進行out-of-core computing.
Cache Optimization of data structures and algorithms:可以更好的利用硬體。

下圖是XGBoost與其他gradient boosting和bagged decision trees效果比較：

xgboost另一個優點是預測問題中模型表現非常好，具體可以看下面幾個比賽大牛的連結：

Vlad Sandulescu, Mihai Chiru, 1st place of the KDD Cup 2016 competition. Link to the arxiv paper.
Marios Michailidis, Mathias Müller and HJ van Veen, 1st place of the Dato Truely Native?

competition. Link to the Kaggle interview.
Vlad Mironov, Alexander Guschin, 1st place of the CERN LHCb experiment Flavour of Physics competition. Link to the Kaggle interview.

最常用XGboost部分：

與sklearn類似，這個庫也有以下幾個常用的部分：

XGBoost Tutorials，主要是如何使用這個庫的一些案例介紹。
XGBoost Parameters，主要是需要調節的引數：通用引數（general parameters）、整合引數（booster parameters）、任務引數（task parameters）。

Python API Reference：各種api介面。

4.高階用法：在github上獲取原始碼，更改相關引數；例如：我們可以自定義損失函式和評價指標

#注意：我們呼叫原資料需要轉換為.train和.test
#!/usr/bin/python
import numpy as np
import xgboost as xgb
###
# advanced: customized loss function
#
print('start running example to used customized objective function')

dtrain = xgb.DMatrix('../data/agaricus.txt.train')
dtest = xgb.DMatrix('../data/agaricus.txt.test')

# note: for customized objective function, we leave objective as default
# note: what we are getting is margin value in prediction
# you must know what you are doing
param = {'max_depth': 2, 'eta': 1, 'silent': 1}
watchlist = [(dtest, 'eval'), (dtrain, 'train')]
num_round = 2

# user define objective function, given prediction, return gradient and second order gradient
# this is log likelihood loss
def logregobj(preds, dtrain):
    labels = dtrain.get_label()
    preds = 1.0 / (1.0 + np.exp(-preds))
    grad = preds - labels
    hess = preds * (1.0 - preds)
    return grad, hess   #grad和hess分別表示一階導數和二階導數

# user defined evaluation function, return a pair metric_name, result
# NOTE: when you do customized loss function, the default prediction value is margin
# this may make builtin evaluation metric not function properly
# for example, we are doing logistic loss, the prediction is score before logistic transformation
# the builtin evaluation error assumes input is after logistic transformation
# Take this in mind when you use the customization, and maybe you need write customized evaluation function
def evalerror(preds, dtrain):
    labels = dtrain.get_label()
    # return a pair metric_name, result. The metric name must not contain a colon (:) or a space
    # since preds are margin(before logistic transformation, cutoff at 0)
    return 'my-error', float(sum(labels != (preds > 0.0))) / len(labels)

# training with customized objective, we can also do step by step training
# simply look at xgboost.py's implementation of train
bst = xgb.train(param, dtrain, num_round, watchlist, obj=logregobj, feval=evalerror)

xgboost sklearn庫API介面：https://xgboost.readthedocs.io/en/latest/python/python_api.html#module-xgboost.sklearn

xgboost API:https://xgboost.readthedocs.io/en/latest/

github原始碼：https://github.com/dmlc/xgboost

lightGBM:

與XGboost類似，lightGBM也是微軟開源的一個工具庫，它與XGboost的區別是執行計算更快，尤其是在大資料的情況下，支援的演算法也更多。

最常用lightGBM部分：

Tutorials:沒錯，這是一箇中文的文件，是不是很開心。
引數:各種引數：核心引數、學習控制引數、目標引數等等。
API:真以為是中文文件啊？

最後，還是回到案例程式碼上：歡迎關注我的github

To be continue......

ml課程：XGBoost和lightGBM工具庫學習及相關案例程式碼

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。本文主要介紹kaggle大殺器xgboost和lightgbm兩個工具庫的簡單使用，以及相關案例程式碼。首先回憶一下boosting原理，以及由boosting衍生出來的演算法：Adaboost和GBDT以及後面更強的xgboos

ml課程：Sklearn工具庫學習及相關案例程式碼

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。本文主要介紹sklearn工具庫相關使用，以及部分內容解釋，最後有相關案例程式碼。首先看一張圖，這張圖是構建機器學習系統的一般流程：還記得之前的一篇文章中有一張sklearn機器學習模型選擇流程的一張圖與此類似：沒看過

ml課程：模型融合與調優及相關案例程式碼

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。這篇文章主要介紹模型融合及引數調優相關內容，以及《百面機器學習》上關於模型評估、整合相關內容，最後還有相關案例程式碼。先放一張大家都比較熟悉的圖：這是模型選擇的一個流程圖，可以作為相關的參考。模型評估：評估

ml課程：最大熵與EM演算法及應用（含程式碼實現）

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。本文主要介紹最大熵模型與EM演算法相關內容及相關程式碼案例。關於熵之前的文章中已經學習過，具體可以檢視：ml課程：決策樹、隨機森林、GBDT、XGBoost相關（含程式碼實現），補充一些基本概念：資訊量：資訊的度量，即

DL課程：MLP、DNN、Wide&deep model及相關案例程式碼

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。線性分類和邏輯迴歸兩種簡單的模型大家應該都知道：（ml課程：線性迴歸、邏輯迴歸入門（含程式碼實現））機器學習中，分類和迴歸常用損失函式大家也都熟悉：（ml課程：機器學習演算法串講及相關常見問題總結）神經網路：一般神經網

NLP課程：詞向量到Word2Vec理論基礎及相關程式碼

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。詞向量： NLP的發展主要有兩個方向：傳統方向：基於規則現代方向：基於統計機器學習：如HMM(隱馬爾可夫)、CRF(條件隨機場)、SVM、LDA(主題模型）、CNN.. 詞向量需要保證空間中分佈的相似性：

ml課程：決策樹、隨機森林、GBDT、XGBoost相關（含程式碼實現）

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。基礎概念：熵Entropy：是衡量純度的一個標準,表示式可以寫為：資訊增益Information Gain：熵變化的一個量，表示式可以寫為：資訊增益率Gain Ratio：資訊增益的變化率，表示式可以寫為：

Linux下軟件安裝與卸載：rpm和yum工具

.rpm rhel enabled arch 發包 ble 功能 repos 簡潔一、rpm工具 rpm命令是RPM軟件包的管理工具。rpm原本是Red Hat Linux發行版專門用來管理Linux各項套件的程序，由於它遵循GPL規則且功能強大方便，因而廣受歡迎。逐漸受

對xgboost和lightgbm的理解及其調參應該關註的點

analytic 精度 PE sam 訓練 pick import 構建 oos 這兩個算法都是集成學習了分類回歸樹模型，先討論是怎麽集成的。集成的方法是 Gradient Boosting比如我要擬合一個數據如下：第一次建了一個模型如上圖中的折線，效果不是很理想，然後要

xgboost和lightgbm的模型建立

學習筆記(四)xgboost和lightgbm的模型建立資料是金融資料，我們要做的是預測貸款使用者是否會逾期，表格中，status是標籤：0表示未逾期，1表示逾期。構建xgboost和lightgbm進行預測（在構建部分資料需要進行缺失值處理和資料型別轉換，如果不能處理，可以直接暴力刪

機器學習 scikit-learn4 模型實踐 - xgboost 和 lightgbm

xgboost 和 lightgbm - 目錄 1 簡介 1.1 程式碼下載 1.2 程式碼使用方法 3 核心程式碼說明 3.1 模型配置 3.2 模型訓練 3.3 輸出結果 3.

ml課程：概率圖模型—貝葉斯網路、隱馬爾可夫模型相關（含程式碼實現）

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。本文主要介紹機器學習中的一個分支——概率圖模型、相關基礎概念以及樸素貝葉斯、隱馬爾可夫演算法，最後還有相關程式碼案例。說到機器學習的起源，可以分為以下幾個派別：連線主義：又稱為仿生學派(bionicsism)或生理學派

ml課程：SVM相關（含程式碼實現）

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。本文主要介紹svm的創始人Vapnik‘s如何一步一步構建出這個經典演算法模型的，同時也可以給我們以後演算法之路提供一個思路，即使你對優化等數學方法不熟悉，依然可以創造出很好的演算法。下svm關鍵的幾個idea： KEY ID

ml課程：線性迴歸、邏輯迴歸入門（含程式碼實現）

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。本文主要介紹簡單的線性迴歸、邏輯迴歸先關推倒，以及案例程式碼。昨天做專案發現K-means都忘了，想想之前很多基礎都忘了，於是決定重新開始學一遍ml的基礎內容，順便記錄一下，也算是梳理自己的知識體系吧。機器學習：目前包括有監

ml課程：聚類概述及K-means講解（含程式碼實現）

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。本文主要介紹聚類以及K均值演算法的推倒過程，最後有相關程式碼案例。說到聚類就不得不先說說機器學習的分類。機器學習主要分為三類：監督學習：分類、迴歸... 無監督學習：聚類、降維... 強化學習。

客戶貸款逾期預測[3]-xgboost和lightgbm

任務根據客戶貸款資料預測客戶是否會逾期，1表示會，0表示不會。實現 # -*- coding: utf-8 -*- """ Created on Thu Nov 15 13:02:11 2018 @author: keepi """ im

《Linux性能及調優指南》第二章：監控和基準工具2.1-2.2

Xgboost和lightgbm的區別

這是資料應用學院8/4 Live：資料科學家常用工具XGBoost與LightGBM大比拼，效能與結構的筆記。 Xgboost, lightgbm, catboost實際上是對GBDT方法的不同實現，它們針對同一目標、做了不同的優化處理。 XGboost作為最

ml課程：FM因子分解機介紹及相關程式碼

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。 FM(factorization machines)表示因子分解機，是由Steffen Rendle提出的一種基於矩陣分解的機器學習演算法。目前，被廣泛的應用於廣告預估模型中，相比LR而言，效果更好。主要目標是：解決資料稀疏的情況下，特

使用Xgboost和lightgbm實現對貸款使用者逾期預測

一、背景及目標根據提供的金融資料，分別使用xgboost和lightgbm兩種演算法預測貸款使用者是否會逾期。二、任務分析匯入資料後，首先，由於資料中存在缺失值，因此需要對缺失值資料進行預處理。其次，對明顯與模型無關的特徵進行刪除。最後，分別採用xg

ml課程：XGBoost和lightGBM工具庫學習及相關案例程式碼

XGboost：

lightGBM:

相關推薦