史上最詳細的XGBoost實戰（下）

阿新 • • 發佈：2019-01-07

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

作者：章華燕

編輯：田　旭

四

XGBoost 引數詳解

在執行XGboost之前，必須設定三種類型成熟：general parameters，booster parameters和task parameters：

General parameters
該引數引數控制在提升(boosting)過程中使用哪種booster，常用的booster有樹模型(tree)和線性模型(linear model)
Booster parameters
這取決於使用哪種booster
Task parameters
控制學習的場景，例如在迴歸問題中會使用不同的引數控制排序

General Parameters

booster [default=gbtree]

有兩中模型可以選擇gbtree和gblinear。gbtree使用基於樹的模型進行提升計算，gblinear使用線性模型進行提升計算。預設值為gbtree。
silent [default=0]

取0時表示打印出執行時資訊，取1時表示以緘默方式執行，不列印執行時資訊。預設值為0。
nthread

XGBoost執行時的執行緒數。預設值是當前系統可以獲得的最大執行緒數。
num_pbuffer

預測緩衝區大小，通常設定為訓練例項的數目。緩衝用於儲存最後一步提升的預測結果，無需人為設定。
num_feature

Boosting過程中用到的特徵維數，設定為特徵個數。XGBoost會自動設定，無需人為設定。

Parameters for Tree Booster

eta [default=0.3]

為了防止過擬合，更新過程中用到的收縮步長。在每次提升計算之後，演算法會直接獲得新特徵的權重。 eta通過縮減特徵的權重使提升計算過程更加保守。預設值為0.3 。
取值範圍為：[0,1]
gamma [default=0]

minimum loss reduction required to make a further partition on a leaf node of the tree. the larger, the more conservative the algorithm will be.

取值範圍為：[0,∞]
max_depth [default=6]

數的最大深度。預設值為6。
取值範圍為：[1,∞]
min_child_weight [default=1]

孩子節點中最小的樣本權重和。如果一個葉子節點的樣本權重和小於min_child_weight則拆分過程結束。在現行迴歸模型中，這個引數是指建立每個模型所需要的最小樣本數。該成熟越大演算法越conservative。
取值範圍為：[0,∞]
max_delta_step [default=0]

我們允許每個樹的權重被估計的值。如果它的值被設定為0，意味著沒有約束；如果它被設定為一個正值，它能夠使得更新的步驟更加保守。通常這個引數是沒有必要的，但是如果在邏輯迴歸中類極其不平衡這時候他有可能會起到幫助作用。把它範圍設定為1-10之間也許能控制更新。
取值範圍為：[0,∞]
subsample [default=1]

用於訓練模型的子樣本佔整個樣本集合的比例。如果設定為0.5則意味著XGBoost將隨機的從整個樣本集合中隨機的抽取出50%的子樣本建立樹模型，這能夠防止過擬合。
取值範圍為：(0,1]
colsample_bytree [default=1]

在建立樹時對特徵取樣的比例。預設值為1。
取值範圍為：(0,1]

Parameter for Linear Booster

lambda [default=0]

L2 正則的懲罰係數
alpha [default=0]

L1 正則的懲罰係數
lambda_bias

在偏置上的L2正則。預設值為0（在L1上沒有偏置項的正則，因為L1時偏置不重要）。

Task Parameters

objective [ default=reg:linear ]

定義學習任務及相應的學習目標，可選的目標函式如下：

“reg:linear” —— 線性迴歸。

“reg:logistic”—— 邏輯迴歸。

“binary:logistic”—— 二分類的邏輯迴歸問題，輸出為概率。

“binary:logitraw”—— 二分類的邏輯迴歸問題，輸出的結果為wTx。

“count:poisson”—— 計數問題的poisson迴歸，輸出結果為poisson分佈。在poisson迴歸中，max_delta_step的預設值為0.7。(used to safeguard optimization)

“multi:softmax” –讓XGBoost採用softmax目標函式處理多分類問題，同時需要設定引數num_class（類別個數）

“multi:softprob” –和softmax一樣，但是輸出的是ndata * nclass的向量，可以將該向量reshape成ndata行nclass列的矩陣。沒行資料表示樣本所屬於每個類別的概率。

“rank:pairwise” –set XGBoost to do ranking task by minimizing the pairwise loss。
base_score [ default=0.5 ]

所有例項的初始化預測分數，全域性偏置；為了足夠的迭代次數，改變這個值將不會有太大的影響。
eval_metric [ default according to objective ]

校驗資料所需要的評價指標，不同的目標函式將會有預設的評價指標（rmse for regression, and error for classification, mean average precision for ranking）。

使用者可以新增多種評價指標，對於Python使用者要以list傳遞引數對給程式，而不是map引數list引數不會覆蓋’eval_metric’。

可供的選擇如下:

“rmse”: root mean square error

“logloss”: negative log-likelihood

“error”: Binary classification error rate. It is calculated as #(wrong cases)/#(all cases). For the predictions, the evaluation will regard the instances with prediction value larger than 0.5 as positive instances, and the others as negative instances.

“merror”: Multiclass classification error rate.

“mlogloss”:Multiclass logloss.

“auc”: Area under the curve for ranking evaluation.

“ndcg”:Normalized Discounted Cumulative Gain

“map”:Mean average precision

“[email protected]”,”[email protected]”: n can be assigned as an integer to cut off the top positions in the lists for evaluation.

“ndcg-“,”map-“,”[email protected]“,”[email protected]“: In XGBoost, NDCG andMAP will evaluate the score of a list without any positive samples as 1. By adding “-” in the evaluation metric XGBoostwill evaluate these score as 0 to be consistent under some conditions. training repeatively
seed [ default=0 ]

隨機數的種子。預設值為0。

五

XGBoost 實戰

XGBoost有兩大類介面：XGBoost原生介面和 scikit-learn介面，並且XGBoost能夠實現分類和迴歸兩種任務。因此，本章節分四個小塊來介紹！

基於XGBoost原生介面的分類

from sklearn.datasets import load_iris
import xgboost as xgb
from xgboost import plot_importance
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split

# read in the iris data
iris = load_iris()

X = iris.data
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1234565)

params = {
    'booster': 'gbtree',
    'objective': 'multi:softmax',
    'num_class': 3,
    'gamma': 0.1,
    'max_depth': 6,
    'lambda': 2,
    'subsample': 0.7,
    'colsample_bytree': 0.7,
    'min_child_weight': 3,
    'silent': 1,
    'eta': 0.1,
    'seed': 1000,
    'nthread': 4,
}

plst = params.items()


dtrain = xgb.DMatrix(X_train, y_train)
num_rounds = 500
model = xgb.train(plst, dtrain, num_rounds)

# 對測試集進行預測
dtest = xgb.DMatrix(X_test)
ans = model.predict(dtest)

# 計算準確率
cnt1 = 0
cnt2 = 0
for i in range(len(y_test)):
    if ans[i] == y_test[i]:
        cnt1 += 1
    else:
        cnt2 += 1

print("Accuracy: %.2f %% " % (100 * cnt1 / (cnt1 + cnt2)))

# 顯示重要特徵
plot_importance(model)
plt.show()

輸出預測正確率以及特徵重要性：

Accuracy: 96.67 %

0?wx_fmt=png

基於XGBoost原生介面的迴歸

import xgboost as xgb
from xgboost import plot_importance
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split

# 讀取檔案原始資料
data = []
labels = []
labels2 = []
with open("lppz5.csv", encoding='UTF-8') as fileObject:
    for line in fileObject:
        line_split = line.split(',')
        data.append(line_split[10:])
        labels.append(line_split[8])

X = []
for row in data:
    row = [float(x) for x in row]
    X.append(row)

y = [float(x) for x in labels]

# XGBoost訓練過程
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

params = {
    'booster': 'gbtree',
    'objective': 'reg:gamma',
    'gamma': 0.1,
    'max_depth': 5,
    'lambda': 3,
    'subsample': 0.7,
    'colsample_bytree': 0.7,
    'min_child_weight': 3,
    'silent': 1,
    'eta': 0.1,
    'seed': 1000,
    'nthread': 4,
}

dtrain = xgb.DMatrix(X_train, y_train)
num_rounds = 300
plst = params.items()
model = xgb.train(plst, dtrain, num_rounds)

# 對測試集進行預測
dtest = xgb.DMatrix(X_test)
ans = model.predict(dtest)

# 顯示重要特徵
plot_importance(model)
plt.show()

重要特徵(值越大，說明該特徵越重要)顯示結果：

0?wx_fmt=png

基於Scikit-learn介面的分類

from sklearn.datasets import load_iris
import xgboost as xgb
from xgboost import plot_importance
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split

# read in the iris data
iris = load_iris()

X = iris.data
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# 訓練模型
model = xgb.XGBClassifier(max_depth=5, learning_rate=0.1, n_estimators=160, silent=True, objective='multi:softmax')
model.fit(X_train, y_train)

# 對測試集進行預測
ans = model.predict(X_test)

# 計算準確率
cnt1 = 0
cnt2 = 0
for i in range(len(y_test)):
    if ans[i] == y_test[i]:
        cnt1 += 1
    else:
        cnt2 += 1

print("Accuracy: %.2f %% " % (100 * cnt1 / (cnt1 + cnt2)))

# 顯示重要特徵
plot_importance(model)
plt.show()

輸出預測正確率以及特徵重要性：

Accuracy: 100.00 %

0?wx_fmt=png

基於XGBoost原生介面的迴歸

import xgboost as xgb
from xgboost import plot_importance
from matplotlib import pyplot as plt
from sklearn.model_selection import train_test_split

# 讀取檔案原始資料
data = []
labels = []
labels2 = []
with open("lppz5.csv", encoding='UTF-8') as fileObject:
    for line in fileObject:
        line_split = line.split(',')
        data.append(line_split[10:])
        labels.append(line_split[8])

X = []
for row in data:
    row = [float(x) for x in row]
    X.append(row)

y = [float(x) for x in labels]

# XGBoost訓練過程
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

model = xgb.XGBRegressor(max_depth=5, learning_rate=0.1, n_estimators=160, silent=True, objective='reg:gamma')
model.fit(X_train, y_train)

# 對測試集進行預測
ans = model.predict(X_test)

# 顯示重要特徵
plot_importance(model)
plt.show()

重要特徵(值越大，說明該特徵越重要)顯示結果：

0?wx_fmt=png

推

薦

閱

讀

掃描個人微訊號，

拉你進機器學習大牛群。

福利滿滿，名額已不多…

80%的AI從業者已關注我們微信公眾號

史上最詳細的XGBoost實戰（下）

作者：章華燕編輯：田　旭四XGBoost 引數詳解在執行XGboost之前，必須設定三種類型成熟：general parameters，booster parameters和task parameters： General parameters 該引數引數控制在提升(boosting)

移植QT5.6到嵌入式開發板（史上最詳細的QT移植教程）

文件傳輸嵌入式環境 ubun 導致字庫 etc -a led fill 目前網上的大多數 QT 移植教程還都停留在 qt4.8 版本，或者還有更老的 Qtopia ,但是目前 Qt 已經發展到最新的 5.7 版本了，我個人也已經使用了很長一段時間的 qt5.6 for

Leetcode 075 顏色分類 Python C++ 史上最詳細題解系列（多解法）

每天更新一道python or C++ leetcode題，力求講解清晰準確，客官們可以點贊或者關注。題目：給定一個包含紅色、白色和藍色，一共 n 個元素的陣列，原地對它們進行排序，使得相同顏色的元素相鄰，並按照紅色、白色、藍色順序排列。此題中，我們使用整數

關於海康威視sdk與海康威視web的史上最精細的教程（一）

小夥伴們都在下方留言要開發包 web： https://download.csdn.net/download/qq_35583089/10537585 sdk: https://download.csdn.net/download/qq_35583089/10

史上最詳細的XGBoost實戰（上）

作者：章華燕編輯：祝鑫泉零環境介紹： · Python版本：3.6.2 · 作業系統：Windows · 整合開發環境：PyCharm 一安裝Python環境： 1.安裝Python: 首先，我們需要安裝Python環境。本人選擇的是64位版本的Python 3.6.2。去P

史上最詳細nodejs版本管理器nvm的安裝與使用（附註意事項和優化方案）

技術註意 nod core 遇到 target 快速方式 get 使用場景在Node版本快速更新叠代的今天，新老項目使用的node版本號可能已經不相同了，node版本更新越來越快，項目越做越多，node切換版本號的需求越來越迫切，傳統卸載一個版本在安裝另一個版本的方

史上最詳細Windows下安裝 binwalk

github src cti tro 下載安裝步驟 clas 文件命令行 1. https://github.com/ReFirmLabs/binwalk到這裏下載binwalk，下載後解壓。 2. 找到下載後的文件夾，在這裏要進行安裝步驟，一邊按著shift，一邊

redhat6.9上安裝oracle11g操作手冊（史上最詳細）

第一次在linux系統上安裝oracle資料庫，安裝過程不算順利，遇到各種問題，但是最終還是一一解決了，感覺從這次安裝安裝過程，讓我們對oracle的安裝和使用有更深層次的理解，成就感滿滿！不瞎掰，為了讓其它人員也能

史上最詳細的Pytorch版yolov3程式碼中文註釋詳解（一）

有了上面這些教程，我這個教程自然不會重複之前的工作，而是給出每個程式每行程式碼最詳細全面的小白入門註釋，不論基礎多差都能看懂，註釋到每個語句每個變數是什麼意思，只有把工作做細到這個程度，才是真正對我們這些小白有利（大神們請忽略，這只是給我們小白們看的。）本

從零搭建SpringCloud服務（史上最詳細）

1.什麼是SpringCloud？我就不bb了，貼上比較優秀的部落格 https://www.cnblogs.com/lexiaofei/p/6808152.html 自己理解就是，一個伺服器叢集中，每個伺服器固定的完成某些任務，任務成果的需求者想獲取這些成果時通過主機名+埠號獲取，對

看過的都哭了！史上最詳細！手把手教會你完成一個目標識別（目標分割）專案

隨著工業自動化的推進，可能越來越多的同學會感受到老闆接的專案都是傳統工廠自動化程序中的一些環節，比如目標識別。一般有傳統影象方法和順應時代的神經網路方法。其中傳統方法對設計者的影象處理能力要求很高，並且針對每一個專案必須設計特定的識別檢測方法。現在（2018年3月）已經有很多

圖說三極體，太容易懂了！（史上最詳細版本）

"晶體三極體，是半導體基本元器件之一，具有電流放大作用，是電子電路的核心元件" 在電子元件家族中，三極體屬於半導體主動元件中的分立元件。廣義上，三極體有多種，常見如下圖所示。狹義上，三極體指雙極型三極體，是

史上最詳細的Vmware安裝教程（一）-建立Linux虛擬機器

本文將演示如何使用Vwmare workstation軟體建立Linux虛擬機器，通過學習，我們將可以按照自己下需求，來建立一個安裝Linux作業系統（Centos）的虛擬機器，虛擬機器的CPU、硬碟、網絡卡、記憶體等硬體都可以根據需要進行定製。 1. 準備Host機器（

史上最詳細c語言學生管理系統（完整的原始碼）

#include<stdio.h> #include<stdlib.h> #include<string.h> #include<conio.h> struct student { char sno[12]; char n

史上最詳細的氣泡排序演算法解析（程式碼Java版本）

1.問題引入：什麼是氣泡排序?（1）官方解讀：氣泡排序（Bubble Sort），是一種電腦科學領域的較簡單的排序演算法。它重複地走訪過要排序的數列，一次比較兩個元素，如果他們的順序錯誤就把他們交換過來

史上最詳細的webpack 講解2 （DefinePlugin中的淫技巧）

今天我突然發現我的掘金原創排行已經落到了120位，這是什麼原因，因為我分享的不夠多，還是我分享的不夠好，看的人不多，又好幾天沒和大家幾面了，來吧！死也死在分享上面，怎麼說呢，今天講解的東西也不是很深奧的東西，以前一直沒有用到這東西，今天好好看了這東西，可以帶來很大的方便，

一步步教你搭建Android開發環境（有圖有真相）--“自吹自擂：史上最詳細、最囉嗦、最新的搭建教程”

宣告：轉摘請註明http://blog.csdn.net/longming_xu/article/details/28241045 前言：為什麼要寫這麼一篇文章？網上介紹Android開發環境搭建的文章一片一片的，我為什麼要自己”重複的去造輪子“呢？原因有三個：第一個

Java開發環境搭建（windows版、史上最詳細版）

Java開發環境搭建在本章節中我們將為大家介紹如何搭建Java開發環境。我使用的是windows系統，那就給大家講一下在windows系統下搭建java的開發環境。 Jdk介紹 JDK（Java Development Kit）是Java語言的軟體開發工具包，主要用於移動

高新技術企業認定，史上最詳細的申請攻略！（深度好文）

相關 str 直接方式項目微信組織名片數據在市場廣闊的今天，基本每個省和市地×××府都會建立產業園區或高新技術企業優化孵化帶，提供各種政策支持、稅收優惠以及財政補助。同時，高新技術企業資質對企業來說是一張閃亮的名片，相當於中國的品牌馳名商標，不僅能夠為企業帶來

Maven環境變數配置教程（史上最詳細版）

第一步：解壓apche-maven-3.5.2.rar 第二步：把這個檔案放在C:\Program Files\apache-maven-3.5.2 第三步：進行環境變數配置（右鍵計算機 -

史上最詳細的XGBoost實戰（下）

相關推薦