機器學習 scikit-learn4 模型實踐 - xgboost 和 lightgbm

阿新 • • 發佈：2018-11-24

xgboost 和 lightgbm - 目錄

1 簡介

1.1 程式碼下載
1.2 程式碼使用方法

3 核心程式碼說明

3.1 模型配置
3.2 模型訓練
3.3 輸出結果

3.3.1 xgb
3.3.2 lgb

1 簡介

1.1 程式碼下載

程式碼路徑，歡迎 star~~
https://github.com/spareribs/kaggleSpareribs/blob/master/Overdue/ml/code/sklearn_config.py

https://github.com/spareribs/kaggleSpareribs/blob/master/Overdue/ml/code/sklearn_train.py

1.2 程式碼使用方法

【必須】config.py 設定檔案存放的路徑
【必須】先執行 features 中的 base.py 先把資料處理好 [PS:需要根據實際情況修改]
【可選】再通過 code 中的 sklearn_config.py 設定模型的引數[PS: 按需修改]
【必須】最後通過 code 中的 sklearn_train.py 訓練模型輸出結果

3 核心程式碼說明

3.1 模型配置

""" 開啟交叉驗證 """
status_vali = False
""" 模型引數 """
clfs = {
	'xgb': xgb.XGBClassifier(),
	'lgb': lgb.LGBMClassifier(),
}

3.2 模型訓練

可以修改模型的選擇 [ xgb, lgb ]

""" 1 讀取資料 """
data_fp = open(features_path, 'rb')
x_train, y_train = pickle.load(data_fp)
data_fp.close()

""" 2 訓練分類器, clf_name選擇需要的分類器 """ 

clf_name = "xgb"
clf = clfs[clf_name]
clf.fit(x_train, y_train)

""" 3 在驗證集上評估模型 """
if status_vali:
    print("測試模型 & 模型引數如下：\n{0}".format(clf))
    print("=" * 20)
    pre_train = clf.predict(x_train)
    print("訓練集正確率: {0:.4f}".format(clf.score(x_train, y_train)))
    print("訓練集f1分數: {0:.4f}".format(f1_score(y_train, pre_train)))
    print("訓練集auc分數: {0:.4f}".format(roc_auc_score(y_train, pre_train)))
    print("-" * 20)
    pre_vali = clf.predict(x_vali)
    print("測試集正確率: {0:.4f}".format(clf.score(x_vali, y_vali)))
    print("測試集f1分數: {0:.4f}".format(f1_score(y_vali, pre_vali)))
    print("測試集auc分數: {0:.4f}".format(roc_auc_score(y_vali, pre_vali)))
    print("=" * 20)

3.3 輸出結果

3.3.1 xgb

測試模型 & 模型引數如下：
XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,
       colsample_bytree=1, gamma=0, learning_rate=0.1, max_delta_step=0,
       max_depth=3, min_child_weight=1, missing=None, n_estimators=100,
       n_jobs=1, nthread=None, objective='binary:logistic', random_state=0,
       reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=None,
       silent=True, subsample=1)
====================
訓練集正確率: 0.8515
訓練集f1分數: 0.6141
訓練集auc分數: 0.7259
--------------------
測試集正確率: 0.7898
測試集f1分數: 0.4545
測試集auc分數: 0.6429
====================

3.3.2 lgb

測試模型 & 模型引數如下：
LGBMClassifier(boosting_type='gbdt', class_weight=None, colsample_bytree=1.0,
        importance_type='split', learning_rate=0.1, max_bin=255,
        max_depth=-1, min_child_samples=20, min_child_weight=0.001,
        min_split_gain=0.0, n_estimators=250, n_jobs=-1, num_leaves=31,
        objective=None, random_state=None, reg_alpha=0.0, reg_lambda=0.5,
        silent=True, subsample=1.0, subsample_for_bin=200000,
        subsample_freq=1)
====================
訓練集正確率: 1.0000
訓練集f1分數: 1.0000
訓練集auc分數: 1.0000
--------------------
測試集正確率: 0.7821
測試集f1分數: 0.4738
測試集auc分數: 0.6509
====================

機器學習 scikit-learn4 模型實踐 - xgboost 和 lightgbm

xgboost 和 lightgbm - 目錄 1 簡介 1.1 程式碼下載 1.2 程式碼使用方法 3 核心程式碼說明 3.1 模型配置 3.2 模型訓練 3.3 輸出結果 3.

機器學習 scikit-learn3 模型實踐 - 支援向量機和決策樹

支援向量機和決策樹 - 目錄 1 簡介 1.1 程式碼下載 1.2 程式碼使用方法 3 核心程式碼說明 3.1 模型配置 3.2 模型訓練 3.3 輸出結果 3.3.1 Linea

機器學習 scikit-learn2 模型實踐 - 邏輯迴歸

邏輯迴歸 - 目錄 1 簡介 1.1 程式碼下載 1.2 程式碼使用方法 3 核心程式碼說明 3.1 模型配置 3.2 模型訓練 3.3 輸出結果 1 簡介 1.1 程式

機器學習之---生成模型和判別模型

監督學習方法可分為兩大類，即生成方法與判別方法，它們所學到的模型稱為生成模型與判別模型。判別模型：判別模型是學得一個分類面（即學得一個模型），該分類面可用來區分不同的資料分別屬於哪一類；生成模型：生成模型是學得各個類別各自的特徵（即可看成學得多個模型），可用這些

機器學習之判別式模型和生成式模型

https://www.cnblogs.com/nolonely/p/6435213.html 判別式模型（Discriminative Model）是直接對條件概率p(y|x;θ)建模。常見的判別式模型有線性迴歸模型、線性判別分析、支援向量機SVM、神經網路、boosting

機器學習 scikit-learn5 - 預測貸款使用者是否會逾期 - 模型效能評估

文章目錄核心程式碼程式碼使用方法資料輸出的程式碼繪圖的程式碼模型效能評估疑問核心程式碼程式碼路徑 https://github.com/spareribs/kaggleSparer

機器學習 scikit-learn9 - 預測貸款使用者是否會逾期 - 特徵篩選 IV 和隨機森林

特徵挑選 1 說明 2 程式碼使用方法 3 核心程式碼說明 3.1 IV值挑選特徵 3.2 隨機森林挑選特徵 3.3 將 IV值和隨機森林的特徵結合 3.4 訓練模型輸出結果 4 結果對比 5

【機器學習】生成模型和判別模型

定義：生成方法由資料學習聯合概率分佈P(x, y)，然後求出條件概率分佈P(y|x)作為預測的模型。包括樸素貝葉斯，貝葉斯網路，高斯混合模型，隱馬爾科夫模型等。判別方法由資料直接學習決策函式

偏差(Bias)和方差(Variance)——機器學習中的模型選擇

模型效能的度量在監督學習中，已知樣本 $(x_1, y_1),(x_2, y_2),...,(x_n, y_n)$，要求擬合出一個模型（函式）$\hat{f}$，其預測值$\hat{f}(x)$與樣本實際值$y$的誤差最小。考慮到樣本資料其實是取樣，$y$並不是

機器學習：sklearn模型指標和特徵貢獻度檢視

模型訓練完成後，即使模型評估很好，各項指標都很到位，業務人員肯定也是心裡沒底的，哪怕有模型公式，他們也看不懂啊。咋整，當然是先把模型的重要評估指標列印給他們看，再把特徵貢獻度從大到小，畫成圖給他們看啦。今天就通過sklearn實現模型評估指標和特徵貢獻度的圖形檢視。本文的資料集採用泰坦尼克號倖

機器學習-淺談模型評估的方法和指標

以處理流程為骨架來學習方便依照框架的充實細節又不失概要(參考下圖機器學習處理流程的一個例項<<Python資料分析與挖掘實戰>>),今天就充實一下模型評估(模型評價)的部分吧. 圖-1-機器學習處理流程例項本"故事"以<<Py

用scikit-learn掌握機器學習（三）特徵提取和預處理

從分類資料中提取特徵 from sklearn.feature_extraction import DictVectorizer onehot_encoder = DictVectorizer() #字典轉onehot用DictVectorizer() i

[機器學習]Scikit-Learn學習筆記03——Scikit-Learn資料模型

Scikit-Learn提供了比較全的資料集,主要分為以下幾類 1. 自帶的小資料集（packaged dataset） 2. 線上下載的資料集（Downloaded Dataset） 3. 生成的資料集（Generated Dataset) 4. svm

機器學習基礎--判別模型和生成模型

判別模型（Discriminative model）和生成模型（generative model）監督學習又可以分為兩類，（只有監督學習才會有判別和生成的概念） 1）判別模型（Discriminative model）：SVM和邏輯迴歸 2）生成模

美團推薦演算法實踐：機器學習重排序模型成亮點

編者按：在使用者意圖明確時，我們通常用搜索引擎來解決網際網路時代的資訊過載問題，但當用戶的意圖不明確或者很難用清晰的語義表達，搜尋引擎就無能為力。此時，藉助推薦系統通過使用者行為的分析理解其意圖，為其推送個性化的結果，便成為一種更好的選擇。美團作為國內發展較快的O2O網站，

機器學習：生成模型和判別模型

經典提問：Navie Bayes和Logistic迴歸區別是什麼？ Navie Bayes是生成式模型，Logistic迴歸是判別式模型，二者的區別就是生成式模型與判別式模型的區別。首先，Navie Bayes通過已知樣本求得先驗概率P(Y), 及條件概率P(X|Y),

今天來學習下美團推薦演算法實踐：機器學習重排序模型

轉載，來自小象學院。美團推薦演算法實踐：機器學習重排序模型文章介紹了美團推薦系統的構架和優化過程，包括資料層，觸發層，融合過濾層和排序層，採用了Hbase，Hive，Storm，Spark和機器學習等技術。兩個優化兩點將是候選集進行融合與引入重排序模型。

機器學習邏輯迴歸模型總結——從原理到sklearn實踐

0x00 基本原理邏輯迴歸演算法，從名字上看似乎是個迴歸問題，但實際上邏輯迴歸是個典型的分類演算法。對於分類問題，一般都是一些離散變數，且y的取值如下： y∈{0,1,2,3,...,n}，顯然不能使用線性迴歸擬合。以二元分類問題開始討論，y的取值

機器學習時代的三大神器:GBDT,XGBOOST和LightGBM

本文主要簡要的比較了常用的boosting演算法的一些區別，從AdaBoost到LightGBM,包括AdaBoost,GBDT,XGBoost,LightGBM四個模型的簡單介紹，一步一步從原理到優化對比。AdaBoost原理原始的AdaBoost演算法是在演算法開始的時候

機器學習之支援向量機原理和sklearn實踐

1. 場景描述問題:如何對對下圖的線性可分資料集和線性不可分資料集進行分類？思路: (1)對線性可分資料集找到最優分割超平面 (2)將線性不可分資料集通過某種方法轉換為線性可分資料集下面將帶著這兩個問題對支援向量機相關問題進行總結 2. 如何找到最優分割超平面一般地，當訓練資料集線性可分時，存

機器學習 scikit-learn4 模型實踐 - xgboost 和 lightgbm

xgboost 和 lightgbm - 目錄

1 簡介

1.1 程式碼下載

1.2 程式碼使用方法

3 核心程式碼說明

3.1 模型配置

3.2 模型訓練

3.3 輸出結果

3.3.1 xgb

3.3.2 lgb

相關推薦