xgboost和lightgbm的模型建立

阿新 • • 發佈：2018-11-24

學習筆記(四)xgboost和lightgbm的模型建立

資料是金融資料，我們要做的是預測貸款使用者是否會逾期，表格中，status是標籤：0表示未逾期，1表示逾期。構建xgboost和lightgbm進行預測（在構建部分資料需要進行缺失值處理和資料型別轉換，如果不能處理，可以直接暴力刪除）

資料需求分析

需要直接刪除的資料
Unnamed: 0 使用者ID
trade_no：不知道是什麼
bank_card_no：卡號
id_name：名字
‘source’ 提示xs 先去掉
需要離散化處理的資料（此處不涉及）
- reg_preference_for_trad
針對日期資料的處理(轉換成年月日)（此處不涉及）
- first_transaction_time
- latest_query_time
- loans_latest_time
缺失值的填充
歸一化處理所有資料

資料處理過程

匯入包(包括下面的xgboost和lightgbm)

import numpy as np
import pandas as pd
from sklearn.cross_validation import train_test_split
from sklearn.preprocessing import 
 StandardScaler
from sklearn.metrics import*

from xgboost import XGBClassifier
from lightgbm  import LGBMClassifier

資料分析過程

datanew = pd.read_csv('F:/ziliao/data/data1.csv', encoding='gbk')

"""
1.缺失值處理
"""
datanew=pd.DataFrame(datanew.fillna(0))
# 簡單的缺失值處理
# datanew.replace(to_replace='0.', value=np.nan) 

# 丟棄帶有缺失值的資料
# datanew = datanew.dropna(axis=1, how='any')
data_columns = datanew.columns

"""
1.2 對reg_preference_for_trad 的處理  【對映】
    nan=0 境外=1 一線=5 二線=2 三線 =3 其他=4
"""
n = set(datanew['reg_preference_for_trad'])
dic = {}
for i, j in enumerate(n):
    dic[j] = i
datanew['reg_preference_for_trad'] = datanew['reg_preference_for_trad'].map(dic)
"""
1.3 資料集的切分
"""
X_train, X_test, y_train, y_test = train_test_split(datanew[data_columns[1:90]], datanew[data_columns[44]],test_size=0.3, random_state=666)
X_train.drop(["status","trade_no","bank_card_no","id_0me","source"],axis=1,inplace=True)
X_test.drop(["status","trade_no","bank_card_no","id_0me", "source"],axis=1,inplace=True)

資料標準歸一化

標準化資料，方差為1，均值為零進行資料的歸一化

"""
1.4標準化資料，方差為1，均值為零
"""
standardScaler = StandardScaler()
X_train_fit = standardScaler.fit_transform(X_train)
X_test_fit = standardScaler.transform(X_test)

使用xgboost進行預測

安裝說明：xgboost安裝教程
參考文章：xgboost分類使用說明

分類使用的是 XGBClassifier
迴歸使用的是 XGBRegression

xgbc_model = XGBClassifier()
xgbc_model.fit(X_train_fit, y_train)
xgbc_model_predict = xgbc_model.predict(X_test_fit)

print("xgbc_model準確率：", xgbc_model.score(X_test_fit, y_test))
print("roc_auc_score準確率：", roc_auc_score(y_test, xgbc_model_predict))
print("precision_score準確率：", precision_score(y_test, xgbc_model_predict))
print("recall_score準確率：", recall_score(y_test, xgbc_model_predict))
print("f1_score準確率:",f1_score(y_test, xgbc_model_predict) )

結果如下：
在這裡插入圖片描述

使用lightgbm預測

lightgbm安裝說明：lightgbm安裝教程，經實踐發現好像lightgbm並不支援32位的python。
參考文獻：lightgbm分類使用參考1，lightgbm分類使用參考2

分類使用的是 LGBMClassifier
迴歸使用的是 LGBMRegression

lgbm_model = LGBMClassifier()
lgbm_model.fit(X_train_fit, y_train)

lgbm_model_predict = lgbm_model.predict(X_test_fit)
print(lgbm_model_predict)

print("lgbm_model準確率：", lgbm_model.score(X_test_fit, y_test))
print("roc_auc_score準確率：", roc_auc_score(y_test, lgbm_model_predict))
print("precision_score準確率：", precision_score(y_test, lgbm_model_predict))
print("recall_score準確率：", recall_score(y_test, lgbm_model_predict))
print("f1_score準確率:",f1_score(y_test, lgbm_model_predict) )

結果如下：
在這裡插入圖片描述

模型建立問題總結

lightGBM的安裝時，由於不支援32位，一直報錯安裝不上。因此，重灌了64位版本的才安裝成功。
由於不瞭解模型， lightGBM剛開始使用了LGBMRegression(),結果得出的預測值是0.0-1.0的迴歸值，後使用LGBMClassifier才能得到【0,1】的預測值。故明白LGBMRegression是解決線性問題，LGBMClassifier解決的是分類問題。、
lightGBM和xgboost不熟悉，需要好好讀讀文件。

xgboost和lightgbm的模型建立

學習筆記(四)xgboost和lightgbm的模型建立資料是金融資料，我們要做的是預測貸款使用者是否會逾期，表格中，status是標籤：0表示未逾期，1表示逾期。構建xgboost和lightgbm進行預測（在構建部分資料需要進行缺失值處理和資料型別轉換，如果不能處理，可以直接暴力刪

機器學習 scikit-learn4 模型實踐 - xgboost 和 lightgbm

xgboost 和 lightgbm - 目錄 1 簡介 1.1 程式碼下載 1.2 程式碼使用方法 3 核心程式碼說明 3.1 模型配置 3.2 模型訓練 3.3 輸出結果 3.

對xgboost和lightgbm的理解及其調參應該關註的點

analytic 精度 PE sam 訓練 pick import 構建 oos 這兩個算法都是集成學習了分類回歸樹模型，先討論是怎麽集成的。集成的方法是 Gradient Boosting比如我要擬合一個數據如下：第一次建了一個模型如上圖中的折線，效果不是很理想，然後要

客戶貸款逾期預測[3]-xgboost和lightgbm

任務根據客戶貸款資料預測客戶是否會逾期，1表示會，0表示不會。實現 # -*- coding: utf-8 -*- """ Created on Thu Nov 15 13:02:11 2018 @author: keepi """ im

Xgboost和lightgbm的區別

這是資料應用學院8/4 Live：資料科學家常用工具XGBoost與LightGBM大比拼，效能與結構的筆記。 Xgboost, lightgbm, catboost實際上是對GBDT方法的不同實現，它們針對同一目標、做了不同的優化處理。 XGboost作為最

ml課程：XGBoost和lightGBM工具庫學習及相關案例程式碼

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。本文主要介紹kaggle大殺器xgboost和lightgbm兩個工具庫的簡單使用，以及相關案例程式碼。首先回憶一下boosting原理，以及由boosting衍生出來的演算法：Adaboost和GBDT以及後面更強的xgboos

使用Xgboost和lightgbm實現對貸款使用者逾期預測

一、背景及目標根據提供的金融資料，分別使用xgboost和lightgbm兩種演算法預測貸款使用者是否會逾期。二、任務分析匯入資料後，首先，由於資料中存在缺失值，因此需要對缺失值資料進行預處理。其次，對明顯與模型無關的特徵進行刪除。最後，分別採用xg

機器學習時代的三大神器:GBDT,XGBOOST和LightGBM

本文主要簡要的比較了常用的boosting演算法的一些區別，從AdaBoost到LightGBM,包括AdaBoost,GBDT,XGBoost,LightGBM四個模型的簡單介紹，一步一步從原理到優化對比。AdaBoost原理原始的AdaBoost演算法是在演算法開始的時候

【深度學習筆記1】如何建立和確定模型正確性？如何優化模型？

近期看了吳恩達的一本書，關於如何建立和確定優化模型？裡面有個人認為需要學習的地方，故做筆記： 1.模型訓練一共有三個資料集：訓練集、開發集（驗證集）、測試集。開發集不能太小，通常在1000-10000，並且測試集屬於同一分佈；2.過擬合：訓練過程中開發集的準確率和測試集測試的準確率差別不大，若開發集比測試集

R_針對churn資料用id3、cart、C4.5和C5.0建立決策樹模型進行判斷哪種模型更合適

　　data(churn)匯入自帶的訓練集churnTrain和測試集churnTest 　　用id3、cart、C4.5和C5.0建立決策樹模型，並用交叉矩陣評估模型，針對churn資料，哪種模型更合適　　　　決策樹模型 ID3/C4.5/CART演算法比較　　　傳送門

（預測貸款使用者是否會逾期）支援向量機和決策樹的模型建立

（預測貸款使用者是否會逾期）支援向量機和決策樹的模型建立資料是金融資料，我們要做的是預測貸款使用者是否會逾期，表格中，status是標籤：0表示未逾期，1表示逾期。【今天的任務】構建支援向量機和決策樹模型進行預測（在構建部分資料需要進行缺失值處理和資料型別轉換，如果不能處理，可以直接暴

【MVC】.Net實踐（一）—建立mvc框架的專案和實體模型

一、建立MVC框架的專案（1）像新增平常專案一樣新增一個web應用程式，檔案—>新建—>專案（3）接著選擇MVC （4）這樣就建好一個MVC框架的專案了二、連線資料庫建立

利用隨機森林、GBDT、xgboost、LightGBM計算準確率和auc

利用隨機森林、GBDT、xgboost、LightGBM計算準確率和auc 用到的模組 import pandas as pd import lightgbm as lgb from sklearn.model_selection import train_test_s

【無私分享：從入門到精通ASP.NET MVC】從0開始，一起搭框架、做專案（2）建立資料庫和資料模型

索引簡述我們建立一個數據庫然後生成資料模型，新增ADO.NET實體資料模型，這裡呢常用的有兩種方式，一種是DbFirst，一種是CodeFirst，為了簡便，我們使用DbFirst。有基礎的朋友可以使用CodeFirst，對專案沒有影響的。專案準備我們用的工具是：VS 2013 + Sql

判別模型和生成模型

使用 sin cow ria regress gauss 生成 == 給定【摘要】 - 生成模型：無窮樣本==》概率密度模型 = 產生模型==》預測 - 判別模型：有限樣本==》判別函數 = 預測模型==》預測【簡介】簡單的說，假設o是觀察值，

生成模型和判別模型

特征數據學習方法最大 mem 針對表示不能問題 1、定義：生成模型（或稱產生式模型）和判別模型（或稱判別式模型）的本質區別在於模型中觀測序列x和狀態序列y的決定關系。前者假設y決定x，後者假設x決定y。 2、生成模型特點 2.1、生成模型以“狀態序列y按照一定

利用LVS-NAT和DR模型分別負載均衡一個php應用

lvs nat dr wordpress1.使用NAT模型的TCP協議類型的lvs服務負載均衡一個php應用，如Discuz!論壇或者phpMyAdmin；2.使用DR模型的FWM類型的lvs服務負載均衡一個php應用，如Discuz!論壇或者phpMyAdmin；註意：以上兩個集群需要考慮兩個問題：1) 是

django-自定義User對象數據模型建立

turn ini 默認 mat con unique 修改分享 nag 自定義User 1,修改models.py 1,1完全自定義(不要django默認的字段) from django.contrib.auth.models import AbstractBase

Linux的shell腳本random相關應用和批量修改建立練習

shell腳本random 批量創建用戶和文件一.三種取隨機數並加密的方法1.random的取數並加密取數的方法：取隨機數的方法：取隨機數的並加密的方法：加密後截取不同的位數：2.data時間取隨機數並加密3.openssl取隨機數並加密二.隨機數的應用1.批量創建以隨機數開頭的文件題目1：在/westos目

SimMechanics/Second Generation倒立擺模型建立及初步仿真學習

color 另一個難度 solver round 水平線平移閱讀大小筆者最近搗鼓Simulink，發現MATLAB的仿真模塊真的十分強大，以前只是在命令窗口敲點代碼，直到不小心敲入simulink，就一發不可收拾。話說simulink的模塊化建模確實方便，

xgboost和lightgbm的模型建立

學習筆記(四)xgboost和lightgbm的模型建立

資料需求分析

資料處理過程

匯入包(包括下面的xgboost和lightgbm)

資料分析過程

資料標準歸一化

使用xgboost進行預測

使用lightgbm預測

模型建立問題總結

相關推薦