利用隨機森林、GBDT、xgboost、LightGBM計算準確率和auc

阿新 • • 發佈：2018-12-22

利用隨機森林、GBDT、xgboost、LightGBM計算準確率和auc

用到的模組

import pandas as pd
import lightgbm as lgb
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import label_binarize
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn import metrics
from sklearn.metrics import accuracy_score,roc_auc_score
from xgboost.sklearn import XGBClassifier

讀取資料集

data_all = pd.read_csv('/home/infisa/wjht/project/DataWhale/data_all.csv', encoding='gbk')

劃分資料集和測試集

features = [x for x in data_all.columns if x not in ['status']]
X = data_all[features]
y = data_all['status']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=2018)

構建模型　計算準確率

forest=RandomForestClassifier(n_estimators=100,random_state=2018) #　隨機森林
forest.fit(X_train,y_train)
forest_y_score=forest.predict_proba(X_test)
# print(forest_y_score[:,1])
forest_score=forest.score(X_test,y_test) #準確率
# print('forest_score:',forest_score)
'ranfor_score:0.7820602662929222'

Gbdt=GradientBoostingClassifier(random_state=2018) #CBDT
Gbdt.fit(X_train,y_train)
Gbdt_score=Gbdt.score(X_train,y_train) #準確率
# print('Gbdt_score:',Gbdt_score)
'Gbdt_score:0.8623384430417794'

Xgbc=XGBClassifier(random_state=2018)  #Xgbc
Xgbc.fit(X_train,y_train)
y_xgbc_pred=Xgbc.predict(X_test)
Xgbc_score=accuracy_score(y_test,y_xgbc_pred) #準確率
# print('Xgbc_score:',Xgbc_score)
'Xgbc_score:0.7855641205325858'

gbm=lgb.LGBMClassifier(random_state=2018)  #lgb
gbm.fit(X_train,y_train)
y_gbm_pred=gbm.predict(X_test)
gbm_score=accuracy_score(y_test,y_gbm_pred)  #準確率
# print('gbm_score:',gbm_score)
'gbm_score:0.7701471618780659'

計算auc

y_test_hot = label_binarize(y_test,classes =(0, 1)) # 將測試集標籤資料用二值化編碼的方式轉換為矩陣
Gbdt_y_score = Gbdt.decision_function(X_test) # 得到Gbdt預測的損失值
forest_fpr,forest_tpr,forest_threasholds=metrics.roc_curve(y_test_hot.ravel(),forest_y_score[:,1].ravel()) # 計算ROC的值,forest_threasholds為閾值
Gbdt_fpr,Gbdt_tpr,Gbdt_threasholds=metrics.roc_curve(y_test_hot.ravel(),Gbdt_y_score.ravel()) # 計算ROC的值,Gbdt_threasholds為閾值

forest_auc=metrics.auc(forest_fpr,forest_tpr) #Gbdt_auc值
# print('forest_auc',forest_auc)
'forest_auc 0.7491366989035293'

Gbdt_auc=metrics.auc(Gbdt_fpr,Gbdt_tpr) #Gbdt_auc值
# print('Gbdt_auc:',Gbdt_auc)
'Gbdt_auc:0.7633094425839567'

Xgbc_auc=roc_auc_score(y_test,y_xgbc_pred) #Xgbc_auc值
# print('Xgbc_auc:',Xgbc_auc)
'Xgbc_auc:0.6431606209508309'

gbm_auc=roc_auc_score(y_test,y_gbm_pred) #gbm_auc值
# print('gbm_auc:',gbm_auc)
'gbm_auc:0.6310118097503468'

簡要分析

綜合Forest,GBDT,XGBoot,lightgbm幾種演算法得出的準確率和auc值,GBDT的score:0.8623384430417794,auc：0.7633094425839567的效果最好.

思考
對上面這四種模型理解還很膚淺，現在對隨機森林和GBDT瞭解較多，LightGBM和xgboot只是簡單瞭解了一些,裡面有很多引數還不清楚什麼意思.
參考的文章
sklearn隨機森林分類類RandomForestClassifier
lightGBM原理、改進簡述
 python機器學習案例系列教程——LightGBM演算法
 auc指標含義的理解
 機器學習sklearn19.0——整合學習——bagging、隨機森林演算法
 整合學習之Adaboost演算法原理小結
 Sklearn-GBDT(GradientBoostingDecisonTree)梯度提升樹

利用隨機森林、GBDT、xgboost、LightGBM計算準確率和auc

利用隨機森林、GBDT、xgboost、LightGBM計算準確率和auc 用到的模組 import pandas as pd import lightgbm as lgb from sklearn.model_selection import train_test_s

利用邏輯迴歸，決策樹，svm計算準確率和AUC值

利用邏輯迴歸，決策樹，svm計算準確率和AUC值匯入的包 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import

機器學習提升演算法之Adaboost、GB、GBDT與XGBoost演算法

一、提升演算法概論 Boosting(提升)是一族可將弱學習器提升為強學習器的演算法。提升演算法基於這樣一種思想：對於一個複雜的任務，將多個專家的判斷總和得出的結果要比任何一個專家單獨的判斷好。這族演算法的工作機制類似：先從初始訓練集訓練出一個基學習器，再根據基學習器表現

通過５折交叉驗證，實現邏輯迴歸，決策樹，SVM,隨機森林，GBDT,Xgboost,lightGBM的評分

通過５折交叉驗證，實現邏輯迴歸，決策樹，SVM,隨機森林，GBDT,Xgboost,lightGBM的評分匯入的包 import pandas as pd import warnings from sklearn.preprocessing import scale

決策樹模型組合之隨機森林與GBDT（轉）

利用隨機森林進行特徵選擇

例子是wine資料集： http://archive.ics.uci.edu/ml/machine-learning-databases/wine/ 之所以可以利用隨即森立來進行特徵篩選是由於決策樹的特性，因此我們可以利用所有決策樹得到的平均不純度（基尼係數）

隨機森林 vs GBDT

一，隨機森林隨機森林是一個用隨機方式建立的，包含多個決策樹的整合分類器。其輸出的類別由各個樹投票而定（如果是迴歸樹則取平均）。假設樣本總數為n，每個樣本的特徵數為a，則隨機森林的生成過程如下：從原始樣本中採用有放回抽樣的方法選取n個樣本；對n個樣本選取a個特徵中的

機器學習總結(四)——隨機森林與GBDT(梯度提升決策樹)

1. 隨機森林簡介隨機森林採用的是bagging的思想，bagging即：通過在訓練樣本集中進行有放回的取樣得到多個取樣集，基於每個取樣集訓練出一個基學習器，再將基學習器結合起來共同實現分類或者回歸。隨機森林在對決策樹進行bagging的基礎上，

利用隨機森林和梯度替身決策樹對titanic資料進行分類，並對結果進行分析

import pandas as pd from sklearn.cross_validation import train_test_split from sklearn.feature_extraction import DictVectorizer from skle

利用隨機森林對特徵重要性進行評估

前言隨機森林是以決策樹為基學習器的整合學習演算法。隨機森林非常簡單，易於實現，計算開銷也很小，更令人驚奇的是它在分類和迴歸上表現出了十分驚人的效能，因此，隨機森林也被譽為“代表整合學習技術水平的方法”。本文是對隨機森林如何用在特徵選擇上做一個簡單的介紹。

Boosting演算法（GBDT，XGBoost，LightGBM）

1. 引言提升（Boosting）是一種機器學習技術，可以用於迴歸和分類問題，它每一步產生一個弱預測模型（如決策樹），並加權累加到總模型中加權累加到總模型中；如果每一步的弱預測模型生成都是依據損失函式的梯度方向，則稱之為梯度提升（Gradient Boosting）。梯度提升演算法首

陣列（隨機生成一維陣列），二維陣列的概念和題目設計（利用二維陣列：任意給定分數去計算科目和人均平均分）

1 //陣列間的關係arr[]中的數字為幾，[]內就有幾個數 2 //{ }內的數是從0開始，如需要列印應從0開數 3 如{2,6,9,8,7}列印arr[4]就是7 4 #include <stdio.h> 5 #include <stdlib.h> 6 int

決策樹，Adaboost，GBDT，Xgboost，LightGBM等

1 決策樹 ID3，C4.5 CART 特徵選擇，決策樹構建，剪枝 2 Adaboost 大多數提升方法都是改變訓練資料的概率（權值）分佈，針對不同的訓練資料分佈呼叫弱學習演算法的一系列弱分類器從而，兩個問題需要解答： (1)每一輪如何改變訓練資料的權值分佈

Spark隨機森林演算法對資料分類（一）——計算準確率和召回率

1.召回率和正確率計算對於一個K元的分類結果，我們可以得到一個K∗K的混淆矩陣,得到的舉證結果如下圖所示。從上圖所示的結果中不同的元素表示的含義如下： mij ：表示實際分類屬於類i，在預測過程中被預測到分類j 對於所有的mij可以概括為四種方式

ml課程：決策樹、隨機森林、GBDT、XGBoost相關（含程式碼實現）

以下是我的學習筆記，以及總結，如有錯誤之處請不吝賜教。基礎概念：熵Entropy：是衡量純度的一個標準,表示式可以寫為：資訊增益Information Gain：熵變化的一個量，表示式可以寫為：資訊增益率Gain Ratio：資訊增益的變化率，表示式可以寫為：

[面試筆記] 決策樹、隨機森林、GBDT、XGBoost

摘要本文主要分享了決策樹、隨機森林、GBDT、XGBoost 四種模型的原理決策樹對於決策樹，李航老師在《統計學習方法》裡有詳細的解釋分為ID3, C4.5, CART三個基本的樹生成演算法 ID3 是一個多叉樹，使用了熵作為

python機器學習案例系列教程——整合學習（Bagging、Boosting、隨機森林RF、AdaBoost、GBDT、xgboost）

可以通過聚集多個分類器的預測結果提高分類器的分類準確率，這一方法稱為整合（Ensemble）學習或分類器組合（Classifier Combination），該方法由訓練資料構建一組基分類器（Base Classifier），然後通過對每個基分類器的預測進行

決策樹、Bagging、隨機森林、Boosting、AdaBoost、GBDT、XGBoost

1、決策樹一、決策樹的優點和缺點優點：決策樹演算法中學習簡單的決策規則建立決策樹模型的過程非常容易理解，決策樹模型可以視覺化，非常直觀應用範圍廣，可用於分類和迴歸，而且非常容易做多類別的分類能夠處理數值型和連續的樣本特徵缺點：

決策樹（CART）、隨機森林、GBDT（GBRT）新手導讀及資料推薦，附加python實現程式碼

前言關於決策樹、隨機森林、GBDT（GBRT），這裡記錄我的一些理解，詳細的資料已經非常多了，也有很多好的部落格，再寫沒必要。推薦幾個有代表性的部落格，網際網路資源太多，良莠不齊。看了推薦的文章，你應該會有一個清晰的思路的。決策樹在理解決策樹時，在腦海裡面有個二叉樹的

整合學習之boosting，Adaboost、GBDT 和 xgboost（二）

AdaBoost 演算法的訓練誤差分析 AdaBoost最基本的性質是它能在學習過程中不斷減少訓練誤差，即在訓練資料集上的分類誤差率。定理：AdaBoost的訓練誤差界： 1

利用隨機森林、GBDT、xgboost、LightGBM計算準確率和auc

利用隨機森林、GBDT、xgboost、LightGBM計算準確率和auc

相關推薦