通過５折交叉驗證，實現邏輯迴歸，決策樹，SVM,隨機森林，GBDT,Xgboost,lightGBM的評分

阿新 • • 發佈：2018-12-22

通過５折交叉驗證，實現邏輯迴歸，決策樹，SVM,隨機森林，GBDT,Xgboost,lightGBM的評分

匯入的包

import pandas as pd
import warnings
from sklearn.preprocessing import scale
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from xgboost.sklearn import XGBClassifier
import lightgbm as lgb

讀取資料集

data_all = pd.read_csv('/home/infisa/wjht/project/DataWhale/data_all.csv', encoding='gbk')

處理資料集

df_y=data_all['status']
df_X=data_all.drop(columns=['status'])
df_X=scale(df_X,axis=0)  #將資料轉化為標準資料

構建模型

lr = LogisticRegression(random_state=2018,tol=1e-6)  # 邏輯迴歸模型

tree = DecisionTreeClassifier(random_state=2018) #決策樹模型

svm = SVC(probability=True,random_state=2018,tol=1e-6)  # SVM模型

forest=RandomForestClassifier(n_estimators=100,random_state=2018) #　隨機森林

Gbdt=GradientBoostingClassifier(random_state=2018) #CBDT

Xgbc=XGBClassifier(random_state=2018)  #Xgbc

gbm=lgb.LGBMClassifier(random_state=2018)  #lgb

構建評分函式，並採取５折交叉驗證的方式評分

def muti_score(model):
    warnings.filterwarnings('ignore')
    accuracy = cross_val_score(model, df_X, df_y, scoring='accuracy', cv=5)
    precision = cross_val_score(model, df_X, df_y, scoring='precision', cv=5)
    recall = cross_val_score(model, df_X, df_y, scoring='recall', cv=5)
    f1_score = cross_val_score(model, df_X, df_y, scoring='f1', cv=5)
    auc = cross_val_score(model, df_X, df_y, scoring='roc_auc', cv=5)
    print("準確率:",accuracy.mean())
    print("精確率:",precision.mean())
    print("召回率:",recall.mean())
    print("F1_score:",f1_score.mean())
    print("AUC:",auc.mean())

其中mean()指的是求得的均值

模型	準確率	精確率	召回率	F1_score	AUC
邏輯迴歸	0.7890191148682617	0.6542724662896913	0.3377975457965613	0.44525012166067884	0.7840451024530857
決策樹	0.6962524533638791	0.6962524533638791	0.6962524533638791	0.6962524533638791	0.6962524533638791
SVM	0.787758390223099	0.7351623295760905	0.24060335431243626	0.36179547264664874	0.7640376541388867
隨機森林	0.7921756804332226	0.7135700690071172	0.2867128441334693	0.40835414886475174	0.7752164698827589
GBDT	0.7938590063951863	0.6604108594441386	0.36633732991104395	0.4708811551285791	0.7888240065764295
Xgboost	0.7982740847293591	0.6829783239831001	0.3663162336064133	0.47673826685376613	0.7914190511145234
LightGbm	0.79049080811139	0.6421783397519263	0.3730354066312717	0.47150438344663004	0.7776116341798183

分析
模型的評分思想，是通過採用５折交叉驗證，得出其中的均值分數來評判。從上表中可以看出邏輯迴歸，隨機森林，GBDT，Xgboost,LightGbm的各個指標都很相近而且分數也較高，說明這幾個模型擬合數據效果都較好，都可以選做模型。綜合來看Xgboost的分數更高一些，它的評分效果最好。
問題
01 還沒有學會在程式碼中，可以直接輸出表格的操作。
02 對各個模型的引數還不太瞭解
03 對資料集劃分，怎樣構造優質的資料還比較欠缺。
參考文章
cross_val_score的 scoring引數值解析
 python機器學習庫sklearn——交叉驗證（K折、留一、留p、隨機）
12號同學寫的部落格
完整程式碼

import pandas as pd
import warnings
from sklearn.preprocessing import scale
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from xgboost.sklearn import XGBClassifier
import lightgbm as lgb


# 讀取資料集
data_all = pd.read_csv('/home/infisa/wjht/project/DataWhale/data_all.csv', encoding='gbk')

# 劃分為5折交叉驗證資料集
df_y=data_all['status']
df_X=data_all.drop(columns=['status'])
df_X=scale(df_X,axis=0)  #將資料轉化為標準資料
#構建模型

lr = LogisticRegression(random_state=2018,tol=1e-6)  # 邏輯迴歸模型

tree = DecisionTreeClassifier(random_state=2018) #決策樹模型

svm = SVC(probability=True,random_state=2018,tol=1e-6)  # SVM模型

forest=RandomForestClassifier(n_estimators=100,random_state=2018) #　隨機森林

Gbdt=GradientBoostingClassifier(random_state=2018) #CBDT

Xgbc=XGBClassifier(random_state=2018)  #Xgbc

gbm=lgb.LGBMClassifier(random_state=2018)  #lgb



def muti_score(model):
    warnings.filterwarnings('ignore')
    accuracy = cross_val_score(model, df_X, df_y, scoring='accuracy', cv=5)
    precision = cross_val_score(model, df_X, df_y, scoring='precision', cv=5)
    recall = cross_val_score(model, df_X, df_y, scoring='recall', cv=5)
    f1_score = cross_val_score(model, df_X, df_y, scoring='f1', cv=5)
    auc = cross_val_score(model, df_X, df_y, scoring='roc_auc', cv=5)
    print("準確率:",accuracy.mean())
    print("精確率:",precision.mean())
    print("召回率:",recall.mean())
    print("F1_score:",f1_score.mean())
    print("AUC:",auc.mean())



model_name=["lr","tree","svm","forest","Gbdt","Xgbc","gbm"]
for name in model_name:
    model=eval(name)
    print(name)
    muti_score(model)


'''
lr
準確率: 0.7890191148682617
精確率: 0.6542724662896913
召回率: 0.3377975457965613
F1_score: 0.44525012166067884
AUC: 0.7840451024530857
tree
準確率: 0.6962524533638791
精確率: 0.39920670173446693
召回率: 0.4157413593052284
F1_score: 0.40705496051057793
AUC: 0.6029856787858856
svm
準確率: 0.787758390223099
精確率: 0.7351623295760905
召回率: 0.24060335431243626
F1_score: 0.36179547264664874
AUC: 0.7640376541388867
forest
準確率: 0.7921756804332226
精確率: 0.7135700690071172
召回率: 0.2867128441334693
F1_score: 0.40835414886475174
AUC: 0.7752164698827589
Gbdt
準確率: 0.7938590063951863
精確率: 0.6604108594441386
召回率: 0.36633732991104395
F1_score: 0.4708811551285791
AUC: 0.7888240065764295
Xgbc
準確率: 0.7982740847293591
精確率: 0.6829783239831001
召回率: 0.3663162336064133
F1_score: 0.47673826685376613
AUC: 0.7914190511145234
gbm
準確率: 0.79049080811139
精確率: 0.6421783397519263
召回率: 0.3730354066312717
F1_score: 0.47150438344663004
AUC: 0.7776116341798183
'''

通過５折交叉驗證，實現邏輯迴歸，決策樹，SVM,隨機森林，GBDT,Xgboost,lightGBM的評分

通過５折交叉驗證，實現邏輯迴歸，決策樹，SVM,隨機森林，GBDT,Xgboost,lightGBM的評分匯入的包 import pandas as pd import warnings from sklearn.preprocessing import scale

邏輯迴歸、決策樹和支援向量機

摘要：分類問題是商業業務中遇到的主要問題之一。本文對三種主要技術展開討論，邏輯迴歸（Logistic Regression）、決策樹（Decision Trees）和支援向量機（Support Vector Machine，SVM）。分類問題是我們在各個行業的商業業務中遇到的主要問題之一。在本

python實現周志華西瓜書《機器學習》習題3.4 對比10折交叉驗證和留一法的對率迴歸錯誤率

這道題仍然在抄大神程式碼的基礎上寫註釋，首先感謝原始碼： https://blog.csdn.net/Snoopy_Yuan/article/details/64131129 感想是：sklearn是個好東西，如果沒有現成的驗證方法，光是10折驗證就要造10個表格才行，而用現成的庫，一

機器學習之模型選擇（K折交叉驗證，超引數的選擇）

來源： https://www.cnblogs.com/jerrylead/archive/2011/03/27/1996799.html 對於解決同一個問題，如怎麼選擇模型去擬合線性迴歸中只有一個特徵時房價預測問題，如可能有不同的模型去解決，如： 1、d = 1，h（

K-折交叉驗證(k-fold crossValidation)以及在matlab中的實現

轉載原文定義：在機器學習中，將資料集A分為訓練集B（training set）和測試集C（test set），在樣本量不充足的情況下，為了充分利用資料集對演算法效果進行測試，將資料集A隨機分為k個包，每次將其中一個包作為測試集，剩下k-1個包作為訓練集進

【機器學習】交叉驗證，K折交叉驗證的偏差和方差分析

交叉驗證部分參考：模型選擇中的交叉驗證方法綜述,山西大學，範永東（這是一篇碩士論文，原文內容有點囉嗦，存在一些錯誤。本文對其交叉驗證部分校對整理）交叉驗證是一種通過估計模型的泛化誤差，從而進行模型選擇的方法。沒有任何假定前提，具有應用的普遍性，操

R語言——K折交叉驗證之隨機均分數據集

present sent new 理解 6.5 ble 數據表 uno repr 今天，在閱讀吳喜之教授的《復雜數據統計方法》時，遇到了把一個數據集按照某個因子分成若幹子集，再把若幹子集隨機平均分成n份的問題，吳教授的方法也比較好理解，但是我還是覺得有點繁瑣，因此自己編寫了

滾動頁面，加載元素，實現邏輯

height 加載 set clas 提前 fse () -s fun 1 <script> 2 $(function(){ 3 $(window).scroll(function () { //滾動觸發 4

留出法、K折交叉驗證、留一法進行數據集劃分

leave targe lec digits 行數據 import one 訓練訓練集 from sklearn import datasets from sklearn import model_selection #引入sklearn庫中手寫數字的數據集 digit

kreas搭建神經網路預測波士頓房價（手寫K折交叉驗證）

1、程式說明所有注意事項均寫入註釋 from keras.datasets import boston_housing import numpy as np from keras import models from keras import layers from keras.o

驗證碼實現邏輯設計

背景說明驗證碼可能會用在註冊、登陸、找回密碼等多個功能上。可能會使用手機驗證碼或者郵箱驗證碼等多種方式。這裡記錄一下自己的驗證碼實現方式。解決方案步驟一：傳送驗證碼客戶端呼叫傳送驗證碼api 傳入欄位欄位型別描述

通過使用各種演算法（線性迴歸，邏輯迴歸，隨機森林，繼承演算法）預測泰坦尼克號上的某個人是否獲救

Python原始碼: #!/usr/bin/env python # encoding: utf-8 """ @Company：華中科技大學電氣學院聚變與等離子研究所 @version: V1.0 @author: Victor @contact: [email protected]

k折交叉驗證 cannot import name 'cross_validation' 解決方法

問題：k折交叉驗證輸入方法 from sklearn.model_selection import cross_validation 提示： cannot import name 'cross_validation' 解決方案： 01 更新後的輸入

【K折交叉驗證】K值到底如何選擇？

引言想必做機器學習的，都不同程度的用過交叉驗證(cross validation)，通常使用交叉驗證評估一個機器學習模型的表現。交叉驗證有很長的歷史，但交叉驗證的研究有不少待解決的問題。就交叉驗證的K值選取來講，可能一部分人不加思考，只是泛泛的使用常規的10

泛化能力、訓練集、測試集、K折交叉驗證、假設空間、欠擬合與過擬合、正則化（L1正則化、L2正則化）、超引數

泛化能力（generalization）：機器學習模型。在先前未觀測到的輸入資料上表現良好的能力叫做泛化能力（generalization）。訓練集（training set）與訓練錯誤（training error）：訓練機器學習模型使用的資料集稱為訓練集（tr

用K折交叉驗證估計KNN演算法中的K值

前幾天用KNN對自己的資料進行了分類，對於KNN中的K值，之前一直是靠緣分來試的，試的時候感覺K=3的效果挺好的。之後看了好多CSDN的部落格，發現一般大家除了靠緣分去試K值之外，也會採用交叉驗證的方法去近似求得K值，因此我決定自己實現一下，看看有什麼效果。

交叉驗證 matlab實現

轉自：http://www.xuebuyuan.com/1409669.html crossvalind交叉驗證 Generate cross-validation indices 生成交叉驗證索引 Syntax語法 Indices = crossvalind

5折交叉驗證的迴歸分析

w<-read.csv("C:\\Users\\Administrator\\Desktop\\mg.csv",header=T) #樣本的個數為1385,5折交叉驗證 n=1385 zz1=1:n zz2=rep(1:5,ceiling(1385/5))[1:n]

模式識別之k-折交叉驗證(k-fold crossValidation)

（1）英文名叫做10-fold cross-validation，用來測試演算法準確性，是常用的測試方法。（2）將資料集分成十份，輪流將其中9份作為訓練資料，1份作為測試資料，進行試驗。每次試驗都會得出相應的正確率（或差錯率）。（3）10次的結果的正確率（或差錯率）的平均值作為對演算法精度的估計，

ML之迴歸預測之Lasso：利用Lasso演算法解決迴歸(實數值評分預測)問題—採用10折交叉驗證(測試集error)來評估LassoCV模型

ML之迴歸預測之Lasso：利用Lasso演算法解決迴歸(實數值評分預測)問題—採用10折交叉驗證(測試集error)來評估LassoCV模型輸出結果設計思路核心程式碼 if t==1: X = numpy.ar

通過５折交叉驗證，實現邏輯迴歸，決策樹，SVM,隨機森林，GBDT,Xgboost,lightGBM的評分

通過５折交叉驗證，實現邏輯迴歸，決策樹，SVM,隨機森林，GBDT,Xgboost,lightGBM的評分

相關推薦