構建７種分類模型，評分並畫出ROC曲線

阿新 • • 發佈：2018-12-22

構建７種分類模型，評分並畫出ROC曲線

匯入的包

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.metrics import f1_score,precision_score,recall_score,roc_auc_score,accuracy_score,roc_curve
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from xgboost.sklearn import XGBClassifier
import lightgbm as lgb

讀取資料集

data_all = pd.read_csv('/home/infisa/wjht/project/DataWhale/data_all.csv', encoding='gbk')

劃分訓練集和測試集

features = [x for x in data_all.columns if x not in ['status']]
X = data_all[features]
y = data_all['status']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=2018)

構建模型

lr = LogisticRegression(random_state=2018,tol=1e-6)  # 邏輯迴歸模型
lr.fit(X_train, y_train)
lr_y_proba=lr.predict_proba(X_test)
lr_y_pre=lr.predict(X_test)

tr = DecisionTreeClassifier(random_state=2018)  # 決策樹模型
tr.fit(X_train, y_train)
tr_y_pre=tr.predict(X_test)
tr_y_proba=tr.predict_proba(X_test)

svm = SVC(probability=True,random_state=2018,tol=1e-6)  # SVM模型
svm.fit(X_train, y_train)
svm_y_pre=svm.predict(X_test)
svm_y_proba=svm.predict_proba(X_test)

forest=RandomForestClassifier(n_estimators=100,random_state=2018) #　隨機森林
forest.fit(X_train,y_train)
forest_y_pre=forest.predict(X_test)
forest_y_proba=forest.predict_proba(X_test)



Gbdt=GradientBoostingClassifier(random_state=2018) #CBDT
Gbdt.fit(X_train,y_train)
Gbdt_y_pre=Gbdt.predict(X_test)
Gbdt_y_proba=Gbdt.predict_proba(X_test)


Xgbc=XGBClassifier(random_state=2018)  #Xgbc
Xgbc.fit(X_train,y_train)
Xgbc_y_pre=Xgbc.predict(X_test)


gbm=lgb.LGBMClassifier(random_state=2018)  #lgb
gbm.fit(X_train,y_train)
gbm_y_pre=gbm.predict(X_test)
gbm_y_proba=gbm.predict_proba(X_test)

模型評分

# 模型評分
lr_score = lr.score(X_test, y_test)
lr_accuracy_score=accuracy_score(y_test,lr_y_pre)
lr_preci_score=precision_score(y_test,lr_y_pre)
lr_recall_score=recall_score(y_test,lr_y_pre)
lr_f1_score=f1_score(y_test,lr_y_pre)
lr_auc=roc_auc_score(y_test,lr_y_proba[:,1])
print('lr_accuracy_score: %f,lr_preci_score: %f,lr_recall_score: %f,lr_f1_score: %f,lr_auc: %f'
      %(lr_accuracy_score,lr_preci_score,lr_recall_score,lr_f1_score,lr_auc))
'lr_accuracy_score: 0.768746,lr_preci_score: 0.688312,lr_recall_score: 0.147632,lr_f1_score: 0.243119,lr_auc: 0.716681'


tr_score = tr.score(X_test, y_test)
tr_accuracy_score=accuracy_score(y_test,tr_y_pre)
tr_preci_score=precision_score(y_test,tr_y_pre)
tr_recall_score=recall_score(y_test,tr_y_pre)
tr_f1_score=f1_score(y_test,tr_y_pre)
tr_auc=roc_auc_score(y_test,tr_y_proba[:,1])
# print('tr_accuracy_score: %f,tr_preci_score: %f,tr_recall_score: %f,tr_f1_score: %f,tr_auc: %f'
#       %(tr_accuracy_score,tr_preci_score,tr_recall_score,tr_f1_score,tr_auc))

'tr_accuracy_score: 0.684653,tr_preci_score: 0.382429,tr_recall_score: 0.412256,tr_f1_score: 0.396783,tr_auc: 0.594237'



svm_accuracy_score=accuracy_score(y_test,svm_y_pre)
svm_preci_score=precision_score(y_test,svm_y_pre)
svm_recall_score=recall_score(y_test,svm_y_pre)
svm_f1_score=f1_score(y_test,svm_y_pre)
svm_auc=roc_auc_score(y_test,svm_y_proba[:,1])
print('svm_accuracy_score: %f,svm_preci_score: %f,svm_recall_score: %f,svm_f1_score: %f,svm_auc: %f'
      %(svm_accuracy_score,svm_preci_score,svm_recall_score,svm_f1_score,svm_auc))
'svm_accuracy_score: 0.748423,svm_preci_score: 0.000000,svm_recall_score: 0.000000,svm_f1_score: 0.000000,svm_auc: 0.500000'




forest_accuracy_score=accuracy_score(y_test,forest_y_pre)
forest_preci_score=precision_score(y_test,forest_y_pre)
forest_recall_score=recall_score(y_test,forest_y_pre)
forest_f1_score=f1_score(y_test,forest_y_pre)
forest_auc=roc_auc_score(y_test,forest_y_proba[:,1])
print('forest_accuracy_score: %f,forest_preci_score: %f,forest_recall_score: %f,forest_f1_score: %f,forest_auc: %f'
      %(forest_accuracy_score,forest_preci_score,forest_recall_score,forest_f1_score,forest_auc))
'forest_accuracy_score: 0.782060,forest_preci_score: 0.681818,forest_recall_score: 0.250696,forest_f1_score: 0.366599,forest_auc: 0.749137'



Gbdt_accuracy_score=accuracy_score(y_test,Gbdt_y_pre)
Gbdt_preci_score=precision_score(y_test,Gbdt_y_pre)
Gbdt_recall_score=recall_score(y_test,Gbdt_y_pre)
Gbdt_f1_score=f1_score(y_test,Gbdt_y_pre)
Gbdt_auc=roc_auc_score(y_test,Gbdt_y_proba[:,1])
print('Gbdt_accuracy_score: %f,Gbdt_preci_score: %f,Gbdt_recall_score: %f,Gbdt_f1_score: %f,Gbdt_auc: %f'
      %(Gbdt_accuracy_score,Gbdt_preci_score,Gbdt_recall_score,Gbdt_f1_score,Gbdt_auc))

'Gbdt_accuracy_score: 0.780659,Gbdt_preci_score: 0.611650,Gbdt_recall_score: 0.350975,Gbdt_f1_score: 0.446018,Gbdt_auc: 0.763828'


Xgbc_accuracy_score=accuracy_score(y_test,Xgbc_y_pre)
Xgbc_preci_score=precision_score(y_test,Xgbc_y_pre)
Xgbc_recall_score=recall_score(y_test,Xgbc_y_pre)
Xgbc_f1_score=f1_score(y_test,Xgbc_y_pre)
Xgbc_auc=roc_auc_score(y_test,Xgbc_y_pre)
print('Xgbc_accuracy_score: %f,Xgbc_preci_score: %f,Xgbc_recall_score: %f,Xgbc_f1_score: %f,Xgbc_auc: %f'
      %(Xgbc_accuracy_score,Xgbc_preci_score,Xgbc_recall_score,Xgbc_f1_score,Xgbc_auc))
'Xgbc_accuracy_score: 0.785564,Xgbc_preci_score: 0.630542,Xgbc_recall_score: 0.356546,Xgbc_f1_score: 0.455516,Xgbc_auc: 0.643161'



gbm_accuracy_score=accuracy_score(y_test,gbm_y_pre)
gbm_preci_score=precision_score(y_test,gbm_y_pre)
gbm_recall_score=recall_score(y_test,gbm_y_pre)
gbm_f1_score=f1_score(y_test,gbm_y_pre)
gbm_auc=roc_auc_score(y_test,gbm_y_proba[:,1])
print('gbm_accuracy_score: %f,gbm_preci_score: %f,gbm_recall_score: %f,gbm_f1_score: %f,gbm_auc: %f'
      %(gbm_accuracy_score,gbm_preci_score,gbm_recall_score,gbm_f1_score,gbm_auc))
'gbm_accuracy_score: 0.770147,gbm_preci_score: 0.570136,gbm_recall_score: 0.350975,gbm_f1_score: 0.434483,gbm_auc: 0.757402'

畫出Roc曲線

lr_fpr,lr_tpr,lr_threasholds=roc_curve(y_test,lr_y_proba[:,1]) # 計算ROC的值,lr_threasholds為閾值
plt.title("roc_curve of %s(AUC=%.4f)" %('logist',lr_auc))
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.plot(lr_fpr,lr_tpr)
plt.show()

logist_roc

tr_fpr,tr_tpr,tr_threasholds=roc_curve(y_test,tr_y_proba[:,1]) # 計算ROC的值,lr_threasholds為閾值
plt.title("roc_curve of %s(AUC=%.4f)" %('decisiontree',tr_auc))
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.plot(tr_fpr,tr_tpr)
plt.show()

decision_tree_roc

svm_fpr,svm_tpr,svm_threasholds=roc_curve(y_test,svm_y_proba[:,1]) # 計算ROC的值,svm_threasholds為閾值
plt.title("roc_curve of %s(AUC=%.4f)" %('svm',svm_auc))
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.plot(svm_fpr,svm_tpr)
plt.show()

svm_roc

forest_fpr,forest_tpr,forest_threasholds=roc_curve(y_test,forest_y_proba[:,1]) # 計算ROC的值,svm_threasholds為閾值
plt.title("roc_curve of %s(AUC=%.4f)" %('forest',forest_auc))
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.plot(forest_fpr,forest_tpr)
plt.show()

forest_roc

Gbdt_fpr,Gbdt_tpr,Gbdt_threasholds=roc_curve(y_test,Gbdt_y_proba[:,1]) # 計算ROC的值,svm_threasholds為閾值
plt.title("roc_curve of %s(AUC=%.4f)" %('Gbdt',Gbdt_auc))
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.plot(Gbdt_fpr,Gbdt_tpr)
plt.show()

gbdt_roc

Xgbc_fpr,Xgbc_tpr,Xgbc_threasholds=roc_curve(y_test,Xgbc_y_pre) # 計算ROC的值,svm_threasholds為閾值
plt.title("roc_curve of %s(AUC=%.4f)" %('Xgbc',Xgbc_auc))
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.plot(Xgbc_fpr,Xgbc_tpr)
plt.show()

xgbx_roc

gbm_fpr,gbm_tpr,gbm_threasholds=roc_curve(y_test,gbm_y_proba[:,1]) # 計算ROC的值,svm_threasholds為閾值
plt.title("roc_curve of %s(AUC=%.4f)" %('gbm',gbm_auc))
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.plot(gbm_fpr,gbm_tpr)
plt.show()

gbm_roc

思考
01 對於roc曲線，直接畫成直線不太理解；
02 對於svm_accuracy_score: 0.748423,svm_preci_score: 0.000000,svm_recall_score: 0.000000,svm_f1_score: 0.000000,svm_auc: 0.500000　其中得出的項為什麼為０不理解
參考的文章
機器學習中的 precision、recall、accuracy、F1 Score
分類問題的幾個評價指標（Precision、Recall、F1-Score、Micro-F1、Macro-F1）

構建７種分類模型，評分並畫出ROC曲線

構建７種分類模型，評分並畫出ROC曲線匯入的包 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.linear_model import Logi

Keras 最新《面向小數據集構建圖像分類模型》

網絡 ict regular n) val sent rom link prepare 本文地址：http://blog.keras.io/building-powerful-image-classification-models-using-very-little-dat

構建短文字分類模型需要注意的幾點

一、深度學習模型　　1.CNN 　　2.LSTM 　　3.Attention 二、與傳統機器學習模型的比較　　1.SVM 　　2.LR 　　3.GBDT 　　4.XGBoost 　　5.RandomForest 　　6.LightGBM 三、文字特徵選擇　　1.一般短文字的長度在

【Keras初學】keras構建兩種特徵輸入，兩個輸出同時訓練

基於Keras構建兩種不同資料的輸入和兩種輸出，進行訓練，結構圖如下：Python程式碼如下：from keras.layers import Input, Embedding, LSTM, Dense from keras.models import Model impor

機器學習模型準確率，精確率，召回率，F-1指標及ROC曲線

01準確率，精確率，召回率，F-1指標及ROC曲線假設原樣本有兩類，正樣本True和負樣本False 正樣本 -------------------------------True 負樣本 --------------------------------False 真正樣本 True P

隨機生成（x,y）資料值，並畫出散點圖

隨機生成（x,y）資料值，並畫出散點圖 import numpy as np import matplotlib.pyplot as plt r = []#生成兩個空列表 b = [] d=np.zeros((50,2)) print(d) Mean=0 STD=5 for i in r

【114】Python小例子：numpy.random.randn生成符合正態分佈的資料，並畫出正態分佈的鐘曲線。

自己學習python 隨手寫的一個小例子。先利用 numpy.random.randn生成符合正態分佈的資料，然後再給這些資料畫正態分佈的曲線圖。 import numpy as np impor

請實現一個佇列，既可以存放整數，又可以存放字串。簡單的說，佇列是一種資料結構，按照先進先出的順序管理進、出佇列的元素

請實現一個佇列，既可以存放整數，又可以存放字串。簡單的說，佇列是一種資料結構，按照先進先出的順序管理進、出佇列的元素。本題要求完成：　　（1）實現描述佇列的類Queue，其中定義了佇列的大小Size（即佇列中可以存放的元素個數），幷包括進佇列函式Add，出佇列函式De

day1:作業編寫登錄接口並畫出相應的流程圖

pla .com word user code 接口 ans open have 作業要求： 1.輸入用戶名密碼 2.認證成功後顯示歡迎信息 3.輸錯三次後鎖定代碼如下 _user_list =[] _user_dict = {} _login_error_count

有了這款課件制作工具，輕松畫出正多邊形

了解一點獲取 www. ihe 箭頭地址 text obia 現代教學要求老師們掌握多媒體教學，這就要求掌握教學輔助工具，比如數學課件制作工具幾何畫板，我們可以用它畫出正多邊形，下面我們就以用幾何畫板繪制正五邊形為例，看看正多邊形的繪制方法。幾何畫板軟件免費獲取地址

python ubuntu dlib 6- 人臉檢測並畫出輪廓

對輸入圖片進行人臉檢測，畫出人臉輪廓 import sys import os import dlib import glob if len(sys.argv) != 3: print( "Give the path to the trained shape pre

python—networkx：求圖的平均路徑長度並畫出直方圖

LINUX環境並發服務器的三種實現模型

服務 sset 成了 nec 使用 ndt 系統調用 accept listen 服務器設計技術有很多，按使用的協議來分有TCP服務器和UDP服務器。按處理方式來分有循環服務器和並發服務器。 1 循環服務器與並發服務器模型在網絡程序裏面，一般來說都是許多客戶對應一個服務

python並發編程之IO模型，

接口延遲 return default 經歷主動 import 線程編程擁有了解新知識之前需要知道的一些知識同步（synchronous）：一個進程在執行某個任務時，另外一個進程必須等待其執行完畢，才能繼續執行 #所謂同步，就是在發出一個功能調用時，在沒有得到結

三種排序：快排，歸並，堆排

new swap 簡單數組合並 col 最大 heapsort 堆排序大神轉自：http://www.cnblogs.com/LUO77/p/5798149.html （一）快排快排考的是最多次的。之前看大神寫的算法很簡單，思想也很好。就一直用他的思想去思考快排

判斷圖連通的三種方法——dfs，bfs，並查集

題目 pan closed 節點 out esp cli div find Description 如果無向圖G每對頂點v和w都有從v到w的路徑，那麽稱無向圖G是連通的。現在給定一張無向圖,判斷它是否是連通的。 Input 第一行有2個整數n和m(0 <

【轉載】用Scikit-Learn構建K-近鄰算法，分類MNIST數據集

blank 應該距離含義 https 輸入簡單 k-近鄰算法返回原帖地址：https://www.jiqizhixin.com/articles/2018-04-03-5 K 近鄰算法，簡稱 K-NN。在如今深度學習盛行的時代，這個經典的機器學習算法經常被輕視。本

寫出一種排序算法（要寫出代碼），並說出優化它的方法。

TE 插入排序我們 part while IT 如果 urn class 1 <?php 2 //快速排序 3 function partition(&$arr, $low, $high) 4 { 5 $pivotkey = $arr[$

谷歌做了45萬次不同類型的文本分類後，總結出一個通用的“模型選擇算法”...

machine 產品梯度論壇系統例子 per 獲取 tis 谷歌做了45萬次不同類型的文本分類後，總結出一個通用的“模型選擇算法”... 2018年07月25日 17:43:55 閱讀數：6 新智元報道來源：developers.goo

Classification： Precision/Recall ,ROC, AUC等分類模型評估方法，Multilabel and Multioutput Classification

Classification 一.資料集獲取及預處理 1 資料集匯入 2資料集劃分二、binary classification 二元分類器自己實現交叉驗證函式 confusion ma

構建７種分類模型，評分並畫出ROC曲線

構建７種分類模型，評分並畫出ROC曲線

相關推薦