python機器學習-sklearn挖掘乳腺癌細胞（五）

阿新 • • 發佈：2018-10-05

糾正 plot 不錯方法 eid right ref nump cores

python機器學習-sklearn挖掘乳腺癌細胞( 博主親自錄制)

網易雲觀看地址

https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

技術分享圖片

模型驗證

分類器好壞驗證，模型建立好後，不是萬事大吉，需要進行crossvalidation, AUC,GINi，KS，GainTable檢驗

KS可以檢測模型區分好壞客戶能力，如果有一個分數段區分能力強，KS會大於0.2

AUC檢測模型分類器效果，分類器敏感度越高，AUC越大，一般AUC大於0.7，分類器準確性就不錯。

Gain Table可以檢測模型收益情況和排序能力

模型驗證中數據要拆分為train(訓練),test（測試）,oot（跨時間）

train和test是同一個時間段，一般三七開，train占百分之70，test占百分之30

oot的時間段在train，test後面，用於測試未來數據

技術分享圖片

下圖是模型驗證的可視化：

包括ROC，提升圖，KS,PSI四個指標

技術分享圖片

由於時間關系，我們只詳細說明一下ROC/AUC檢驗

auc分數有兩種計算方式，第一種是根據目標變量y_true,預測分數/預測概率y_socres,通過roc_auc_score(y_true, y_scores)計算AUC

第二種方法是通過fpr,tpr，通過auc(fpr,tpr)來計算AUC

技術分享圖片

excel 繪圖ROC

技術分享圖片

ROC的前置條件是分數越高，陽性率越高，但風控模型中，有的分數越低，壞客戶概率越高，例如蜜罐分數，因此ROC繪制出來是反的，需要對陽性標簽反轉pos_label=0

技術分享圖片

由於分數越低，壞客戶概率越高，畫出來的ROC曲線是反轉的，需要糾正

技術分享圖片

AUC/ROC檢驗代碼

# -*- coding: utf-8 -*-
"""
Created on Thu Apr 12 22:31:31 2018
 
@author: [email protected]
"""
import numpy as np
from sklearn import metrics
from sklearn.metrics import roc_curve, auc,roc_auc_score  ###計算roc和auc
 
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import mglearn
import matplotlib.pyplot as plt
 
cancer=load_breast_cancer()
 
#mglearn.plots.plot_knn_classification(n_neighbors=3)
X_train,x_test,y_train,y_test=train_test_split(cancer.data,cancer.target,stratify=cancer.target,random_state=42)
 
knn=KNeighborsClassifier()
knn.fit(X_train,y_train)
print("accuracy on the training subset:{:.3f}".format(knn.score(X_train,y_train)))
print("accuracy on the test subset:{:.3f}".format(knn.score(x_test,y_test)))
 
#Auc驗證，數據采用測試集數據
#癌癥的概率
proba_cancer=knn.predict_proba(x_test)
y_scores=pd.DataFrame(proba_cancer)[1]
y_scores=np.array(y_scores)
y_true=y_test
#auc分數
#auc分數有兩種計算方式，第一種是根據目標變量y_true,預測分數/預測概率y_socres,通過roc_auc_score(y_true, y_scores)計算AUC
AUC=roc_auc_score(y_true, y_scores)
print("AUC:",AUC)
#auc第二種方法是通過fpr,tpr，通過auc(fpr,tpr)來計算AUC
fpr, tpr, thresholds = metrics.roc_curve(y_true, y_scores, pos_label=1)
AUC1 = auc(fpr,tpr) ###計算auc的值 
 
#print("fpr:",fpr)
#print("tpr:",tpr)
#print("thresholds:",thresholds)
print("AUC1:",AUC1)
 
if AUC >=0.7:
    print("good classifier")
if 0.7>AUC>0.6:
    print("not very good classifier")
if 0.6>=AUC>0.5:
    print("useless classifier")
if 0.5>=AUC:
    print("bad classifier,with sorting problems")
     
 
#繪制ROC曲線
#畫對角線 
plt.plot([0, 1], [0, 1], ‘--‘, color=(0.6, 0.6, 0.6), label=‘Diagonal line‘) 
plt.plot(fpr,tpr,label=‘ROC curve (area = %0.2f)‘ % AUC) 
plt.title(‘ROC curve‘)  
plt.legend(loc="lower right")

掃二維碼，關註博主主頁，學習更多Python知識

技術分享圖片

https://m.study.163.com/user/1135726305.htm?utm_campaign=share&utm_medium=iphoneShare&utm_source=weixin&utm_u=1015941113

python機器學習-sklearn挖掘乳腺癌細胞（五）

糾正 plot 不錯方法 eid right ref nump cores python機器學習-sklearn挖掘乳腺癌細胞( 博主親自錄制) 網易雲觀看地址 https://study.163.com/course/introduction.htm?courseId

python機器學習-sklearn挖掘乳腺癌細胞（三）

質量 mat spl tcl pytho 不同區別工具 state python機器學習-sklearn挖掘乳腺癌細胞( 博主親自錄制) 網易雲觀看地址 https://study.163.com/course/introduction.htm?courseId=10

Python機器學習依賴庫的安裝（numpy、scipy、sklearn）

說到機器學習，相信大部分的研究者都是使用python來完成的，因為是實在太方便了，幾行程式碼就搞定了，比較前人做的研究都積累在那邊，所以今天我又重新安裝了python（還不是因為要做機器學習方面的實驗和luwn論文），so開始吧！ 1、常用Python機器學習包 Numpy：用於科學計算的包

Python-sklearn 機器學習的第一個樣例（1）

本文翻譯自Randal S. Olson的文章《An example machine learning notebook》，原文：點選開啟連結這篇文章可以作為機器學習的第一個學習案例，通過這個案例，基本上可以把機器學習的整個過程接觸一遍，對機器學習有了初步的瞭解。整個過程

Python機器學習實踐指南 pdf 下載（中文版帶書籤）、原書程式碼、資料集

機器學習正在迅速成為資料驅動型世界的一個bi備模組。許多不同的領域，如機器人、醫學、零售和出版等，都需要依賴這門技術。通過閱讀 Python機器學習實踐指南，你將學習如何一步步構建真實的機器學習應用程式。 Python機器學習實踐指南以通俗易懂，簡潔明瞭的方式，教你如何使用機器

python 機器學習 sklearn 廣義線性模型

廣義的線性模型是最最常用和我個人認為最重要的最小二乘 class sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False, copy_X=

機器學習演算法：交叉驗證——（監督）學習器效能評估方法 [ sklearn.model_selection.cross_val_score()官方翻譯 ]

交叉驗證——（監督）學習器效能評估方法一、思考：交叉驗證有什麼好值得我們使用的？每個演算法模型都需要經過兩個階段：訓練和驗證。 1）一般情況下的，我們用的方法是：將原始資料集分為訓練資料集 & 測試資料集。優點：是，但僅僅是思路正確。缺點：思

Python資料預處理：機器學習、人工智慧通用技術（1）

Python資料預處理：機器學習、人工智慧通用技術白寧超 2018年12月24日17:28:26 摘要：大資料技術與我們日常生活越來越緊密，要做大資料，首要解決資料問題。原始資料存在大量不完整、不一致、有異常的資料，嚴重影響到資料建模的執行效率，甚至可能導致模型

機器學習實戰第二章KNN（1）python程式碼及註釋

#coding=utf8 #KNN.py from numpy import * import operator def createDataSet(): group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) #我覺

Python《機器學習實戰》讀書筆記（四）——樸素貝葉斯

第四章基於概率論的分類方法：樸素貝葉斯 4-1 基於貝葉斯決策理論的分類方法優點：在資料較小的情況下仍然有效，可以處理多類別問題缺點：對於輸入資料的準備方式較為敏感。適用資料型別：標稱型資料。假設現在我們有一個數據集，它由兩類資

python入門學習-列表和元組（1）

索引個人 .so .cn pytho 入門 main 範圍 mage 數據結構是通過某種方式（例如對元素進行編號）組織在一起的數據元素的集合。這些數據元素可以是數字或者字符，甚至可以是其他數據結構。在python中，最基本的數據結構是序列（seque

機器學習入門之四：機器學習的方法-神經網絡（轉載）

轉載 bsp 圖像 src nbsp 加速數值 str 我們　　轉自飛鳥各投林　　神經網絡　　　　神經網絡(也稱之為人工神經網絡，ANN)算法是80年代機器學習界非常流行的算法，不過在90年代中途衰落。現在，攜著“深度學習”之勢，神

機器學習---支持向量機（SVM）

行處理 off 距離又是分類器 libs 自己的 cos 一個非常久之前就學了SVM，總認為不就是找到中間那條線嘛，但有些地方模棱兩可，真正編程的時候又是一團漿糊。參數任意試驗，毫無章法。既然又又一次學到了這一章節，那就要把之前沒有搞懂的地方都整明確，嗯~

解釋機器學習模型的一些方法（三）——理解復雜的機器學習模型

p s 結果 origin 得出驗證場景這樣的機器發的在這一部分中我們所要展現的技術，可以為非線性、非單調的響應函數生成解釋。我們可以把它們與前兩部分提到的技巧結合起來，增加所有種類模型的可解釋性。實踐者很可能需要使用下列增強解釋性技巧中的一種以上，為他們手中

機器學習-反向傳播算法（BP）代碼實現（matlab）

sha eric his work onclick chan same images let %% Machine Learning Online Class - Exercise 4 Neural Network Learning % Instructions

機器學習之支援向量機（四）

引言：　　SVM是一種常見的分類器，在很長一段時間起到了統治地位。而目前來講SVM依然是一種非常好用的分類器，在處理少量資料的時候有非常出色的表現。SVM是一個非常常見的分類器，在真正瞭解他的原理之前我們多多少少都有接觸過他。本文將會詳細的介紹SVM的原理、目標以及計算過程和演算法步驟。我們針對線性可分資

一個月刷完機器學習筆試題300題（9）

第九天 1、對於下面三個模型的訓練情況，下面說法正確的是: 第一張圖的訓練錯誤與其餘兩張圖相比，是最大的最後一張圖的訓練效果最好，因為訓練錯誤最小第二張圖比第一和第三張圖魯棒性更強，是三個裡面表現最好的模型第三張圖相對前兩張圖過擬合了三個圖

一個月刷完機器學習筆試題300題（8）

第八天 1、對於下圖, 最好的主成分選擇是多少 ? A 7 B 30 C 35 D Can’t Say 正確答案是： B 主成分選擇使variance越大越好，在這個前提下，主成分越少越好。 2、資料科學家可能會同時使用多個演算法（模型）進行預測，並且最後把這些演算法的結果整合起

一個月刷完機器學習筆試題300題（7）

第七天 1、使用k=1的knn演算法, 下圖二類分類問題, “+” 和 “o” 分別代表兩個類, 那麼, 用僅拿出一個測試樣本的交叉驗證方法, 交叉驗證的錯誤率是多少： A 0% B 100% C 0%到100 D 以上都不是正確答案是： B knn演算法就是, 在樣本週圍看k個樣本

一個月刷完機器學習筆試題300題（6）

第六天 61、bootstrap資料是什麼意思？（提示：考“bootstrap”和“boosting”區別） A 有放回地從總共M個特徵中抽樣m個特徵 B 無放回地從總共M個特徵中抽樣m個特徵 C 有放回地從總共N個樣本中抽樣n個樣本 D 無放回地從總共N個樣本中抽樣n個樣本正確答案是

python機器學習-sklearn挖掘乳腺癌細胞（五）

相關推薦