二分類模型評價指標-Sklearn

阿新 • • 發佈：2018-12-30

Sklearn的metrics模組下有多個計算模型評價指標的函式，本文只介紹二分類的指標函式。

1.準確率

1.1引數說明

sklearn.metrics.accuracy_score(y_true, y_pred, normalize=True, sample_weight=None)

解釋
引數	y_true 真實的label，一維陣列格式 2.y_pred 模型預測的label，一維陣列 3.normalize 預設True，返回正確預測的比例，False返回預測正確的個數 4.sample_weight 樣本權重
返回結果	score:返回正確的比例或者個數，由normalize指定

a c c u a r c y (y, \hat{y}) = \frac{1}{n_{s a m p l e s}} \sum_{i = 0}^{n_{s a m p l e s} - 1} 1 ({\hat{y}}_{i} = y_{i})

1.2 應用

import pandas as pd
import numpy as np
from sklearn import metrics
y_pred = [0,1,0,1]
y_true = [0,0,0,0]

## 返回正確率
metrics.accuracy_score(y_pred,y_true)

0.5

## 返回正確個數
metrics.accuracy_score(y_pred,y_true,normalize=False 
)

2.混淆矩陣

2.1 引數說明

引數	y_true 真實的label，一維陣列格式，列名 2.y_pred 模型預測的label，一維陣列，行名 3.labels 預設不指定，此時y_true、y_pred取並集，升序，做label 4.sample_weight 樣本權重
返回結果	C:返回混淆矩陣，注意label

2.2 應用

y_true = [2, 0, 2, 0, 0, 1]
y_pred = [0, 0, 2, 2, 3, 2]
metrics.confusion_matrix(y_true, y_pred)

array([[1, 0, 1, 1],
       [0, 0, 1, 0],
       [1, 0, 1, 0],
       [0, 0, 0, 0]], dtype=int64)

import itertools
import numpy as np
import matplotlib.pyplot as plt
from sklearn import svm, datasets
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix

def plot_confusion_matrix(cm, classes,
                          normalize=False,
                          title='Confusion matrix',
                          cmap=plt.cm.Blues):
    """
    This function prints and plots the confusion matrix.
    Normalization can be applied by setting `normalize=True`.
    """
    if normalize:
        cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
        print("Normalized confusion matrix")
    else:
        print('Confusion matrix, without normalization')

    print(cm)

    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=45)
    plt.yticks(tick_marks, classes)

    fmt = '.2f' if normalize else 'd'
    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, format(cm[i, j], fmt),
                 horizontalalignment="center",
                 color="white" if cm[i, j] > thresh else "black")

    plt.ylabel('True label')
    plt.xlabel('Predicted label')
    plt.tight_layout()

y_test = [1, 1, 1, 0]
y_pred = [1, 1, 0, 0]
# Compute confusion matrix
# #注意混淆矩陣要求預測結果在第一個位置
cnf_matrix = confusion_matrix(y_test, y_pred)
## 限制兩位小數
np.set_printoptions(precision=2)

# Plot non-normalized confusion matrix
plt.figure()
plot_confusion_matrix(cnf_matrix, classes=[0, 1], title='Confusion matrix, without normalization')
plt.show()

Confusion matrix, without normalization
[[1 0]
 [1 2]]

# Plot normalized confusion matrix
plt.figure()
plot_confusion_matrix(
    cnf_matrix,
    classes=[0, 1],
    normalize=True,
    title='Normalized confusion matrix')

plt.show()

Normalized confusion matrix
[[ 1.    0.  ]
 [ 0.33  0.67]]



<matplotlib.figure.Figure at 0xc2022b0>

3. Recall&Precision

3.1 引數說明

引數	y_true 真實的label，一維陣列格式，列名 2.y_pred 模型預測的label，一維陣列，行名 3.labels 預設不指定，此時y_true、y_pred取並集，升序，做label 4.sample_weight 樣本權重 5.target_names 行標籤，順序和label的要一致 6.digits int，小數的位數 7. output_dict 輸出格式，預設False，如果True，返回字典
返回結果	report:返回計算結果，形式依賴於output_dict

3.2 應用

要注意y_true和y_pred的位置順序。

y_true = [0, 1, 2, 2, 2]
y_pred = [0, 0, 2, 2, 1]
target_names = ['class 0', 'class 1', 'class 2']
print(metrics.classification_report(y_true, y_pred))

             precision    recall  f1-score   support

          0       0.50      1.00      0.67         1
          1       0.00      0.00      0.00         1
          2       1.00      0.67      0.80         3

avg / total       0.70      0.60      0.61         5

print(metrics.classification_report(y_true, y_pred, target_names=target_names))

             precision    recall  f1-score   support

    class 0       0.50      1.00      0.67         1
    class 1       0.00      0.00      0.00         1
    class 2       1.00      0.67      0.80         3

avg / total       0.70      0.60      0.61         5

4.Roc&Auc

計算AUC，畫ROC曲線的貌似沒有直接的函式。

4.1 引數

引數	y_true 真實的label，一維陣列格式，列名 2.y_pred 模型預測的label，一維陣列，行名 3.average 有多個引數可選，一般預設即可 4.sample_weight 樣本權重 5.max_fpr 取值範圍[0，1),如果不是None，則會標準化，使得最大值=max_fpr
返回結果	report:返回計算結果，形式依賴於output_dict

y_true = np.array([0, 0, 1, 1])
y_scores = np.array([0.1, 0.4, 0.35, 0.8])
metrics.roc_auc_score(y_true, y_scores)

0.75

2018-07-16 於南京市建鄴區新城科技園

二分類模型評價指標-Sklearn

Sklearn的metrics模組下有多個計算模型評價指標的函式，本文只介紹二分類的指標函式。 1.準確率 1.1引數說明 sklearn.metrics.accuracy_score(y_true, y_pred, normalize=T

二分類模型評價指標-AUC

AUC的含義和計算***** AUC針對二分類模型效果進行評價，二分類模型有時可能得到的是一個概率值，這個概率值表明為（0或1類）的可能性（不同於決策樹分類，我們會直接得到一個確切分類），我們劃定一個具體概率值p，大於則為正，小於則為負，然後使用acc或其他指標評價，其實這樣做有很大漏洞

理解分類模型評價指標AUC

ROC(Receiver Operating Characteristic) 受試者工作特性曲線縱軸TPR(真正例率)和橫軸FPR(假正例率)分別為對於二分類問題，預測模型會對每一個樣本預測一個概率p。然後，可以選取一個閾

二分類模型評估指標的計算方法與程式碼實現

一、定義在研究評估指標之前，先給出分類結果混淆矩陣（confusion matrix）。預測真實正例反例正例 TP FN 反例 FP TN 1.準確率--accuracy 定義：對於給定的測試資料集，分類器正確分類的樣本數與總樣

【機器學習】機器學習分類器模型評價指標機器學習分類器模型評價指標

機器學習分類器模型評價指標分類器評價指標主要有： 1，Accuracy 2，Precision 3，Recall 4，F1 score 5，ROC 曲線

二分類模型AUC評價法

對於二分類模型，其實既可以構建分類器，也可以構建迴歸（比如同一個二分類問題既可以用SVC又可以SVR，python的sklearn中SVC和SVR是分開的，R的e1701中都在svm中，僅當y變數是factor型別時構建SVC，否則構建SVR）。二分類模型的評價指標很多，這裡僅敘述AUC這個指

二分類模型效能評價（R語言，logistic迴歸，ROC曲線，lift曲線，lorenz曲線）

解決分類問題有多種思路，包括應用支援向量機、決策樹等演算法。還有一種較常規的做法是採用廣義線性迴歸中的logistic迴歸或probit迴歸。廣義線性迴歸是探索“響應變數的期望”與“自變數”的關係，以實現對非線性關係的某種擬合。這裡面涉及到一個“連線函式”和一個“誤差函式”，“響應變數的期望”經過連線函式作

顯著性目標檢測模型評價指標（二）——PR曲線

顯著性目標檢測模型評價指標之 PR曲線原理與實現程式碼目錄一、PR曲線原理在顯著目標提取中（關於視覺顯著性的簡要介紹點此處連結），PR曲線是用來評估模型效能的重要指標之一，PR曲線中的P(Precision)和R(Recall)分

二分類相關評估指標（召回率、準確率，精確率，F度量，AUC和ROC）

基礎定義通常在機器學習的二分類領域中，對模型的結果評估是必不可少的，本文主要總結了各個評估指標，對每個指標的定義，作用進行闡述。廢話到此，直接上乾貨。 TP：True Positive FP：False Positive TN：Tr

機器學習（十四）輕鬆理解模型評價指標

篇首語相信大家都知道下面的圖片是啥意思，每個無論在啥公司、無論哪個行業都有自己的KPI評價指標，公司會根據公司情況設定公司戰略KPI、部門KPI、以及每個人的指標，對於員工也是比較關心自己的KPI因為關係著你

機器學習演算法-模型評價指標

二分類模型指標混淆矩陣 TP（實際為正預測為正），FP（實際為負但預測為正），TN（實際為負預測為負），FN（實際為正但預測為負）準確率 Accuracy=TP+TNTP+FP+TN+FNAccuracy=TP+TNTP+FP+

9.機器學習模型評價指標

　　1）正確率（accuracy）　　正確率是我們最常見的評價指標，accuracy = （TP+TN）/(P+N)，這個很容易理解，就是被分對的樣本數除以所有的樣本數，通常來說，正確率越高，分類器越好；　　2）錯誤率（error rate) 　　錯誤率則與正確

機器學習模型評價指標

　　1）正確率（accuracy）　　正確率是我們最常見的評價指標，accuracy = （TP+TN）/(P+N)，這個很容易理解，就是被分對的樣本數除以所有的樣本數，通常來說，正確率越高，分

快速理解分類模型評估指標

一、從混淆矩陣說起我們以二分類模型來舉例，假設我們要預測使用者在借款之後是否會逾期。對於我們的預測來說，有逾期/不逾期兩種結果。對於真實情況，同樣有逾期/不逾期兩種結果。我們以逾期為正例，以不逾期為反例，將預測結果與真實結果進行列聯交叉，就生成了混淆矩陣

R語言︱機器學習模型評價指標+（轉）模型出錯的四大原因及如何糾錯

筆者寄語：機器學習中交叉驗證的方式是主要的模型評價方法，交叉驗證中用到了哪些指標呢？交叉驗證將資料分為訓練資料集、測試資料集，然後通過訓練資料集進行訓練，通過測試資料集進行測試，驗證集進行驗證。模型預測

機器學習模型評價指標及R實現

1.ROC曲線考慮一個二分問題，即將例項分成正類（positive）或負類（negative）。對一個二分問題來說，會出現四種情況。如果一個例項是正類並且也被預測成正類，即為真正類（True positive）,如果例項是負類被預測成正類，稱之為假正類（F

分類器評價指標--ROC曲線及AUC值

ROC和AUC介紹以及如何計算AUC ROC（Receiver Operating Characteristic）曲線和AUC常被用來評價一個二值分類器（binary classifier）的優劣，對兩者的簡單介紹見這裡。這篇博文簡單介紹ROC和AUC的特點，以及更為深

二分類模型評估之 ROC曲線和PR曲線

1、二分模型考慮一個二分問題，即將例項分成正類（Positive）或負類（Negative）。對一個二分問題來說，會出現四種情況: TP: 如果一個例項是正類並且也被預測成正類，即為真正類（True Positive); FP: 如果一個例項是負類而被

顯著性目標檢測模型評價指標（一）——平均絕對誤差：Mean Absolute Error(MAE)

顯著性目標檢測模型評價指標之平均絕對誤差(MAE)原理與實現程式碼目錄一、顯著性目標檢測簡介顯著性目標(Salient Object)：當我們在看一張圖片時，注意力首先會落在我們所感興趣的物體部分。比如我們看到一張畫有羊

基於隨機森林的化合物活性二分類模型

#匯入依賴包 import pandas as pd import numpy as np from rdkit import Chem, DataStructs from rdkit.Chem

二分類模型評價指標-Sklearn

1.準確率

1.1引數說明

1.2 應用

2.混淆矩陣

2.1 引數說明

2.2 應用

3. Recall&Precision

3.1 引數說明

3.2 應用

4.Roc&Auc

4.1 引數

相關推薦