機器學習分類演算法常用評價指標

阿新 • • 發佈：2018-12-15

# -*- coding: utf-8 -*-

import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics
import matplotlib.pyplot as plt

"""
函式說明：檔案處理
Parameters:
     filename:資料檔案
Returns:
     list_datasets：資料集特徵列表
     category_labels:資料標籤列表
"""
def data_handle(filename):
    read_data = pd.read_csv(filename)
    list_datasets = []
    category_labels = []
    for i in range(len(read_data)):
        list_data = []
        for j in range(len(read_data.iloc[i, :]) - 1):
            row_data = read_data.iloc[i, j]  # 讀取每個樣本的每個資料
            list_data.append(row_data)  #將每個資料存入列表
        list_datasets.append(list_data)  #將每個樣本的資料存入列表

        row_data_label = read_data.iloc[i, len(read_data.iloc[i, :]) - 1]  # 讀取每個樣本的類別標籤
        if row_data_label == 'N':
            category_labels.append(0)  # 將二分類標籤轉化為0和1,0代表軟體正常，1代表軟體缺陷
        else:
            category_labels.append(1)
    return list_datasets, category_labels

"""
函式說明：繪製ROC曲線
Parameters:
     labels:測試標籤列表
     predict_prob:預測標籤列表
"""
def plot_roc(labels, predict_prob):
    false_positive_rate, true_positive_rate, thresholds = metrics.roc_curve(labels, predict_prob)
    roc_auc = metrics.auc(false_positive_rate, true_positive_rate)  #計算AUC值
    print('AUC=' + str(roc_auc))
    plt.title('PC5-ROC')
    plt.plot(false_positive_rate, true_positive_rate, 'b', label='AUC = %0.4f' % roc_auc)
    plt.legend(loc='lower right')
    plt.plot([0, 1], [0, 1], 'r--')
    plt.ylabel('TPR')
    plt.xlabel('FPR')
    # plt.savefig('figures/PC5.png') #將ROC圖片進行儲存
    plt.show()

if __name__ == '__main__':
    datasets, labels = data_handle('MDP/KC4.csv')  # 對資料集進行處理
    # 訓練集和測試集劃分
    X_train = datasets[:115]
    y_train = labels[:115]
    X_test = datasets[90:]
    y_test = labels[90:]
    # 隨機森林分類器
    clf = RandomForestClassifier()
    clf = RandomForestClassifier(n_estimators=200, random_state=0)
    clf.fit(X_train, y_train)  # 使用訓練集對分類器訓練
    y_predict = clf.predict(X_test)  # 使用分類器對測試集進行預測

    print('準確率:', metrics.accuracy_score(y_test, y_predict)) #預測準確率輸出
    print('巨集平均精確率:',metrics.precision_score(y_test,y_predict,average='macro')) #預測巨集平均精確率輸出
    print('微平均精確率:', metrics.precision_score(y_test, y_predict, average='micro')) #預測微平均精確率輸出
    print('巨集平均召回率:',metrics.recall_score(y_test,y_predict,average='macro'))#預測巨集平均召回率輸出
    print('平均F1-score:',metrics.f1_score(y_test,y_predict,average='weighted'))#預測平均f1-score輸出
    print('混淆矩陣輸出:',metrics.confusion_matrix(y_test,y_predict))#混淆矩陣輸出

    print('分類報告:', metrics.classification_report(y_test, y_predict))#分類報告輸出
    plot_roc(y_test, y_predict)  #繪製ROC曲線並求出AUC值

機器學習分類演算法常用評價指標

# -*- coding: utf-8 -*- import pandas as pd from sklearn.ensemble import RandomForestClassifier from sklearn import metrics import matplotlib.pyplot as p

【機器學習】一文讀懂分類演算法常用評價指標

評價指標是針對將相同的資料，輸入不同的演算法模型，或者輸入不同引數的同一種演算法模型，而給出這個演算法或者引數好壞的定量指標。在模型評估過程中，往往需要使用多種不同的指標進行評估，在諸多的評價指標中，大部分指標只能片面的反應模型的一部分效能，如果不能合理的運用評估指標，不僅不能發現模型本身的問題，而且會得出

【機器學習】機器學習分類器模型評價指標機器學習分類器模型評價指標

機器學習分類器模型評價指標分類器評價指標主要有： 1，Accuracy 2，Precision 3，Recall 4，F1 score 5，ROC 曲線

Bobo老師機器學習筆記第九課-分類演算法的評價指標

1、以前學習分類演算法時候，一直用分類準確度進行演算法的好壞，準確度一定準確嗎？對於極度偏斜（Skewed data）的資料，只使用分類準確度是不夠的。比如一種癌症的發病率是0.01%，那麼我們系統即使在不分類的情況下，預測健康的情況準確率就可以達到99.99%。這個明顯是不符合實際情況的。

機器學習面試--算法評價指標

匹配預測 src 數據挖掘學習關系目標 mina abs 機器學習分為三個階段：第一階段：學習模型。采用學習算法，通過對訓練集進行歸納學習得到分類模型；第二階段：測試模型。將已經學習得到的分類模型用於測試集，對測試集中未知類別的實例進行分類。第三階

機器學習分類演算法之K近鄰（K-Nearest Neighbor）

一、概念 KNN主要用來解決分類問題，是監督分類演算法，它通過判斷最近K個點的類別來決定自身類別，所以K值對結果影響很大，雖然它實現比較簡單，但在目標資料集比例分配不平衡時，會造成結果的不準確。而且KNN對資源開銷較大。二、計算通過K近鄰進行計算，需要： 1、載入打標好的資料集，然

python實現機器學習分類演算法原始碼————上篇

python實現機器學習分類演算法原始碼文章

機器學習分類演算法---決策樹

決策樹：樹結構，可以是二叉樹或非二叉樹，資料結構中的概念，只不過加上了判斷條件。資訊熵： 1948年，夏農提出了“資訊熵”的概念。一條資訊的資訊量大小和它的不確定性有直接的關係，即對一件事，你不知道的越多，這件事對於你來說資訊熵越大，因為你需要學的東西更多。 &nb

機器學習分類演算法之樸素貝葉斯

一、概念樸素貝葉斯模型（Naive Bayesian Model，NBM）是以條件概率為基礎的分類器，是一種監督演算法，常被用於文字分類和垃圾郵件過濾。貝葉斯理論解決的是逆向概率問題，即通過已經發生的已知的概率來推測未發生的事將會發生的概率。二、計算樸素貝葉斯各個事件發

機器學習中的單一評價指標

前言在使用機器學習，通常都會面對一種情況，面對眾多的模型和眾多的效能指標，究竟應該如何來選擇模型。本篇文章主要就是介紹，如何利用單一評估指標來選擇模型，主要內容來自於deeplearnai視訊教程。單一評估指標應用機器學習主要可以分為三個過程想法、編碼、看效果。當最開始面對一個需要解決的問題時候

機器學習|線性迴歸三大評價指標實現『MAE, MSE, MAPE』（Python語言描述）

對於迴歸預測結果，通常會有平均絕對誤差、平均絕對百分比誤差、均方誤差等多個指標進行評價。這裡，我們先介紹最常用的3個：平均絕對誤差（MAE）就是絕對誤差的平均值，它的計算公式如下： M

【轉】機器學習--- 分類演算法詳解

原文連結：http://blog.csdn.net/china1000/article/details/48597469 感覺狼廠有些把機器學習和資料探勘神話了，機器學習、資料探勘的能力其實是有邊界的。機器學習、資料探勘永遠是給大公司的業務錦上添花的

機器學習分類演算法(一)——餘弦相似度

概述:餘弦相似度是通過測量兩個向量點積空間夾角的餘弦值來判斷相似性。0°角的餘弦值是1，90°為0，餘弦值大小在[-1,1]區間。數學原理: 向量:空間中有兩個點原點O和點A，OA(O指向A)就是一個向量，向量是有長度有方向的。點積(內積):

python機器學習--分類演算法

#感知器邏輯：一個二值分類問題，分別記為1(正類別)和-1（負類別）.定義激勵函式z=wx (w為權值，x為輸入值)，當Z大於閾值時為1類，否則為-1類 #用Python實現感知器學習演算法。步驟：1、將權重初始化為0或一個極小的隨機數 2、迭代所有訓練樣本，計算出輸出值Y,更新權重。 im

機器學習-分類演算法之樸素貝葉斯

條件概率公式:P(A|B) = P(AB)/P(B) 貝葉斯定理:P(A|B) = P(B|A)P(A)/P(B) 樸素貝葉斯演算法思想:給定一個待分類的資料 X={a1,a2,……,aN},即N個特徵項，目標分類集合Y={y1,y2,……,yK}，即有K個分類通過計算P

機器學習演算法的評價指標

機器學習演算法的評價指標關於作者前言二分類問題中常用的概念精確率（precision）召回率（recall） F1值 ROC、AUC sklearn實現roc、auc

機器學習演算法-模型評價指標

二分類模型指標混淆矩陣 TP（實際為正預測為正），FP（實際為負但預測為正），TN（實際為負預測為負），FN（實際為正但預測為負）準確率 Accuracy=TP+TNTP+FP+TN+FNAccuracy=TP+TNTP+FP+

一份非常全面的機器學習分類與迴歸演算法的評估指標彙總

本文是《機器學習寶典》第 3 篇，讀完本文你能夠掌握分類與迴歸演算法的評估指標。 PS：文末附有練習題讀完機器學習演算法常識之後，你已經知道了什麼是欠擬合和過擬合、偏差和方差以及貝葉斯誤差。在這篇給大家介紹一些機器學習中離線評估模型效能的一些指標。當我們訓練得到

機器學習基礎-8.分類演算法的評價

一、分類演算法評價指標1.分類準確度的問題分類演算法如果用分類準確度來衡量好壞將會存在問題。例如一個癌症預測系統，輸入體檢資訊，可以判斷是否有癌症，預測準確度可以達到99.9%，看起來預測系統還可以，但是如果癌症的產生概率只有0.1%，那麼系統只要預測所有人都是健康的就可以達

圖解機器學習十大常用演算法

通過本篇文章可以對ML的常用演算法有個常識性的認識，沒有程式碼，沒有複雜的理論推導，就是圖解一下，知道這些演算法是什麼，它們是怎麼應用的，例子主要是分類問題。每個演算法都看了好幾個視訊，挑出講的最清晰明瞭有趣的，便於科普。以後有時間再對單個演算法做深入地解析。今天的演算法如下：

機器學習分類演算法常用評價指標

相關推薦