機器學習svm--正確率和召回率以及基於不平衡資料的分類調參

阿新 • • 發佈：2019-02-15

code：

import numpy as np
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score, recall_score, f1_score, fbeta_score
from sklearn.metrics import precision_recall_fscore_support, classification_report
from sklearn import svm
import matplotlib as mpl
import matplotlib.pyplot as plt
import warnings

def R_P():
	y_true = np.array([1, 1, 1, 1, 0, 0])
	y_hat = np.array([1, 0, 1, 1, 1, 1])

	print('Accuracy:\t', accuracy_score(y_true, y_hat))

	precision = precision_score(y_true, y_hat)
	print('Precision:\t', precision)

	recall = recall_score(y_true, y_hat)
	print('Recall:\t', recall)

	print('f1 score:\t', f1_score(y_true, y_hat))
	# print(2*(precision*recall)/(precision + recall))

	print('F-beta:\n')
	for beta in np.logspace(-3, 3, num=7, base=10):
		fbeta = fbeta_score(y_true, y_hat, beta=beta)
		print('\tbeta=%9.3f\tF-beta=%.3f' % (beta, fbeta))

	print(precision_recall_fscore_support(y_true, y_hat))
	print(classification_report(y_true, y_hat))

def show_accuracy(a, b):
	# 計算預測值和真實值一樣的正確率
	acc = a.ravel() == b.ravel()
	print('precision:%.2f%%' % ((100*float(acc.sum()))/a.size))

def show_recall(y, y_hat):
	# 提取出那個小樣本集中的預測和真實一樣的正確率
	print('Recall"%.2f%%' % (100*float(np.sum(y_hat[y == 1] == 1)) / np.extract(y == 1, y).size))


if __name__ == '__main__':
	# 忽視警告
	warnings.filterwarnings('ignore')
	# 保證每次生成的資料一樣
	np.random.seed(0)

	R_P()

	c1 = 990
	c2 = 10
	N = c1 + c2
	x_c1 = 3*np.random.randn(c1, 2)
	x_c2 = 0.5*np.random.randn(c2, 2) + (4, 4)
	x = np.vstack((x_c1, x_c2))
	y = np.ones(N)
	y[:c1] = -1
	# 顯示出大小
	s = np.ones(N) * 30
	s[:c1] = 10
	# 分類器
	clfs = [
		svm.SVC(C=1, kernel='linear'),
		svm.SVC(C=1, kernel='linear', class_weight={-1:1, 1:50}),
		svm.SVC(C=0.8, kernel='rbf', gamma=0.5, class_weight={-1:1, 1:2}),
		svm.SVC(C=0.8, kernel='rbf', gamma=0.5, class_weight={-1:1, 1:10}),
	]
	titles = 'Linear', 'Linear Weights=50', 'RBF, Weight=2', 'RBF Weights=10'

	x1_min, x1_max = x[:, 0].min(), x[:, 0].max()
	x2_min, x2_max = x[:, 1].min(), x[:, 1].max()
	# 生成網格取樣點
	x1, x2 = np.mgrid[x1_min:x1_max:200j, x2_min:x2_max:200j]
	# 測試點
	grid_test = np.stack((x1.flat, x2.flat), axis=1)
	cm_light = mpl.colors.ListedColormap(['#A0FFA0', '#FFA0A0'])
	cm_dark = mpl.colors.ListedColormap(['g', 'b'])

	plt.figure(figsize=(10, 10), facecolor='w')
	for i, clf in enumerate(clfs):
		clf.fit(x, y)
		y_hat = clf.predict(x)
		print('===========coding myself function=============')
		show_accuracy(y, y_hat)
		show_recall(y, y_hat)
		print('===========sklearn package function============')
		print('Acc:\t', accuracy_score(y, y_hat))
		print('prediction:\t', precision_score(y, y_hat, pos_label=1))
		print('recall:\t', recall_score(y, y_hat, pos_label=1))
		print('F1-score:\t', f1_score(y, y_hat, pos_label=1))

		# 開始畫圖
		plt.subplot(2, 2, i+1)
		grid_hat = clf.predict(grid_test)
		grid_hat.shape = x1.shape
		plt.pcolormesh(x1, x2, grid_hat, cmap=cm_light, alpha=0.8)
		plt.scatter(x[:, 0], x[:, 1], c=y, edgecolor='k', s=s, cmap=cm_dark)
		plt.xlim(x1_min, x1_max)
		plt.ylim(x2_min, x2_max)
		plt.title(titles[i])
		plt.grid()
	plt.suptitle('Unbalance Data Handling', fontsize=18)
	plt.tight_layout(2.0)
	plt.subplots_adjust(top=0.92)
	plt.show()

機器學習svm--正確率和召回率以及基於不平衡資料的分類調參

code：import numpy as np from sklearn.metrics import accuracy_score from sklearn.metrics import precision_score, recall_score, f1_score, fb

斯坦福大學機器學習筆記——特徵和多項式迴歸以及正規方程

我們可以舉一個例子來引入多項式迴歸：比如我們之前遇到的房價問題，對於房價的影響我們假設有兩個特徵，一個是房子的寬度x1，另外一個是房子的長度x2，這針對房價的估測我們可以建立下面形式的假設： hθ

機器學習如何應對一個數據分佈及不平衡的二分類問題正負樣本比例100000:1

解決方式兩種：1.過取樣 over-sampling 2.欠取樣過取樣：增加樣本中少數類樣本的數量經典的方法 1. 複製少數樣本 2.在少數樣本中加入隨機噪聲，干擾資料

【機器學習】正確率（Precision）和召回率（Recall）

在二分類問題中，如果將一個正例判別為正例，那這就是一個真正例（True Positive， TP）；如果將一個反例判別為反例，那麼這就是一個真反例（True Negative，TN）；如果將

斯坦福大學公開課機器學習：machine learning system design | trading off precision and recall（F score公式的提出：學習算法中如何平衡（取舍）查準率和召回率的數值）

ron 需要 color 不可關系 machine 同時機器學習 pos 一般來說，召回率和查準率的關系如下：1、如果需要很高的置信度的話，查準率會很高，相應的召回率很低；2、如果需要避免假陰性的話，召回率會很高，查準率會很低。下圖右邊顯示的是召回率和查準率在一個學習算

衡量機器學習模型的三大指標：準確率、精度和召回率。

美國 ext 另一個 IE blank 進行 style 監測最好連接來源：http://mp.weixin.qq.com/s/rXX0Edo8jU3kjUUfJhnyGw 　　傾向於使用準確率，是因為熟悉它的定義，而不是因為它是評估模型的最佳工具！精度（查準率）和

【深度學習-機器學習】分類度量指標 : 正確率、召回率、靈敏度、特異度，ROC曲線、AUC等

在分類任務中，人們總是喜歡基於錯誤率來衡量分類器任務的成功程度。錯誤率指的是在所有測試樣例中錯分的樣例比例。實際上，這樣的度量錯誤掩蓋了樣例如何被分錯的事實。在機器學習中，有一個普遍適用的稱為混淆矩陣(confusion matrix)的工具，它可以幫助人們更好地瞭解

【機器學習】分類效能度量指標 : ROC曲線、AUC值、正確率、召回率、敏感度、特異度

在分類任務中，人們總是喜歡基於錯誤率來衡量分類器任務的成功程度。錯誤率指的是在所有測試樣例中錯分的樣例比例。實際上，這樣的度量錯誤掩蓋了樣例如何被分錯的事實。在機器學習中，有一個普遍適用的稱為混淆矩陣(confusion matrix)的工具，它可以幫助人們

機器學習之分類問題的評估指標2---準確率、精確率、召回率以及F1值

本節主要了解一下sklearn.metrics下計算準確率、精確率、召回率和F1值的函式以及對於多分類問題計算時的理解 1、sklearn.metrics.accuracy_score(y_true, y_pred, normalize=True, sample_weigh

機器學習基礎（五十三）—— 精確率與召回率（多分類問題精確率和召回率的計算）

精確率（precision），召回率（recall）由混淆矩陣（confusion matrix）計算得來。在資訊檢索中，精確率通常用於評價結果的質量，而召回率用來評價結果的完整性。實際上，精確度（precision）是二元分類問題中一個常用的指

斯坦福大學公開課機器學習： advice for applying machine learning | regularization and bais/variance（機器學習中方差和偏差如何相互影響、以及和算法的正則化之間的相互關系）

交叉來講相對同時 test 如果開始遞增相互算法正則化可以有效地防止過擬合, 但正則化跟算法的偏差和方差又有什麽關系呢？下面主要討論一下方差和偏差兩者之間是如何相互影響的、以及和算法的正則化之間的相互關系假如我們要對高階的多項式進行擬合，為了防止過擬合現象

機器學習模型準確率，精確率，召回率，F-1指標及ROC曲線

01準確率，精確率，召回率，F-1指標及ROC曲線假設原樣本有兩類，正樣本True和負樣本False 正樣本 -------------------------------True 負樣本 --------------------------------False 真正樣本 True P

準確率和召回率，以及評價標準F1 score

一.準確率和召回率 T為相應的情況的個數實際為真實際為假預測為真T1T3預測為假T2T4 準確率(accuracy)的計算公式是：A=(T1+T4)/(T1+T2+T3+T4) 查準率(precision)的計算公式是： P=(T1)/(T1+T3)

機器學習-KMeans聚類 K值以及初始類簇中心點的選取

src 常用趨勢試圖重復執行很大的一個點 3.4 選擇【轉】http://www.cnblogs.com/kemaswill/archive/2013/01/26/2877434.html 本文主要基於Anand Rajaraman和Jeffrey David

準確率accuracy、精確率precision和召回率recall

cal rac ive precision bsp trie true ron 所有準確率：在所有樣本中，準確分類的數目所占的比例。（分對的正和分對的負占總樣本的比例）精確率：分類為正確的樣本數，占所有被分類為正確的樣本數的比例。（分為正的中，分對的有多少）召回率：分

Spark機器學習中ml和mllib中矩陣、向量

int reg index mac matrix 對比判斷 bsp ive 1：Spark ML與Spark MLLIB區別？ Spark MLlib是面向RDD數據抽象的編程工具類庫，現在已經逐漸不再被Spark團隊支持，逐漸轉向Spark ML庫，Spark ML是面

分類--精確率和召回率

定義 post 做出 dev devel 模型 class evel AR 精確率精確率指標嘗試回答以下問題：在被識別為正類別的樣本中，確實為正類別的比例是多少？精確率的定義如下： $$\text{Precision} = \frac{TP}{TP+FP}$$

精確率和召回率

str 檢索其中 tro 多少自己 AS ping rac 我自己通俗的解釋：查全率＝召回率＝集合裏面一共有多少個A，我們正確識別出多少個A，兩個比一下查準率＝精確率＝在識別出的結果A集合裏面，有多少是真正的A，兩個比一下 p.p1 { margin: 0.

[機器學習]svm支援向量機介紹

1 什麼是支援向量機支援向量機是一種分類器，之所以稱為機是因為它會產生一個二值決策結果，即它是一個決策機。 Support Vector Machine, 一個普通的SVM就是一條直線罷了，用來完美劃分linearly separable的兩類。但這又不是一條

機器學習之numpy和matplotlib學習（十五）

今天來學習矩陣的建立和一些基本運算 #!/usr/bin/env python # -*- coding: utf-8 -*- # @Author : SundayCoder-俊勇 # @File : numpy7.py import numpy as np # numpy基

機器學習svm--正確率和召回率以及基於不平衡資料的分類調參

相關推薦