sklearn庫學習之核支援向量機

阿新 • • 發佈：2018-12-16

核支援向量機

核SVM的重要引數是正則化引數C、核的選擇以及與核相關的引數。

在低維資料和高維資料上表現都很好。
但對樣本個數的縮放表現不好。
預處理資料和調參都需要非常小心。

線性模型在低維空間中可能非常受限，因為線和平面的靈活性有限，新增更多的特徵讓線性模型更加靈活。

import mglearn
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt
import numpy as np

X,y = make_blobs(centers = 4, random_state = 8)
y = y%2 #將四個聚類分成兩個類別
mglearn.discrete_scatter(X[:,0],X[:,1],y)
plt.xlabel("Feature 0")
plt.ylabel("Feature 1")

#用於分類的線性模型只能用一條直線劃分資料
from sklearn.svm import LinearSVC
linear_svm = LinearSVC().fit(X,y)

mglearn.plots.plot_2d_separator(linear_svm,X) #邊界視覺化

#新增第二個特徵的平方，作為一個新的特徵，將每個資料點表示為三維點
X_new = np.hstack([X,X[:,1:]**2])
#print(X_new)
from mpl_toolkits.mplot3d import Axes3D,axes3d
figure = plt.figure()
#3D視覺化
ax = Axes3D(figure, elev = -152, azim = -26)
#首先畫出所有y == 0的點，然後畫出所有y == 1的點
mask = y == 0

#mask為true時，這一行就有
ax.scatter(X_new[mask,0],X_new[mask,1],X_new[mask,2], c = 'b', cmap = mglearn.cm2, s = 60)
ax.scatter(X_new[~mask,0],X_new[~mask,1],X_new[~mask,2], c = 'r', marker = '^', cmap = mglearn.cm2, s = 60)

ax.set_xlabel = ("feature0")
ax.set_ylabel = ("feature1")
ax.set_zlabel = ("feature1 ** 2")

#現在可以用線性模型將這兩個類別分開
linear_svm_3d = LinearSVC().fit(X_new, y)
coef, intercept = linear_svm_3d.coef_.ravel(), linear_svm_3d.intercept_

#顯示線性決策邊界
'''
print(X_new[:,0].min() - 2)
print(X_new[:,0].max() + 2)
'''

xx = np.linspace(X_new[:,0].min() - 2, X_new[:,0].max() + 2, 50)
yy = np.linspace(X_new[:,1].min() - 2, X_new[:,1].max() + 2, 50)

XX,YY = np.meshgrid(xx,yy)

ZZ = (coef[0] * XX + coef[1] * YY + intercept) / -coef[2]
ax.plot_surface(XX,YY,ZZ, rstride = 8, cstride = 8, alpha = 0.3)

#此時，如果將線性SVM看作原始特徵的函式，它實際上已經不是線性的了
fig = plt.figure()
ax = fig.add_subplot(111)
ZZ = YY ** 2
dec = linear_svm_3d.decision_function(np.c_[XX.ravel(),YY.ravel(),ZZ.ravel()])
plt.contourf(XX, YY, dec.reshape(XX.shape),levels = [dec.min(),0,dec.max()],cmap = mglearn.cm2, alpha = 0.5)
mglearn.discrete_scatter(X[:,0],X[:,1],y)

核技巧

核技巧可以在更高維的空間中學習分類器，而不用實際計算可能非常大的新的資料表示。原理是直接計算擴充套件特徵表示中資料點的距離(內積)，而不用實際對擴充套件進行計算。

支援向量機將資料對映到更高維空間中的兩種常用方法

多項式核，在一定階數內計算原始特徵所有可能的多項式。
徑向基函式核(高斯核),考慮所有階數的所有可能的多項式。但階數越高，特徵的重要性越小。

支援向量：位於類別邊界上的那些點。SVM學習每個訓練資料點對於表示兩個類別的之間的決策邊界的重要性。

對新樣本點預測，預測它與每個支援向量之間的距離。分類決策是基於它與支援向量之間的距離以及在訓練過程中學習到的支援向量重要性做出的。資料點之間的距離由核給出，可以是高斯核。

#在forge資料集上訓練SVM
from sklearn.svm import SVC
import mglearn
import matplotlib.pyplot as plt

X,y = mglearn.tools.make_handcrafted_dataset()
#核心是高斯核。C引數是正則化引數，限制每個點的重要性。gamma引數用於控制高斯核的寬度，決定了點與點之間的靠近是指多大的距離。
svm = SVC(kernel = 'rbf', C = 10, gamma = 0.1).fit(X,y) 

mglearn.plots.plot_2d_separator(svm, X, eps=.5) #決策邊界視覺化
mglearn.discrete_scatter(X[:,0],X[:,1],y) #畫點

sv = svm.support_vectors_ #賦值支援向量
#print(sv)
sv_labels = svm.dual_coef_.ravel() > 0 #支援向量的類別標籤由dual_coef_的正負號給出
#print(sv_labels)
mglearn.discrete_scatter(sv[:,0],sv[:,1],sv_labels, s = 15, markeredgewidth = 3) #markeredgewidth標記邊緣寬度,s標記大小

plt.xlabel("Feature 0")
plt.ylabel("Feature 1")


#gamma較小，說明高斯核的半徑較大，很多點被看作比較靠近，小的gamma值表示決策邊界變化很慢，生成複雜度較低的模型
#C值很小，說明模型非常受限，每個點的影響範圍都有限
fig, axes = plt.subplots(3,3,figsize = (15,10))
for ax, C in zip(axes, [-1,0,3]):
    for a, gamma in zip(ax, range(-1,2)):
        mglearn.plots.plot_svm(log_C = C, log_gamma = gamma, ax = a)
        
axes[0,0].legend(['class 0','class 1','sv class 0','sv class 1'],ncol = 4, loc = (.9,1.2))

#將RBF核SVM應用到乳腺癌資料集上，預設下C = 1, gamma = 1/n_features
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC

cancer = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target,random_state = 0)

svc = SVC()
svc.fit(X_train, y_train)

#SVM對引數的設定和資料的縮放非常敏感，它要求所有特徵有相似的變化範圍
print("Accuracy on training set:{:.3f}".format(svc.score(X_train,y_train)))
print("Accuracy on test set:{:.3f}".format(svc.score(X_test,y_test)))

#檢視每個特徵的最小值和最大值，並繪製在對數座標上
plt.plot(X_train.min(axis = 0),'o',label = 'min')
plt.plot(X_train.max(axis = 0),'^',label = 'max') #axis = 0即列
plt.legend(loc = 4)
plt.xlabel('Feature index')
plt.ylabel('Feature magnitude')
plt.yscale('log') #座標的刻度
#確定乳腺癌資料集的特徵具有完全不同的數量級

#對資料進行縮放，使其大致都位於同一範圍，如將所有特徵縮放到0和1之間
min_on_training = X_train.min(axis = 0)#計算訓練集中每個特徵的最小值
#計算訓練集中每個特徵的範圍 
range_on_training = (X_train - min_on_training).max(axis = 0)
#減去最小值除以範圍
X_train_scaled = (X_train - min_on_training) / range_on_training
print("Mininum for each feature\n{}".format(X_train_scaled.min(axis = 0)))
print("Maxinum for each feature\n{}".format(X_train_scaled.max(axis = 0)))


#訓練集和測試集的效能非常接近，但還沒接近百分之百，所以可能欠擬合，嘗試增大C或gamma

對程式碼中的疑惑

sklearn庫學習之核支援向量機

核支援向量機核SVM的重要引數是正則化引數C、核的選擇以及與核相關的引數。在低維資料和高維資料上表現都很好。但對樣本個數的縮放表現不好。預處理資料和調參都需要非常小心。線性模型在低維空間中可能非常受限，因為線和平面的靈活性有限，新增更多的特徵讓線性

機器學習之&&SVM支援向量機入門:Maximum Margin Classifier

概率論只不過是把常識用數學公式表達了出來。 ——拉普拉斯 0. 前言這是一篇SVM的入門筆記，來自我對PlusKid、JerryLead、July等大神文章的拜讀心得，說是心得還不如說是讀文筆記，希望在自己理解的層面上給予SVM這個偉大的機

機器學習之支持向量機（三）：核函數和KKT條件的理解

麻煩 ron 現在調整所有核函數多項式 err ges 註：關於支持向量機系列文章是借鑒大神的神作，加以自己的理解寫成的；若對原作者有損請告知，我會及時處理。轉載請標明來源。序：我在支持向量機系列中主要講支持向量機的公式推導，第一部分講到推出拉格朗日對偶函數的對

【機器學習實戰】支援向量機----分類庫和簡單訓練mnist

前面已經對mnist資料集進行了讀取，現在我們可以直接使用sklearn.svm模組中的演算法庫對mnist資料集進行訓練。【svm模組】演算法庫： sklearn.svm模組中提供了這些庫：大概分成這幾類(除了svm_l1_min_c

機器學習之支持向量機（一）：支持向量機的公式推導

根據監督式 art 通用利用哪些這就是在線方法註：關於支持向量機系列文章是借鑒大神的神作，加以自己的理解寫成的；若對原作者有損請告知，我會及時處理。轉載請標明來源。序：我在支持向量機系列中主要講支持向量機的公式推導，第一部分講到推出拉格朗日對偶函數的對偶因

sklearn庫學習之樸素貝葉斯分類器

樸素貝葉斯模型樸素貝葉斯模型的泛化能力比線性模型稍差，但它的訓練速度更快。它通過單獨檢視每個特徵來學習引數，並從每個特徵中收集簡單的類別統計資料。想要作出預測，需要將資料點與每個類別的統計資料進行比較，並將最匹配的類別作為預測結果。 GaussianNB應用於任意連續資料，

sklearn庫學習之線性模型

線性模型利用輸入特徵的線性函式進行預測，學習線性模型的演算法的區別： (1)係數和截距的特定組合對訓練資料擬合好壞的度量方法，不同的演算法使用不同的方法度量“對訓練集擬合好壞”–稱為損失函式 (2)是否使用正則化，使用哪種正則化方法線性模型的主要引數是正則化引數，如果假定只有幾個特徵是

sklearn庫學習之K-NN演算法

k近鄰分類與k近鄰迴歸 import matplotlib.pyplot as plt from sklearn.neighbors import KNeighborsRegressor from sklearn.neighbors import KNeighborsClassifier

sklearn庫學習之決策樹

決策樹學習決策樹，就是學習一系列if/else問題，在機器學習中，這些問題叫做測試，演算法搜尋所有可能的測試，找出對目標變數來說資訊量最大的哪一個。演算法過程生成一棵二元決策樹，其中每個結點都包含一個測試。將每個測試看成沿著一條軸對當前資料進行劃分，由於每個測試僅僅關注一個特徵，所以

機器學習之支持向量機（四）

應用問題計算過程非線性簡單常熟一段約束有關引言：　　SVM是一種常見的分類器，在很長一段時間起到了統治地位。而目前來講SVM依然是一種非常好用的分類器，在處理少量數據的時候有非常出色的表現。SVM是一個非常常見的分類器，在真正了解他的原理之前我們多多少少

機器學習實戰——SVM支援向量機實現記錄

問題：TypeError: data type not understood alphas = mat(zeros(m,1)) 原因是zeros(())格式不對，更改後： alphas = mat(zeros((m,1))) 問題：關於IDLE中換行，回車前面出現很多空格的情況

機器學習 --- 軟間隔支援向量機

一、軟間隔支援向量機直觀理解之前所介紹的支援向量機形式都是要求所有的樣本都要能被正確地劃分，這又被稱作"硬間隔支援向量機"，當資料是帶有噪聲的，就可能會產生一些脫離群體的點。在實際情況中，採用硬間隔的方式難以確定合適的核函式使得訓練樣本在特徵空間中線性可分，即使能確定某個核函式能進行很好的劃分

機器學習演算法——SVM(支援向量機)

文章目錄 1. SVM簡介 2. SVM的一些概念 2.1 函式間隔與幾何間隔 2.2 支援向量 3. SVM模型目標函式與優化 3.1 SVM模型目標函式的推導(線性可分)

Python Spark 之SVM支援向量機

資料準備和決策樹分類一樣，依然使用StumbleUpon Evergreen資料進行實驗。 Local模式啟動ipython notebook cd ~/pythonwork/ipynotebook PYSPARK_DRIVER_PYTHON=

【資料科學系統學習】機器學習演算法 # 西瓜書學習記錄 [7] 支援向量機（一）

這兩篇內容為西瓜書第 6 章支援向量機 6.1，6.2，6.4，6.3 的內容： 6.1 間隔與支援向量 6.2 對偶問題 6.4 軟間隔與正則化 6.3 核函式由於本章內容較多，分為兩篇來敘述。本篇所包含內容為間隔與支援向量和對偶問題。如移動端無法正常

【資料科學系統學習】機器學習演算法 # 西瓜書學習記錄 [8] 支援向量機（二）

這兩篇內容為西瓜書第 6 章支援向量機 6.1，6.2，6.4，6.3 的內容： 6.1 間隔與支援向量 6.2 對偶問題 6.4 軟間隔與正則化 6.3 核函式由於本章內容較多，分為兩篇來敘述。本篇所包含內容為軟間隔與正則化和核函式。關於間隔與支援向量和

《統計學習方法》“支援向量機”一章中說可以取函式間隔等於 1 是為什麼？

假設兩條平行直線分別是 (1)Wx+A=0, Wx+A=0,\tag{1} Wx+A=0,(1) 與 (2)Wx+B=0. Wx+B=0.\tag{2} Wx+B=0.(2) 那麼和這兩條直線平行，且位於中間的那條直線就可以表示成： (3)Wx+A+B−A2=0

sklearn庫學習之決策樹整合

決策樹整合整合是合併多個機器學習模型來構建更強大模型的方法。兩種整合模型：隨機森林和梯度決策樹。隨機森林構造很多樹(確定用於構造的樹的個數)，並且每棵樹的預測都很好，但都以不同的方式過擬合，那麼可以對這些樹的結果取平均值來降低過擬合。隨機森林中樹的隨機化

統計學習方法_支援向量機SVM實現

由於在MNIST上執行SVM耗時過久，所以這裡使用了偽造的資料集，並使用線性核和多項式核進行實驗。 #!/usr/bin/env python3and # -*- coding: utf-8 -*- import time import random import log

Stanford機器學習筆記-8. 支援向量機(SVMs)概述

8. Support Vector Machines(SVMs) Content 8. Support Vector Machines(SVMs) 　　　　　　8.1 Optimization Objection 　　　　　　8.2 Large margin intuition 　　　　　　8.

sklearn庫學習之核支援向量機

核支援向量機

核技巧

對程式碼中的疑惑

相關推薦