機器學習——支援向量機(SVM)

阿新 • • 發佈：2019-09-12

支援向量機原理

支援向量機要解決的問題其實就是尋求最優分類邊界。且最大化支援向量間距，用直線或者平面，分隔分隔超平面。

基於核函式的升維變換

通過名為核函式的特徵變換，增加新的特徵，使得低維度空間中的線性不可分問題變為高維度空間中的線性可分問題。

線性核函式：linear，不通過核函式進行維度提升，僅在原始維度空間中尋求線性分類邊界。

基於線性核函式的SVM分類相關API：

import sklearn.svm as svm
model = svm.SVC(kernel='linear')
model.fit(train_x, train_y)

案例：對multiple2.txt中的資料進行分類。

import numpy as np
import sklearn.model_selection as ms
import sklearn.svm as svm
import sklearn.metrics as sm
import matplotlib.pyplot as mp
x, y = [], []
data = np.loadtxt('../data/multiple2.txt', delimiter=',', dtype='f8')
x = data[:, :-1]
y = data[:, -1]
train_x, test_x, train_y, test_y = \
    ms.train_test_split(x, y, test_size=0.25, random_state=5)
# 基於線性核函式的支援向量機分類器
model = svm.SVC(kernel='linear')
model.fit(train_x, train_y)
n = 500
l, r = x[:, 0].min() - 1, x[:, 0].max() + 1
b, t = x[:, 1].min() - 1, x[:, 1].max() + 1
grid_x = np.meshgrid(np.linspace(l, r, n),
                     np.linspace(b, t, n))
flat_x = np.column_stack((grid_x[0].ravel(), grid_x[1].ravel()))    
flat_y = model.predict(flat_x)
grid_y = flat_y.reshape(grid_x[0].shape)
pred_test_y = model.predict(test_x)
cr = sm.classification_report(test_y, pred_test_y)
print(cr)
mp.figure('SVM Linear Classification', facecolor='lightgray')
mp.title('SVM Linear Classification', fontsize=20)
mp.xlabel('x', fontsize=14)
mp.ylabel('y', fontsize=14)
mp.tick_params(labelsize=10)
mp.pcolormesh(grid_x[0], grid_x[1], grid_y, cmap='gray')
mp.scatter(test_x[:, 0], test_x[:, 1], c=test_y, cmap='brg', s=80)
mp.show()

多項式核函式：poly，通過多項式函式增加原始樣本特徵的高次方冪

$$y = x_1+x_2 \\
y = x_1^2 + 2x_1x_2 + x_2^2 \\
y = x_1^3 + 3x_1^2x_2 + 3x_1x_2^2 + x_2^3$$

案例，基於多項式核函式訓練sample2.txt中的樣本資料。

# 基於線性核函式的支援向量機分類器
model = svm.SVC(kernel='poly', degree=3)
model.fit(train_x, train_y)

徑向基核函式：rbf，通過高斯分佈函式增加原始樣本特徵的分佈概率

案例，基於徑向基核函式訓練sample2.txt中的樣本資料。

# 基於徑向基核函式的支援向量機分類器
# C：正則強度
# gamma：正態分佈曲線的標準差
model = svm.SVC(kernel='rbf', C=600, gamma=0.01)
model.fit(train_x, train_y)

樣本類別均衡化

通過類別權重的均衡化，使所佔比例較小的樣本權重較高，而所佔比例較大的樣本權重較低，以此平均化不同類別樣本對分類模型的貢獻，提高模型效能。

樣本類別均衡化相關API：

model = svm.SVC(kernel='linear', class_weight='balanced')
model.fit(train_x, train_y)

案例：修改線性核函式的支援向量機案例，基於樣本類別均衡化讀取imbalance.txt訓練模型。

... ...
... ...
data = np.loadtxt('../data/imbalance.txt', delimiter=',', dtype='f8')
x = data[:, :-1]
y = data[:, -1]
train_x, test_x, train_y, test_y = \
    ms.train_test_split(x, y, test_size=0.25, random_state=5)
# 基於線性核函式的支援向量機分類器
model = svm.SVC(kernel='linear', class_weight='balanced')
model.fit(train_x, train_y)
... ...
... ...

置信概率

根據樣本與分類邊界的距離遠近，對其預測類別的可信程度進行量化，離邊界越近的樣本，置信概率越低，反之，離邊界越遠的樣本，置信概率高。

獲取每個樣本的置信概率相關API：

# 在獲取模型時，給出超引數probability=True
model = svm.SVC(kernel='rbf', C=600, gamma=0.01, probability=True)
預測結果 = model.predict(輸入樣本矩陣)
# 呼叫model.predict_proba(樣本矩陣)可以獲取每個樣本的置信概率矩陣
置信概率矩陣 = model.predict_proba(輸入樣本矩陣)

置信概率矩陣格式如下：

	類別1	類別2
樣本1	0.8	0.2
樣本2	0.9	0.1
樣本3	0.5	0.5

案例：修改基於徑向基核函式的SVM案例，新增測試樣本，輸出每個測試樣本的執行概率，並給出標註。

# 新增樣本
prob_x = np.array([[2, 1.5], [8, 9], [4.8, 5.2], [4, 4], [2.5, 7], [7.6, 2], [5.4, 5.9]])
pred_prob_y = model.predict(prob_x)
probs = model.predict_proba(prob_x)
print(probs)
# [[3.00000090e-14 1.00000000e+00]
#  [3.00000090e-14 1.00000000e+00]
#  [9.73038186e-01 2.69618143e-02]
#  [5.65786038e-01 4.34213962e-01]
#  [2.77725531e-03 9.97222745e-01]
#  [2.91704904e-11 1.00000000e+00]
#  [9.43796673e-01 5.62033274e-02]]

# 繪製分類邊界線
n = 500
l, r = x[:, 0].min() - 1, x[:, 0].max() + 1
b, t = x[:, 1].min() - 1, x[:, 1].max() + 1
grid_x = np.meshgrid(np.linspace(l, r, n), np.linspace(b, t, n))
flat_x = np.column_stack((grid_x[0].ravel(), grid_x[1].ravel()))
flat_y = model.predict(flat_x)
grid_y = flat_y.reshape(grid_x[0].shape)

mp.figure('Probability', facecolor='lightgray')
mp.title('Probability', fontsize=20)
mp.xlabel('x', fontsize=14)
mp.ylabel('y', fontsize=14)
mp.tick_params(labelsize=10)
mp.pcolormesh(grid_x[0], grid_x[1], grid_y, cmap='gray')
mp.scatter(test_x[:, 0], test_x[:, 1], c=test_y, cmap='brg', s=80)
mp.scatter(prob_x[:, 0], prob_x[:, 1], c=pred_prob_y, cmap='jet_r', s=80, marker='D')
# 繪製每個測試樣本，並給出標註
for i in range(len(probs)):
    mp.annotate(
        '{}% {}%'.format(
            round(probs[i, 0] * 100, 2),
            round(probs[i, 1] * 100, 2)),
        xy=(prob_x[i, 0], prob_x[i, 1]),
        xytext=(12, -12),
        textcoords='offset points',
        horizontalalignment='left',
        verticalalignment='top',
        fontsize=9,
        bbox={'boxstyle': 'round,pad=0.6', 'fc': 'orange', 'alpha': 0.8})
mp.show()

網格搜尋

獲取一個最優超引數的方式可以繪製驗證曲線，但是驗證曲線只能每次獲取一個最優超引數。如果多個超引數有很多排列組合的話，就可以使用網格搜尋尋求最優超引數組合。

針對超引數組合列表中的每一個超引數組合，例項化給定的模型，做cv次交叉驗證，將其中平均f1得分最高的超引數組合作為最佳選擇，例項化模型物件。

網格搜尋相關API：

import sklearn.model_selection as ms
model = ms.GridSearchCV(模型, 超引數組合列表, cv=摺疊數)
model.fit(輸入集，輸出集)
# 獲取網格搜尋每個引數組合
model.cv_results_['params']
# 獲取網格搜尋每個引數組合所對應的平均測試分值
model.cv_results_['mean_test_score']
# 獲取最好的引數
model.best_params_   # 最優超引數組合
model.best_score_    # 最優得分
model.best_estimator_  # 最優模型物件

案例：修改置信概率案例，基於網格搜尋得到最優超引數。

import numpy as np
import sklearn.model_selection as ms
import sklearn.svm as svm
import sklearn.metrics as sm
import matplotlib.pyplot as plt

data = np.loadtxt('../machine_learning_date/multiple2.txt', delimiter=',', dtype='f8')
x = data[:, :-1]
y = data[:, -1]
# 選擇svm做分類
train_x, test_x, train_y, test_y = ms.train_test_split(x, y, test_size=0.25, random_state=5)
model = svm.SVC(probability=True)
# 根據網格搜尋選擇最優模型
# 整理網格搜尋所需要的超引數列表
params = [{'kernel': ['linear'], 'C': [1, 10, 100, 1000]},
          {'kernel': ['poly'], 'C': [1], 'degree': [2, 3]},
          {'kernel': ['rbf'], 'C': [1, 10, 100, 1000], 'gamma': [1, 0.1, 0.01, 0.001]}]
model = ms.GridSearchCV(model, params, cv=5)
model.fit(train_x, train_y)

# 獲取得分最優的的超引數資訊
print(model.best_params_)  # {'C': 1, 'gamma': 1, 'kernel': 'rbf'}
# 獲取最優得分

print(model.best_score_)  # 0.96

# 獲取最優模型的資訊
print(model.best_estimator_)
# SVC(C=1, cache_size=200, class_weight=None, coef0=0.0,
#   decision_function_shape='ovr', degree=3, gamma=1, kernel='rbf',
#   max_iter=-1, probability=True, random_state=None, shrinking=True,
#   tol=0.001, verbose=False)

# 輸出每個超引數組合資訊及其得分
for param, score in zip(model.cv_results_['params'], model.cv_results_['mean_test_score']):
    print(param, '->', score)
    # {'C': 1, 'kernel': 'linear'} -> 0.5911111111111111
    # {'C': 10, 'kernel': 'linear'} -> 0.5911111111111111
    # ...
    # ...
    # {'C': 1000, 'gamma': 0.01, 'kernel': 'rbf'} -> 0.9555555555555556
    # {'C': 1000, 'gamma': 0.001, 'kernel': 'rbf'} -> 0.92


pred_test_y = model.predict(test_x)
print(sm.classification_report(test_y, pred_test_y))
#              precision    recall  f1-score   support
#         0.0       0.95      0.93      0.94        45
#         1.0       0.90      0.93      0.92        30
# avg / total       0.93      0.93      0.93        75

# 新增樣本
prob_x = np.array([[2, 1.5], [8, 9], [4.8, 5.2], [4, 4], [2.5, 7], [7.6, 2], [5.4, 5.9]])
pred_prob_y = model.predict(prob_x)
probs = model.predict_proba(prob_x)     # 獲取每個樣本的置信概率矩陣
print(probs)

# 繪製分類邊界線
n = 500
l, r = x[:, 0].min() - 1, x[:, 0].max() + 1
b, t = x[:, 1].min() - 1, x[:, 1].max() + 1
grid_x = np.meshgrid(np.linspace(l, r, n), np.linspace(b, t, n))
flat_x = np.column_stack((grid_x[0].ravel(), grid_x[1].ravel()))
flat_y = model.predict(flat_x)
grid_y = flat_y.reshape(grid_x[0].shape)

plt.figure('Probability')
plt.title('Probability')
plt.xlabel('x', fontsize=14)
plt.ylabel('y', fontsize=14)
plt.tick_params(labelsize=10)
plt.pcolormesh(grid_x[0], grid_x[1], grid_y, cmap='gray')
plt.scatter(test_x[:, 0], test_x[:, 1], c=test_y, cmap='brg', s=80)
plt.scatter(prob_x[:, 0], prob_x[:, 1], c=pred_prob_y, cmap='jet_r', s=80, marker='D')
for i in range(len(probs)):
    plt.annotate('{}% {}%'.format(
        round(probs[i, 0] * 100, 2),
        round(probs[i, 1] * 100, 2)),
        xy=(prob_x[i, 0], prob_x[i, 1]),
        xytext=(12, -12),
        textcoords='offset points',
        horizontalalignment='left',
        verticalalignment='top',
        fontsize=9,
        bbox={'boxstyle': 'round,pad=0.6', 'fc': 'orange', 'alpha': 0.8})
plt.show()

事件預測

載入event.txt，預測某個時間段是否會出現特殊事件。

import numpy as np
import sklearn.preprocessing as sp
import sklearn.model_selection as ms
import sklearn.svm as svm
import sklearn.metrics as sm


class DigitEncoder:
    # 模擬LabelEncoder編寫的數字編碼器
    # 非數字字串的特徵需要做標籤編碼，
    # 數字字串的特徵需要做轉換編碼

    def fit_transform(self, y):
        return y.astype('i4')

    def transform(self, y):
        return y.astype('i4')

    def inverse_transform(self, y):
        return y.astype('str')


# 載入並整理資料集
# data = np.load('../machine_learning_date/events.txt', delimiter=",", dtype='U15')

data = []
with open('../machine_learning_date/events.txt', 'r') as f:
    for line in f.readlines():
        data.append(line.split(','))
data = np.array(data)
data = np.delete(data, 1, axis=1)
cols = data.shape[1]  # 獲取一共有多少列
x, y = [], []
encoders = []
for i in range(cols):
    col = data[:, i]
    # 判斷當前列是否是數字字串
    if col[0].isdigit():
        encoder = DigitEncoder()
    else:
        encoder = sp.LabelEncoder()
    # 使用編碼器對資料進行編碼
    if i < cols - 1:
        x.append(encoder.fit_transform(col))
    else:
        y = encoder.fit_transform(col)
    encoders.append(encoder)

x = np.array(x).T   # (5040,4)
y = np.array(y)     # (5040,)

# 拆分測試集與訓練集
train_x, test_x, train_y, test_y = ms.train_test_split(x, y, test_size=0.25, random_state=7)

# 構建模型
model = svm.SVC(kernel='rbf', class_weight='balanced')
model.fit(train_x, train_y)
# 測試
pred_test_y = model.predict(test_x)
print(sm.classification_report(test_y, pred_test_y))

# 業務應用
data = [['Tuesday', '13:30:00', '21', '23']]
data = np.array(data).T
x = []
for row in range(len(data)):
    encoder = encoders[row]
    x.append(encoder.transform(data[row]))
x = np.array(x).T
pred_y = model.predict(x)
print(encoders[-1].inverse_transform(pred_y))   # ['eventA\n']

交通流量預測（迴歸）

載入traffic.txt，預測在某個時間段某個交通路口的車流量。

"""車流量預測"""
import numpy as np
import sklearn.preprocessing as sp
import sklearn.model_selection as ms
import sklearn.svm as svm
import sklearn.metrics as sm


class DigitEncoder:
    def fit_transform(self, y):
        return y.astype(int)

    def transform(self, y):
        return y.astype(int)

    def inverse_transform(self, y):
        return y.astype(str)


data = []
# 迴歸
data = np.loadtxt('../machine_learning_date/traffic.txt', delimiter=',', dtype='U20')
data = data.T
encoders, x = [], []
for row in range(len(data)):
    if data[row][0].isdigit():
        encoder = DigitEncoder()
    else:
        encoder = sp.LabelEncoder()
    if row < len(data) - 1:
        x.append(encoder.fit_transform(data[row]))
    else:
        y = encoder.fit_transform(data[row])
    encoders.append(encoder)
x = np.array(x).T
train_x, test_x, train_y, test_y = \
    ms.train_test_split(x, y, test_size=0.25, random_state=5)
# 支援向量機迴歸器
model = svm.SVR(kernel='rbf', C=10, epsilon=0.2)
model.fit(train_x, train_y)
pred_test_y = model.predict(test_x)
print(sm.r2_score(test_y, pred_test_y))     # 0.6379517119380995

# 業務應用
data = [['Tuesday', '13:35', 'San Francisco', 'yes']]
data = np.array(data).T
x = []
for row in range(len(data)):
    encoder = encoders[row]
    x.append(encoder.transform(data[row]))
x = np.array(x).T
pred_y = model.predict(x)
print(int(pred_y))      # 27

迴歸：線性迴歸、嶺迴歸、多項式迴歸、決策樹、正向激勵、隨機森林、SVR。

分類：邏輯分類、樸素貝葉斯、決策樹、隨機森林、SV

吳恩達機器學習 - 支援向量機(SVM) 吳恩達機器學習 - 支援向量機(SVM)

原吳恩達機器學習 - 支援向量機(SVM) 2018年06月24日 14:40:42 離殤灬孤狼閱讀數：218 更多

機器學習-支援向量機SVM

簡介：支援向量機（SVM）是一種二分類的監督學習模型，他的基本模型是定義在特徵空間上的間隔最大的線性模型。他與感知機的區別是，感知機只要找到可以將資料正確劃分的超平面即可，而SVM需要找到間隔最大的超平面將資料劃分開。所以感知機的超平面可以有無數個，但是SVM的超平面只有一個。此外，SVM在引入核函式之後

機器學習——支援向量機SVM（一）

在之前做數學建模的時候就有使用過支援向量機的有關知識，但是對於支援向量機的理解一直不是很深刻，尤其是數學推導部分還是存在一些問題。在最近看周志華西瓜書的過程中同樣發現這一問題，西瓜書中對支援向量機的講解部分不是很詳細，所以我又查找了其他的資料。支援向量機是一種原創性（非組

機器學習——支援向量機SVM之軟間隔與正則化

1、在SVM基本型的討論中，我們一直假定樣本在樣本空間或特徵空間中是線性可分的，即存在一個超平面能將不同類的樣本完全劃分開 2、然而現實任務中往往很難確定合適的核函式使得訓練樣本在特徵空間中線性可分，即使恰好找到某個核函式使訓練集樣本在特徵空間中線性可分，也很難判斷是否

機器學習——支援向量機SVM（Support Vector Machine）（下）

1、SVM演算法特徵（1）訓練好的模型的演算法複雜度是由支援向量的個數決定的，而不是由資料的維度決定。所以，SVM不太容易產生overfitting。（2）SVM訓練出來的模型完全依賴於支援向量（

Stanford機器學習---支援向量機SVM

本欄目（Machine learning）包括單引數的線性迴歸、多引數的線性迴歸、Octave Tutorial、Logistic Regression、Regularization、神經網路、機器學習系統設計、SVM（Support Vector Machines 支

機器學習——支援向量機SVM之核函式

1、在現實任務中，原始樣本空間也許不存在一個能正確劃分兩類樣本的超平面，雖然“軟間隔”概念的引入在一定程度上緩解了該問題，但是當樣本分佈的非線性程度很高的時候，“軟間隔”也無法解決這一問題 2、對於這類問題，SVM的處理方法是選擇一個核函式，其通過將資料對映到更高維

機器學習——支援向量機(SVM)

支援向量機原理支援向量機要解決的問題其實就是尋求最優分類邊界。且最大化支援向量間距，用直線或者平面，分隔分隔超平面。基於核函式的升維變換通過名為核函式的特徵變換，增加新的特徵，使得低維度空間中的線性不可分問題變為高維度空間中的線性可分問題。線性核函式：linear，不通

機器學習-支援向量機（SVM）演算法學習筆記

假設有訓練集D={(x1, y1), (x2, y2), ..., (xm, ym)}，yi{-1, 1}，分類學習最基本的想法就是基於訓練集D在樣本空間中找到一個劃分超平面，將不同類別的樣本分開。

機器學習——支援向量機（SVM）

本文主要參考吳恩達《機器學習》課程，以及網上各個大牛們的博文。支援向量機，是一種對線性和非線性資料進行分類的方法。它按以下方法工作：使用一種非線性對映，把原訓練資料對映到較高的維上，在新的維上，它搜尋最佳分離超平面。使用到足夠高維上的、合適的非線性對映，兩個類的資料總可以

機器學習 - 支援向量機（SVM）目錄索引

SVM目錄索引線性可分 SVM：硬間隔最大化線性 SVM：軟間隔最大化非線性 SVM：核技巧序列最小最優化演算法 (SMO）特點優點：

機器學習--支援向量機通俗導論（理解SVM的三層境界）

支援向量機通俗導論（理解SVM的三層境界）作者：July 。致謝：pluskid、白石、JerryLead。說明：本文最初寫於2012年6月，而後不斷反反覆覆修改&優化，修改次數達上百次，最後修改於2016年11月。前言

演算法學習——支援向量機SVM

SVM現在的公式推導很多，都是現成的，而且寫的也很好，我會提供相關資源，這篇博文主要從思想理解的方面做一個簡單介紹。 1、SVM 是如何工作的？支援向量機的基礎概念可以通過一個簡單的例子來解釋。讓我們想象兩個類別：紅色和藍色，我們的資料有兩個特徵：x 和 y。我們想要一個分類器，給定一

機器學習 --- 支援向量機的核函式

一、核函式方法的直觀理解線性向量機地分類效果可能並不是很好，難以分類非線性的問題，這就將引入核函式。例如在二維平面中，難以通過線性的方法來處理異或問題，但是通過將輸入變數經過核函式對映到三維空間中，那麼如上圖所示的線性超平面可以完成分類。線上性不

sklearn系列學習--支援向量機SVM

#coding:utf-8 ##1 匯入svm和資料集 from sklearn import svm,datasets ##2 呼叫SVC() clf = svm.SVC() ##3 載入鳶尾花資

機器學習---支援向量機實戰（四）核函式實現

這節和上一節很像，不同的是，上一篇的是通過支援向量和待分類資料內積進行分類的，只是這裡不同的是，在計算內積時使用核函式進行代替，這裡參考的是機器學習實戰中的核函式，如果前面理解的比較深入，讀程式碼還是很簡單的，這裡的程式碼建議不要剛開始就去讀核函式定義，建議先從測試核函式的程

機器學習-支援向量機

前言 – 在前面的分類問題中，學到了線性迴歸演算法、Logistic迴歸演算法，以及決策樹中迴歸演算法，我們在資料集中通過訓練資料得到一個很好的擬合數據的模型，在圖中表現為可以找到一條直線來將正反例資料很好的分割開來，例如下圖所示：在圖中的資料集中我們可

機器學習----支援向量機（軟間隔與正則化）

Soft Margin 前面的假設一直都是線性可分，可是如果對所有樣本不能線性可分（比如有noisy）怎麼辦？或者過擬合怎麼辦？緩解該問題的一個方法就是允許支援向量機在一些樣本上出錯，為此引入軟間隔(soft margin)這個概念。即允許在一些樣本

機器學習--支援向量機（六）徑向基核函式（RBF）詳解

前面講解了什麼是核函式，以及有效核函式的要求，到這裡基本上就結束了，很多部落格也是如此，但是呢這些只是理解支援向量機的原理，如何使用它講解的卻很少，尤其是如何選擇核函式更沒有人講，不講也是有原因的，因為核函式的選擇沒有統一的定論，這需要使用人根據不同場合或者不同問題選擇核函式

機器學習----支援向量機（核函式）

#線性不可分我們的SVM是找到一條分割直線，但是如果線性不可分怎麼辦？如下圖：可以看出，是有一個明顯的分割線的，但是不是直線，這種情況下我們怎麼用SVM呢？我們可以找到一種變化，讓變換後的資料線性可分，用圖形象的表示為：圖中的ϕ就是我們

機器學習——支援向量機(SVM)

支援向量機原理

樣本類別均衡化

置信概率

網格搜尋

事件預測

交通流量預測（迴歸）

相關推薦