1. 程式人生 > >1. 支援向量機(SVM)原理

1. 支援向量機(SVM)原理

1. 前言

在我沒有學習接觸機器學習之前,我就已經聽說了SVM這個機器學習的方法。SVM自它誕生以來就以優秀的分類效能牢牢佔據了霸主地位。

2. SVM原理

支援向量機(Support Vector Machine, SVM)的基本模型是在特徵空間上找到最佳的分離超平面使得訓練集上正負樣本間隔最大。SVM是用來解決二分類問題的有監督學習演算法,在引入了核方法之後SVM也可以用來解決非線性問題。

2.1 感知機

回想我們之前的一篇文章感知機,感知機的原理是通過找到一條直線,能夠把資料分開。如果提升到高緯,就是找到一個超平面,把高緯資料分開。感知機的超平面可能有無窮多個,SVM可以理解為在這無窮多個裡面找出最好的那個。

2.2 函式間隔與幾何間隔

  • 函式間隔
    函式間隔其實就是感知機的損失函式的表達形式,可以表示位
    \[ \gamma^{'} = y(w^Tx + b) \]
  • 幾何間隔
    幾何間隔才是點到超平面的真正距離,是每個點到超平面的距離,也就是函式間隔除上法向量。
    \[ \gamma = \frac{y(w^Tx + b)}{||w||_2} = \frac{\gamma^{'}}{||w||_2} \]

3. SVM模型

先直接看下SVM的模型圖:

image

如上圖所示,分類超平面\(w^Tx+b=0\)不僅可以把所有樣本分開,還和最近的樣本點(支援向量)保持一定的函式距離(我們認為這個函式距離為1),那麼這樣的分類超平面是比感知機的分類超平面更好的。可以證明,這樣的超平面只有一個。

4. SVM的損失函式

SVM的模型是讓所有點到超平面的距離大於一定的距離,也就是所有的分類點要在各自類別的支援向量兩邊。用數學式子表示為:

\[ max \;\; \gamma = \frac{y(w^Tx + b)}{||w||_2} \;\; s.t \;\; y_i(w^Tx_i + b) = \gamma^{'(i)} \geq \gamma^{'} (i =1,2,...m) \]
一般我們都取函式間隔\(\gamma^{'}=1\),這樣我們的優化函式定義為:

\[ max \;\; \frac{1}{||w||_2} \;\; s.t \;\; y_i(w^Tx_i + b) \geq 1 (i =1,2,...m) \]


上式等價於:

\[ min \;\; \frac{1}{2}||w||_2^2 \;\; s.t \;\; y_i(w^Tx_i + b) \geq 1 (i =1,2,...m) \]

4.1 拉格朗日乘子法對偶問題

由於目標函式\(\frac{1}{2}||w||_2^2\)是凸函式,同時約束條件不等式是仿射的,根據凸優化理論,我們可以通過拉格朗日函式將我們的優化目標轉化為無約束的優化函式,

\[ L(w,b,\alpha) = \frac{1}{2}||w||_2^2 -\sum\limits_{i=1}^{m}\alpha_i[y_i(w^Tx_i + b) - 1] \; \; s.t. \; \alpha_i \geq 0 \]
我們的這個優化函式滿足KKT條件,也就是說,我們可以通過拉格朗日對偶將我們的優化問題轉化為等價的對偶問題來求解:

\[ \underbrace{min}_{w,b}\; \underbrace{max}_{\alpha_i \geq 0} L(w,b,\alpha) \]
從先求最大值再求最小值轉化為先求最小值再求最大值,如下

\[ \underbrace{max}_{\alpha_i \geq 0} \;\underbrace{min}_{w,b}\; L(w,b,\alpha) \]
然後通過偏導數對\(w,b\)求極值帶入公式得到如下公式

\[ \underbrace{min}_{\alpha} \frac{1}{2}\sum\limits_{i=1}^{m}\sum\limits_{j=1}^{m}\alpha_i\alpha_jy_iy_j(x_i \bullet x_j) - \sum\limits_{i=1}^{m} \alpha_i \]

$$
s.t. ; \sum\limits_{i=1}^{m}\alpha_iy_i = 0

\alpha_i \geq 0 ; i=1,2,...m
$$
只要我們可以求出上式極小化時對應的\(\alpha\)向量就可以求出\(w\)\(b\)了。具體怎麼極小化上式得到對應的\(\alpha\),一般需要用到SMO演算法,這個演算法比較複雜,我們後面會專門來講。

5. 總結

線性可分SVM的學習方法對於非線性的資料集是沒有辦法使用的,有時候不能線性可分的原因是線性資料集裡面多了少量的異常點,由於這些異常點導致了資料集不能線性可分, 那麼怎麼可以處理這些異常點使資料集依然可以用線性可分的思想呢? 我們在下一節的線性SVM的軟間隔最大化裡繼續講。

(歡迎轉載,轉載請註明出處。歡迎溝通交流: [email protected]