機器學習之&&SVM支援向量機入門:Maximum Margin Classifier

概率論只不過是把常識用數學公式表達了出來。

——拉普拉斯

0. 前言

這是一篇SVM的入門筆記，來自我對PlusKid、JerryLead、July等大神文章的拜讀心得，說是心得還不如說是讀文筆記，希望在自己理解的層面上給予SVM這個偉大的機器學習演算法概要介紹，讓更多的熱愛機器學習的夥伴們進入到SVM的世界。PS：文章會以問答的形式為主要結構。

1.概念

1.1.什麼是SVM？

支援向量機即 Support Vector Machine，簡稱 SVM 。（第一次接觸SVM是在阿里大資料競賽的時候，大家都在討論用什麼樣的方法去掙阿里那100W的獎金(鄙人因為能力有限進入決賽階段，但是因為模型優化問題，名落松山)，SVM、LR、協同過濾等等）SVM是Vapnik和Cortes於1995年首先提出的，它旨在解決

小樣本、非線性、高緯(因為現實應用中的資料多為這般特性)等特性的資料特徵的模式識別問題，特別在分類問題中，一直被大家認為是一種現有的可用的效果最好的分類演算法之一。(甚至很多人覺得之一可以去掉，但是神經網路"大大"不願意-。-)

1.2.為什麼會有SVM？

前面已經說過了SVM在解決小樣本、非線性、高緯資料上的優勢，那麼我們就從線性分類器開始逐步探討為什麼會有SVM的出現？

1.2.1.線性分類器

給定一些資料點，它們分別屬於兩個不同的類，現在要找到一個線性分類器把這些資料分成兩類。如果用x表示資料點，用y表示類別（y可以取1或者-1，分別代表兩個不同的類,有些地方會選 0 和 1 ，當然其實分類問題選什麼都無所謂，只要是兩個不同的數字即可，不過這裡選擇 +1 和 -1 是為了方便 SVM 的推導，後面就會明瞭了

），一個線性分類器的學習目標便是要在n維的資料空間中找到一個超平面（hyper plane），這個超平面的方程可以表示為（ wT中的T代表轉置）：

(為什麼會有這個形式化表示的超平面方程，請猛戳這裡)

一個超平面，在二維空間中的例子就是一條直線。我們希望的是，通過這個超平面可以把兩類資料分隔開來，比如，在超平面一邊的資料點所對應的 y 全是 -1 ，而在另一邊全是 1 。具體來說，我們令 f(x)=wTx+b ，顯然，如果 f(x)=0 ，那麼 x 是位於超平面上的點。我們不妨要求對於所有滿足 f(x)<0 的點，其對應的 y 等於 -1 ，而 f(x)>0 則對應

y=1 的資料點。當然，有些時候（或者說大部分時候）資料並不是線性可分的，這個時候滿足這樣條件的超平面就根本不存在，不過關於如何處理這樣的問題我們後面會講(SVM核函式的出現)，這裡先從最簡單的情形開始推導，就假設資料都是線性可分的，亦即這樣的超平面是存在的。

如下圖所示，兩種顏色的點分別代表兩個類別，紅顏色的線表示一個可行的超平面。在進行分類的時候，我們將資料點 x代入 f(x) 中，如果得到的結果小於 0 ，則賦予其類別 -1 ，如果大於 0 則賦予類別 1 。如果 f(x)=0，則很難辦了，分到哪一類都不是。事實上，對於 f(x) 的絕對值很小的情況，我們都很難處理，因為細微的變動（比如超平面稍微轉一個小角度）就有可能導致結果類別的改變。理想情況下，我們希望 f(x) 的值都是很大的正數或者很小的負數，這樣我們就能更加確信它是屬於其中某一類別的。

當然，有些時候，或者說大部分時候資料並不是線性可分的，這個時候滿足這樣條件的超平面就根本不存在(不過關於如何處理這樣的問題我們後面會講)，這裡先從最簡單的情形開始推導，就假設資料都是線性可分的，亦即這樣的超平面是存在的。

換言之，在進行分類的時候，遇到一個新的資料點x，將x代入f(x) 中，如果f(x)小於0則將x的類別賦為-1，如果f(x)大於0則將x的類別賦為1。

接下來的問題是，如何確定這個超平面呢？從直觀上而言，這個超平面應該是最適合分開兩類資料的直線。而判定“最適合”的標準就是這條直線離直線兩邊的資料的間隔最大。所以，得尋找有著最大間隔的超平面。

2.SVM之函式間隔(functional margin)與幾何間隔(geometrical margin)

2.1.什麼是函式間隔和幾何間隔及其關係？

為了讓欲分類的點遠離超平面(這樣分類效果更好)，我們可以用(y*(w*x+b))的正負性來判定或表示分類的正確性，因此我們定義函式間隔如下：

注意前面乘上類別 y 之後可以保證這個 margin 的非負性（因為 f(x)<0 對應於 y=−1 的那些點），而點到超平面的距離定義為 geometrical margin 。不妨來看看二者之間的關係。

如圖所示，對於一個點 x ，令其垂直投影到超平面上的對應的為 x0 ，由於 w 是垂直於超平面的一個向量，我們有

x=x0+γw∥w∥

又由於 x0 是超平面上的點，滿足 f(x0)=0 ，代入超平面的方程即可算出

γ=wTx+b∥w∥=f(x)∥w∥

不過，這裡的 γ 是帶符號的，我們需要的只是它的絕對值，因此類似地，也乘上對應的類別

機器學習之&&SVM支援向量機入門:Maximum Margin Classifier

機器學習之&&SVM支援向量機入門:Maximum Margin Classifier

機器學習實戰——SVM支援向量機實現記錄

機器學習演算法——SVM(支援向量機)

PYTHON機器學習實戰——SVM支援向量機

Python/scikit-learn機器學習庫(SVM支援向量機)

機器學習筆記(13)---支援向量機SVM

python機器學習庫sklearn——支援向量機svm

王小草【機器學習】筆記--支援向量機SVM

機器學習之支持向量機（三）：核函數和KKT條件的理解

機器學習之支持向量機（一）：支持向量機的公式推導

機器學習之支持向量機（四）

機器學習 --- 軟間隔支援向量機

Python Spark 之SVM支援向量機

sklearn庫學習之核支援向量機

Stanford機器學習筆記-8. 支援向量機(SVMs)概述

【機器學習實戰】支援向量機----分類庫和簡單訓練mnist

機器學習筆記8-支援向量機（3/3）

吳恩達機器學習筆記 —— 13 支援向量機

《機器學習實戰》支援向量機的數學理解及程式實現

機器學習實戰-55:支援向量機分類演算法(Support Vector Machine)

機器學習之&&SVM支援向量機入門:Maximum Margin Classifier

相關推薦