1. 程式人生 > >支援向量機通俗導論(理解SVM的三層境界)

支援向量機通俗導論(理解SVM的三層境界)

作者:July 。致謝:pluskid、白石、JerryLead。
說明:本文最初寫於2012年6月,而後不斷反反覆覆修改&優化,修改次數達上百次,最後修改於2016年11月。
宣告:本文於2012年便早已附上所有參考連結,並註明是篇“學習筆記”,且寫明具體參考了pluskid等人的文章。文末2013年的PDF是為證。

前言

    動筆寫這個支援向量機(support vector machine)是費了不少勁和困難的,原因很簡單,一者這個東西本身就並不好懂,要深入學習和研究下去需花費不少時間和精力,二者這個東西也不好講清楚,儘管網上已經有朋友寫得不錯了(見文末參考連結),但在描述數學公式的時候還是顯得不夠。得益於同學白石的數學證明,我還是想嘗試寫一下,希望本文在兼顧通俗易懂的基礎上,真真正正能足以成為一篇完整概括和介紹支援向量機的導論性的文章。

    本文在寫的過程中,參考了不少資料,包括《支援向量機導論》、《統計學習方法》及網友pluskid的支援向量機系列等等,於此,還是一篇學習筆記,只是加入了自己的理解和總結,有任何不妥之處,還望海涵。全文巨集觀上整體認識支援向量機的概念和用處,微觀上深究部分定理的來龍去脈,證明及原理細節,力保邏輯清晰 & 通俗易懂。

    同時,閱讀本文時建議大家儘量使用chrome等瀏覽器,如此公式才能更好的顯示,再者,閱讀時可拿張紙和筆出來,把本文所有定理.公式都親自推導一遍或者直接列印下來(可直接列印網頁版或本文文末附的PDF)在文稿上演算,從而享受隨時隨地思考、演算的極致快感

    OK,還是那句話,有任何問題,歡迎任何人隨時不吝指正 & 賜教,感謝。

第一層、瞭解SVM

    支援向量機,因其英文名為support vector machine,故一般簡稱SVM,通俗來講,它是一種二類分類模型,其基本模型定義為特徵空間上的間隔最大的線性分類器,其學習策略便是間隔最大化,最終可轉化為一個凸二次規劃問題的求解。

1.1、分類標準的起源:Logistic迴歸

    理解SVM,咱們必須先弄清楚一個概念:線性分類器。

    給定一些資料點,它們分別屬於兩個不同的類,現在要找到一個線性分類器把這些資料分成兩類。如果用x表示資料點,用y

表示類別(y可以取1或者-1,分別代表兩個不同的類),一個線性分類器的學習目標便是要在n維的資料空間中找到一個超平面(hyper plane),這個超平面的方程可以表示為( wT中的T代表轉置):

可能有讀者對類別取1-1有疑問,事實上,這個1-1的分類標準起源於logistic迴歸

    Logistic迴歸目的是從特徵學習出一個0/1分類模型,而這個模型是將特性的線性組合作為自變數,由於自變數的取值範圍是負無窮到正無窮。因此,使用logistic函式(或稱作sigmoid函式)將自變數對映到(0,1)上,對映後的值被認為是屬於y=1的概率。

    假設函式

    其中x是n維特徵向量,函式g就是logistic函式。     而的影象是
    可以看到,將無窮對映到了(0,1)。     而假設函式就是特徵屬於y=1的概率。

    從而,當我們要判別一個新來的特徵屬於哪個類時,只需求即可,若大於0.5就是y=1的類,反之屬於y=0類。

    此外,只和有關,>0,那麼而g(z)只是用來對映,真實的類別決定權還是在於。再者,當時,=1,反之=0。如果我們只從出發,希望模型達到的目標就是讓訓練資料中y=1的特徵,而是y=0的特徵Logistic迴歸就是要學習得到,使得正例的特徵遠大於0,負例的特徵遠小於0而且要在全部訓練例項上達到這個目標。

    接下來,嘗試把logistic迴歸做個變形。首先,將使用的結果標籤y = 0y = 1替換為y = -1,y = 1,然後將)中的替換為b,最後將後面的替換為(即)。如此,則有了。也就是說除了yy=0變為y=-1外,線性分類函式跟logistic迴歸的形式化表示沒區別。

    進一步,可以將假設函式中的g(z)做一個簡化,將其簡單對映到y=-1y=1上。對映關係如下:

1.2、線性分類的一個例子

    下面舉個簡單的例子,如下圖所示,現在有一個二維平面,平面上有兩種不同的資料,分別用圈和叉表示。由於這些資料是線性可分的,所以可以用一條直線將這兩類資料分開,這條直線就相當於一個超平面,超平面一邊的資料點所對應的y全是 -1 ,另一邊所對應的y全是1

    這個超平面可以用分類函式表示,當f(x) 等於0的時候,x便是位於超平面上的點,而f(x)大於0的點對應 y=1 的資料點,f(x)小於0的點對應y=-1的點,如下圖所示:

注:有的資料上定義特徵到結果的輸出函式與這裡定義的實質是一樣的。為什麼?因為無論是,還是,不影響最終優化結果。下文你將看到,當我們轉化到優化的時候,為了求解方便,會把yf(x)令為1,即yf(x)是y(w^x + b),還是y(w^x - b),對我們要優化的式子max1/||w||已無影響。

    (有一朋友飛狗來自Mare_Desiderii,看了上面的定義之後,問道:請教一下SVM functional margin 為=y(wTx+b)=yf(x)中的Y是隻取1和-1 嗎?y的唯一作用就是確保functional margin的非負性?真是這樣的麼?當然不是,詳情請見本文評論下第43樓

    當然,有些時候,或者說大部分時候資料並不是線性可分的,這個時候滿足這樣條件的超平面就根本不存在(不過關於如何處理這樣的問題我們後面會講),這裡先從最簡單的情形開始推導,就假設資料都是線性可分的,亦即這樣的超平面是存在的

    換言之,在進行分類的時候,遇到一個新的資料點x將x代入f(x) 中,如果f(x)小於0x類別賦為-1,如果f(x)大於0x的類別賦為1。

    接下來的問題是,如何確定這個超平面呢?從直觀上而言,這個超平面應該是最適合分開兩類資料的直線。而判定“最適合”的標準就是這條直線離直線兩邊的資料的間隔最大。所以,得尋找有著最大間隔的超平面。

1.3、函式間隔Functional margin與幾何間隔Geometrical margin 

在超平面w*x+b=0確定的情況下,|w*x+b|能夠表示點x到距離超平面的遠近,而通過觀察w*x+b的符號與類標記y的符號是否一致可判斷分類是否正確,所以,可以用(y*(w*x+b))的正負性來判定或表示分類的正確性。於此,我們便引出了函式間隔(functional margin)的概念。

    定義函式間隔(用表示)為:

    而超平面(wb)關於T中所有樣本點(xiyi)的函式間隔最小值(其中,x是特徵,y是結果標籤,i表示第i個樣本),便為超平面(w, b)關於訓練資料集T的函式間隔

    mini  (i=1,...n)

    但這樣定義的函式間隔有問題,即如果成比例的改變wb(如將它們改成2w2b),則函式間隔的值f(x)卻變成了原來的2(雖然此時超平面沒有改變),所以只有函式間隔還遠遠不夠。

    事實上,我們可以對法向量w加些約束條件,從而引出真正定義點到超平面的距離--幾何間隔(geometrical margin)的概念。

    假定對於一個點 ,令其垂直投影到超平面上的對應點為 x0 是垂直於超平面的一個向量,為樣本x到超平面的距離,如下圖所示:

    根據平面幾何知識,有

    其中||w||為w的二階範數(範數是一個類似於模的表示長度的概念),是單位向量(一個向量除以它的模稱之為單位向量)。

    又由於 x0 是超平面上的點,滿足 f(x0)=0 ,代入超平面的方程,可得,即

    隨即讓此式的兩邊同時乘以,再根據,即可算出


γ

為了得到的絕對值,令乘上對應的類別 y即可得出幾何間隔(用表示)的定義

    從上述函式間隔和幾何間隔的定義可以看出:幾何間隔就是函式間隔除以||w||,而且函式間隔y*(wx+b) = y*f(x)實際上就是|f(x)|,只是人為定義的一個間隔度量,而幾何間隔|f(x)|/||w||才是直觀上的點到超平面的距離。

1.4、最大間隔分類器Maximum Margin Classifier的定義

    對一個數據點進行分類,當超平面離資料點的“間隔”越大,分類的確信度(confidence)也越大。所以,為了使得分類的確信度儘量高,需要讓所選擇的超平面能夠最大化這個“間隔”值。這個間隔就是下圖中的Gap的一半

    通過由前面的分析可知:函式間隔不適合用來最大化間隔值,因為在超平面固定以後,可以等比例地縮放w的長度和b的值,這樣可以使得的值任意大,亦即函式間隔可以在超平面保持不變的情況下被取得任意大。但幾何間隔因為除上了,使得在縮放wb的時候幾何間隔的值是不會改變的,它只隨著超平面的變動而變動,因此,這是更加合適的一個間隔。換言之,這裡要找的最大間隔分類超平面中的“間隔”指的是幾何間隔。

   於是最大間隔分類器(maximum margin classifier)的目標函式可以定義為:

    同時需滿足一些條件,根據間隔的定義,有

    其中,s.t.,即subject to的意思,它匯出的是約束條件

    回顧下幾何間隔的定義可知:如果令函式間隔等於1(之所以令等於1,是為了方便推導和優化,且這樣做對目標函式的優化沒有影響,至於為什麼,請見本文評論下第42樓回覆,則有 = 1 / ||w||且,從而上述目標函式轉化成了

    相當於在相應的約束條件下,最大化這個1/||w||,而1/||w||便是幾何間隔。   

    如下圖所示,中間的實線便是尋找到的最優超平面(Optimal Hyper Plane),其到兩條虛線邊界的距離相等,這個距離便是幾何間隔,兩條虛線間隔邊界之間的距離等於2,而虛線間隔邊界上的點則是支援向量。由於這些支援向量剛好在虛線間隔邊界上,所以它們滿足還記得我們把 functional margin 定為 1 了嗎?上節中:處於方便推導和優化的目的,我們可以令=1),而對於所有不是支援向量的點,則顯然有

    OK,到此為止,算是瞭解到了SVM的第一層,對於那些只關心怎麼用SVM的朋友便已足夠,不必再更進一層深究其更深的原理。

第二層、深入SVM

2.1、從線性可分到線性不可分

2.1.1、從原始問題到對偶問題的求解

    接著考慮之前得到的目標函式:

     由於求的最大值相當於求的最小值,所以上述目標函式等價於(w由分母變成分子,從而也有原來的max問題變為min問題,很明顯,兩者問題等價):

    因為現在的目標函式是二次的,約束條件是線性的,所以它是一個凸二次規劃問題。這個問題可以用現成的QP (Quadratic Programming) 優化包進行求解。一言以蔽之:在一定的約束條件下,目標最優,損失最小。

    此外,由於這個問題的特殊結構,還可以通過拉格朗日對偶性(Lagrange Duality)變換到對偶變數 (dual variable) 的優化問題,即通過求解與原問題等價的對偶問題(dual problem得到原始問題的最優解,這就是線性可分條件下支援向量機的對偶演算法,這樣做的優點在於:一者對偶問題往往更容易求解;二者可以自然的引入核函式,進而推廣到非線性分類問題。

     那什麼是拉格朗日對偶性呢?簡單來講,通過給每一個約束條件加上一個拉格朗日乘子(Lagrange multiplier),定義拉格朗日函式(通過拉格朗日函式將約束條件融合到目標函式裡去,從而只用一個函式表示式便能清楚的表達出我們的問題

    然後令

    容易驗證,當某個約束條件不滿足時,例如,那麼顯然有只要令即可)。而當所有約束條件都滿足時,則最優值為亦即最初要最小化的量。

    因此,在要求約束條件得到滿足的情況下最小化實際上等價於直接最小化(當然,這裡也有約束條件,就是

相關推薦

支援向量通俗導論理解SVM境界

作者:July 。致謝:pluskid、白石、JerryLead。 說明:本文最初寫於2012年6月,而後不斷反反覆覆修改&優化,修改次數達上百次,最後修改於2016年11月。 宣告:本文於2012年便早已附上所有參考連結,並註明是篇“學習筆記”,

機器學習之旅:支援向量通俗導論理解SVM境界

 支援向量機通俗導論(理解SVM的三層境界)作者:July、pluskid ;致謝:白石、JerryLead出處:結構之法演算法之道blog。前言    動筆寫這個支援向量機(support vector machine)是費了不少勁和困難的,原因很簡單,一者這個東西本身就並

【轉載】支援向量通俗導論理解SVM境界

前言第一層、瞭解SVM  1.0、什麼是支援向量機SVM  1.1、線性分類  1.2、線性分類的一個例子  1.3、函式間隔Functional margin與幾何間隔Geometrical margin    1.3.1、函式間隔Functional margin    1.3.2、點到超平面的距離定

支援向量通俗導論理解SVM境界(2)

第二層、深入SVM 2.1、從線性可分到線性不可分 2.1.1、從原始問題到對偶問題的求解 接著考慮之前得到的目標函式:      由於求的最大值相當於求的最小值,所以上述目標函式等價於(w由分母變成分子,從而也有原來的max問題變為min問題,很明顯,兩者問

機器學習--支援向量通俗導論理解SVM境界

            支援向量機通俗導論(理解SVM的三層境界) 作者:July 。致謝:pluskid、白石、JerryLead。 說明:本文最初寫於2012年6月,而後不斷反反覆覆修改&優化,修改次數達上百次,最後修改於2016年11月。 前言

支援向量通俗導論

第一層、瞭解SVM 支援向量機,因其英文名為support vector machine,故一般簡稱SVM,通俗來講,它是一種二類分類模型,其基本模型定義為特徵空間上的間隔最大的線性分類器,其學習策略

支援向量通俗導論 理解SVM境界

                            支援向量機通俗導論(理解SVM的三層境界)作者:July 。致謝:pluskid、白石、JerryLead。說明:本文最初寫於2012年6月,而後不斷反反覆覆修改&優化,修改次數達上百次,最後修改於2016年11月。宣告:本文於2012年便早已附

支援向量通俗導論 ——理解 SVM境界

AI菌今天要推薦的不是一本書,而是一篇關於向量機的超詳細博文:http://blog.csdn.

SVM:支援向量通俗導論

有大量修改,作者的篇幅較長,分析比較直觀,由淺入深,不過不適於數學專業閱讀,更適合於軟體工程師閱覽。建議拜訪原作者。 支援向量機通俗導論(理解SVM的三層境界) 作者:July、pluskid ;致謝:白石、JerryLead  出處:結構之法演算法之道blo

【影象識別】【轉】支援向量通俗導論

原文:http://www.36dsj.com/archives/24596 作者:July ;致謝:pluskid、白石、JerryLead。 出處:結構之法演算法之道blog。 前言 動筆寫這個支援向量機(support vector mach

支援向量原理理解SVM境界

 支援向量機通俗導論(理解SVM的三層境界) 作者:July 。致謝:pluskid、白石、JerryLead。 說明:本文最初寫於2012年6月,而後不斷反反覆覆修改&優化,修改次數達上百次,最後修改於2016年11月。 宣告:

支援向量理解SVM境界

支援向量機通俗導論(理解SVM的三層境界) 作者:July、pluskid ;致謝:白石、JerryLead 出處:結構之法演算法之道blog。 前言 動筆寫這個支援向量機(support vector machine)是費了

Machine Learning -- SVM(支援向量)通俗理解

SVM(支援向量機): 支援向量機演算法可以看作是邏輯迴歸演算法的 強化:通過給予邏輯迴歸演算法更嚴格的優化條件, 支援向量機演算法可以獲得比邏輯迴歸更好的分類界線。通過和高斯核函式的結合,支援向量機可以 表達出非常複雜的分類界線,從而達成很好的分類效果。"核"事實上就是一種特殊的函式,

skiti-learn 支援向量類庫SVM

SVM演算法庫分為兩類,一類是分類演算法庫,SVC,NuSVC,LinearSVC;另一類是迴歸演算法庫,SVR,NuSVR,LinearSVR。 分類演算法庫中,SVC,NuSVC差不多,區別在於損失的度量方式不同;LinearSVC是線性分類,不支援從低維到高維的核函式,僅僅支援線性核函

SVM支援向量系列理論 核嶺迴歸

1. 嶺迴歸問題 嶺迴歸就是使用了L2正則化的線性迴歸模型。當碰到資料有多重共線性時(自變良量存在高相關性),我們就會用到嶺迴歸。 嶺迴歸模型的優化策略為: minw    1N∑i(yi−w⋅zi)2+λNwTw&nbs

SVM支援向量系列理論 線性支援向量與L2正則化 Platt模型

7.1 軟間隔SVM等價於最小化L2正則的合頁損失 上一篇 說到, ξi ξ i \xi_i 表示偏離邊界的度量,若樣本點

SVM支援向量系列理論 軟間隔支援向量

4.1 軟間隔SVM的經典問題 4.2 軟間隔SVM的對偶問題 4.2.1 軟間隔SVM的對偶問題學習演算法 4.3 軟間

SVM支援向量系列理論 SVM過擬合的原因和SVM模型選擇

6.1 SVM 過擬合的原因 實際我們應用的SVM模型都是核函式+軟間隔的支援向量機,那麼,有以下原因導致SVM過擬合: 選擇的核函式過於powerful,比如多項式核中的Q設定的次數過高 要求的間隔過大,即在軟間隔支援向量機中C的引數過大時,表示比較重視間隔,堅持要資

SVM支援向量系列理論SVM中幾種核函式的對比

核函式可以代表輸入特徵之間特殊的相似性。 5.1 線性核 形式: K(x,x′)=xTx′ K ( x ,

SVM支援向量系列理論 非線性支援向量與核函式技巧

3.1 核技巧解決非線性SVM 3.1.1 非線性SVM解決思路 3.1.2 核技巧下SVM 3.2 Mercer核