1. 程式人生 > >【理論部分】:(1)SVM理解與數學證明

【理論部分】:(1)SVM理解與數學證明

一. SVM(Support Vector Machine)匯入

首先說明一下,SVM提出的目的是為了解決在低維空間中線性不可分的二分類問題,通過將資料空間對映到高維,使得資料在高維空間中是線性可分的,以此來完成優化目標。

  • 線性分類

假設,某一個給定的資料集是線性可分的,那麼我們可以用線性分類器實現其二分類問題,也即在n維的資料空間中找到一個超平面(hyper plane),將資料劃分為兩個類別,超平面表示為:

  • 邏輯迴歸(Logistical Regression)

邏輯迴歸是指將取值範圍為(,)(-\infty,\infty)的原自變數對映到 (0,1)(0,1)

),對映後的值被分類為類別y=1y = 1的概率

二. 優化目標函式選取

考慮在資料是線性可分的情況下,我們只要找到一個合適的超平面,就能夠將資料明確的進行分類,那現在就要考慮這個超平面怎麼選取的問題了,什麼樣的超平面能夠使資料的分類效果最好??

那當然 , 是兩個類別的資料到超平面的距離和越大越好!

先來考慮用什麼距離來進行評估吧,這裡先介紹兩種距離:函式距離(Functional Margin)+ 幾何距離(Geometrical Margin)

  • 函式距離(Functional Margin)

既然超平面可以表示為:wTx+b=0w^Tx + b = 0,那麼對於任意一個數據x,只要代入上式計算出函式值,便可以直接根據其正負來判斷該資料是屬於哪一個類別。那麼我們可以簡單的用函式值的絕對值來表徵該資料距離超平面的遠近,也即:γ

^=wTx+b=y(wTx+b)=yf(x)(21)\hat{\gamma} = |w^Tx + b| = y(w^Tx + b) = yf(x) \ \ \ \ \ \ \ \ (2-1)定義為函式距離。

對於每一個數據點xix_i,可分別計算出其對應的函式距離γi^\hat{\gamma_i},且滿足:γ^=min(γi^)i=1,2,,n(22)\hat{\gamma} = min(\hat{\gamma_i}) \ i = 1,2,\dots,n\ \ \ \ \ \ \ \ (2-2)

n(γi^)i=1,2,,n(22)

【注】:用y=1y=1y=1y=-1分別表示兩個類別標籤,因為由超平面分開的兩個類別的函式取值是符號相反的,用1和-1表示類別標籤可以便於計算。

但是,函式距離的缺點也很明顯了,當引數w和b成倍增加的時候,超平面的位置並沒有改變,但是函式距離成倍增加,並不能將其作為參考。

  • 幾何距離(Geometrical Margin) 在這裡插入圖片描述

由上圖可示,加入矢量表示,資料點x可以表示為:x=x0+γww(23)x = x_0 + \gamma \frac{w}{||w||}\ \ \ \ \ \ \ \ (2-3)其中,x0x_0是資料點x在超平面上的投影,γ\gamma表示該資料點據超平面的距離,w表示超平面的法向量,||w||是範數表示,是向量w的模。 同時已知x0x_0是超平面上的點,因此有f(x0)=wTx0+b=0(24)f(x_0) = w^Tx_0 + b = 0\ \ \ \ \ \ \ \ (2-4)聯合公式(2-3)和(2-4)可以計算得到:γ=wTx+bwtww=wTx+bw=f(x)w(25)\gamma = \frac{w^Tx + b}{w^tw}||w|| = \frac{w^Tx+b}{||w||} = \frac{f(x)}{||w||}\ \ \ \ \ \ \ \ (2-5)然後再取絕對值:γ~=yf(x)w=γ^w(26)\tilde{\gamma} = \frac{yf(x)}{||w||} = \frac{\hat{\gamma}}{||w||}\ \ \ \ \ \ \ \ (2-6)定義為幾何距離。

從表示式中可以明顯的看出,幾何距離不會因為w和b的成倍增加而隨之增加,可以公正的表示資料點x相對於超平面的距離(畢竟除了一個w的範數就是相當於進行歸一化處理了嘛)。

到了這裡,我們就可以先確定下來第一個未知因素了,

幾何距離來衡量資料點到超平面的距離遠近!

對於任意一個輸入資料x,引數優化目標就是為了要讓幾何距離取到最大。 為了計算方便,將函式距離令為1,即添加了約束條件:γ^=1γi^=yif(xi)=yi(wTxi+b)\hat{\gamma} = 1 \leq\hat{\gamma_i} = y_if(x_i) = y_i(w^Tx_i +b)

得到最終的優化目標:max1ws.t.yi(wTxi+b)1,i=1,2,,n(27)max \ \frac{1}{||w||} \ \ s.t.\ y_i(w^Tx_i +b) \ge 1,i = 1,2,\dots,n \ \ \ \ \ \ \ \ (2-7)

三. 目標函式求解

當未知引數在分母的位置時,往往是不好求解的,那麼就換個思路,將其變換到分子,然後求變換後式子的最小值。(對偶問題求解,這裡不對對偶問題詳細解釋,基本思路就是將函式轉化為更容易求解的形式,一般通過優化其倒數來實現)。 好的,那現在我們的優化目標轉變為了:min12w2s.t.yi(wTxi+b)1,i=1,2,,n(31)min \ \frac{1}{2} {||w||}^2 \ \ s.t.\ y_i(w^Tx_i +b) \ge 1,i = 1,2,\dots,n \ \ \ \ \ \ \ \ (3-1)

又有目標優化函式,又有約束條件,這就是拉格朗日求解的最佳拍檔組合嘛!

理所當然的引入了拉格朗日乘子αi\alpha_i, 新定義損失函式:L(w,b,α)=12w2i=1nαi[yi(wTxi+b)1](32)L(w,b,\alpha) = \frac{1}{2} {||w||}^2 - \sum_{i = 1}^n {\alpha_i}{[y_i(w^Tx_i + b)- 1]}\ \ \ \ \ \ \ \ (3-2) θ(w)=maxL(w,b,αi),αi0(33)\theta(w) = max \ L(w,b,\alpha_i) , \alpha_i \ge 0\ \ \ \ \ \ \ \ (3-3)yi(wTxi+b)10y_i(w^Tx_i + b) - 1 \ge0時,有αi0\alpha_i \ge 0,此時滿足θ(w)=12w2\theta(w) = \frac{1}{2}{||w||}^2

整理一下,現在有了三類未知引數了,分別是w,b,αi\alpha_i,並且αi\alpha_i還是有範圍的,那肯定是w和b比較好求了。

根據凸函式的理論,可以直接通過梯度為0求得其全域性最優,求導吧… Lw=wi=1nαiyixi=0w=i=1nαiyixi(34)\frac{\partial L}{\partial w} = w - \sum_{i = 1}^n \alpha_i y_i x_i = 0 \Rightarrow w = \sum_{i = 1}^n \alpha_i y_i x_i \ \ \ \ \ \ \ \ (3-4) Lb=αiyi=0(35)\frac{\partial L}{\partial b} = \alpha_i y_i = 0\ \ \ \ \ \ \ \ (3-5)