1. 程式人生 > >機器學習筆記—svm演算法(上)

機器學習筆記—svm演算法(上)

機器學習筆記—svm演算法(上)

一:初識svm

問題:用一條直線把下圖的圓球和五角星分離開來。

解答:有N種分法,如下圖:

SVM例圖]

附加題:找出最佳分類?

解答:如圖:

黑人問號

Exe me?鬼知道哪一條是最佳??

等等這個最佳分類是不是等價於,地主讓管家給兩個兒子分地,是不是隻要讓兩家之間一樣多就可以了?那是不是就是那根紅線讓兩家距離之和離分界線最遠就可以了?

恭喜你,猜對了。

現在我們把問題上升到N維,就是說,我也不知道這個N維是什麼樣子,但是,我要在N維中把這兩個東東分離開來。那麼從直線ax+b就可以表示成超平面WTx+b去分開。示意圖如下:

clip_image006[4]

其中W=(W1;W2;…;Wd)為法向量,決定了這個超平面的方向,b為位移項,決定了超平面與原點之間的距離。顯然這個超平面就是被W和b確定的。那求出這個超平面這個分類模型不就建立了嗎。那就是最優化求最大間隔的問題。

說到間隔(margin)問題,我們來科普下函式間隔和幾何間隔。

1.1函式間隔(functional margin)

clip_image008[4]

假設圖中A,B,C表示三個例項,A離超平面最近,那麼預測正確的可能性就比較低,但是C離超平面H最遠,那麼預測正確的概率就比較高,B介於兩者之間。

一般來說,一個點到一個超平面的距離可以表示為這個點預測的確信程度。這就是函式間隔。

對於給定的訓練資料集T和超平面(w,b),定義超平面關於樣本點(x_i,y_i)的函式間隔為:

函式間隔公式

1.2 幾何間隔

函式間隔可以表示預測的正確性以及確信度,但是當我們選擇最優的超平面的時候,只有函式間隔還不夠,主要按照比例改變W和b那麼超平面沒有變,但是函式間隔卻變成了原來的兩倍,我們可以對分離超平面的法向量進行約束,例如規範化,||w||=1,這樣就使得間隔是確定的,這樣函式間隔就變成了幾何間隔。
函式間隔影象
假設B在這條分割線面上,分割線外的一點,到這個平面的距離用γ2表示,任何一個點在這個超平面分割面上都有一個投影,現在假設,A的投影就是B,那麼BA就是A到B的距離,w就是它的法向量,其中w/||w||為單位向量,假設A(xi,yi)那麼B的x座標為xi- γ2w/||w||。把B的橫座標帶入wTX+b=0,得到:
代入B點座標


進一步化簡:
化簡
所以當||w||=1的時候,無論擴大幾倍,對距離都沒有影響,這叫做幾何距離。

1.3間隔最大化

現在我們知道分離超平面有無數個,但是幾何間隔最大化只有一個,而SVM的思想就是尋找這個能讓間隔最大化的超平面,把這個作為分類的標準。那麼這個問題就可以表示成約束最優化問題:
這裡寫圖片描述這裡寫圖片描述
s.t. 這裡寫圖片描述
||w|| = 1
這裡用||w||=1 規約 w,使得 + 是幾何間隔,考慮到函式間隔和幾何間隔的關係:這裡寫圖片描述
所以上述公式可以改寫為:
這裡寫圖片描述這裡寫圖片描述
s.t. 這裡寫圖片描述
求上述的最大值,就等價於求||w||的最小值問題。等價於:
Min(w,b)這裡寫圖片描述
s.t. 這裡寫圖片描述
好了終於到這一步了。

接下來介紹的是手工求解的方法了,一種更優的求解方法。

二:學習的對偶演算法

為了求解線性可分的支援向量機的最優化問題,將它作為原始最優化問題,應用拉格朗日對偶性,求解對偶性問題去得到原始問題,這就是線性可分支援向量機的對偶演算法。思想如圖所示:
對偶問題

我想大家一看就會明白了。。。

補充(來自維基百科):
這裡寫圖片描述
首先,我們定義拉格朗日函式,對每一個不等式的約束條件引進拉格朗日乘子ai>=0,i=1,2,3..,N,.則函式1為:
這裡寫圖片描述
根據拉格朗日對偶性,原始問題的對偶問題是極大極小值問題:clip_image042

那麼為了得到對偶問題的解,需要先求L(w,b,a)的極小,再求對a的極大。

2.1求min L(w,b,a)

首先對函式1 分別對w,b求偏導並令其為0.
這裡寫圖片描述
這裡寫圖片描述
那麼:這裡寫圖片描述
這裡寫圖片描述
將上述兩式帶入到函式1可得:
這裡寫圖片描述
這裡寫圖片描述
即:
這裡寫圖片描述

2.2求min L(w,b,a)對a的極大,即使對偶問題

這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述
這樣就可以得到與之等價的對偶最優化問題:
這裡寫圖片描述
這裡寫圖片描述
這裡寫圖片描述
現在對上式中a的解為a*=( a1*, a2*,…an*)T,因為滿足KKT條件那麼就可以求得最優化問題的解w*,b*.
這裡寫圖片描述
這裡寫圖片描述
綜上,分類決策函式可以寫成:
這裡寫圖片描述
以上內容來自於部落格園使用者【小花花108】,原文地址:http://www.cnblogs.com/xiaohuahua108/p/5934282.html

下篇內容:《機器學習-核函式