機器學習筆記—svm演算法（上）

阿新 • • 發佈：2018-11-09

機器學習筆記—svm演算法（上）

一：初識svm

問題：用一條直線把下圖的圓球和五角星分離開來。

解答：有N種分法，如下圖：

SVM例圖]

附加題：找出最佳分類？

解答：如圖：

黑人問號

Exe me?鬼知道哪一條是最佳？？

等等這個最佳分類是不是等價於，地主讓管家給兩個兒子分地，是不是隻要讓兩家之間一樣多就可以了？那是不是就是那根紅線讓兩家距離之和離分界線最遠就可以了？

恭喜你，猜對了。

現在我們把問題上升到N維，就是說，我也不知道這個N維是什麼樣子，但是，我要在N維中把這兩個東東分離開來。那麼從直線ax+b就可以表示成超平面WTx+b去分開。示意圖如下：

clip_image006[4]

其中W=(W1;W2;…;Wd)為法向量，決定了這個超平面的方向，b為位移項，決定了超平面與原點之間的距離。顯然這個超平面就是被W和b確定的。那求出這個超平面這個分類模型不就建立了嗎。那就是最優化求最大間隔的問題。

說到間隔（margin）問題，我們來科普下函式間隔和幾何間隔。

1.1函式間隔（functional margin）

clip_image008[4]

假設圖中A,B,C表示三個例項，A離超平面最近，那麼預測正確的可能性就比較低，但是C離超平面H最遠，那麼預測正確的概率就比較高，B介於兩者之間。

一般來說，一個點到一個超平面的距離可以表示為這個點預測的確信程度。這就是函式間隔。

對於給定的訓練資料集T和超平面(w,b)，定義超平面關於樣本點(x_i,y_i)的函式間隔為：

函式間隔公式

1.2 幾何間隔

函式間隔可以表示預測的正確性以及確信度，但是當我們選擇最優的超平面的時候，只有函式間隔還不夠，主要按照比例改變W和b那麼超平面沒有變，但是函式間隔卻變成了原來的兩倍，我們可以對分離超平面的法向量進行約束，例如規範化，||w||=1,這樣就使得間隔是確定的，這樣函式間隔就變成了幾何間隔。
函式間隔影象
假設B在這條分割線面上，分割線外的一點，到這個平面的距離用表示，任何一個點在這個超平面分割面上都有一個投影，現在假設，A的投影就是B，那麼BA就是A到B的距離，w就是它的法向量,其中w/||w||為單位向量，假設A（xi,yi）那麼B的x座標為xi- w/||w||。把B的橫座標帶入wTX+b=0,得到：
代入B點座標

進一步化簡：

所以當||w||=1的時候，無論擴大幾倍，對距離都沒有影響，這叫做幾何距離。

1.3間隔最大化

現在我們知道分離超平面有無數個，但是幾何間隔最大化只有一個，而SVM的思想就是尋找這個能讓間隔最大化的超平面，把這個作為分類的標準。那麼這個問題就可以表示成約束最優化問題：
這裡寫圖片描述
s.t.
||w|| = 1
這裡用||w||=1 規約 w，使得 + 是幾何間隔,考慮到函式間隔和幾何間隔的關係：
所以上述公式可以改寫為：

s.t.
求上述的最大值，就等價於求||w||的最小值問題。等價於：
Min(w,b)
s.t.
好了終於到這一步了。

接下來介紹的是手工求解的方法了，一種更優的求解方法。

二：學習的對偶演算法

為了求解線性可分的支援向量機的最優化問題，將它作為原始最優化問題，應用拉格朗日對偶性，求解對偶性問題去得到原始問題，這就是線性可分支援向量機的對偶演算法。思想如圖所示：
對偶問題

我想大家一看就會明白了。。。

補充（來自維基百科）：
這裡寫圖片描述
首先，我們定義拉格朗日函式，對每一個不等式的約束條件引進拉格朗日乘子ai>=0,i=1,2,3..,N,.則函式1為：

根據拉格朗日對偶性，原始問題的對偶問題是極大極小值問題： clip_image042

那麼為了得到對偶問題的解，需要先求L(w,b,a)的極小，再求對a的極大。

2.1求min L(w,b,a)

首先對函式1 分別對w,b求偏導並令其為0.
這裡寫圖片描述

那麼：

將上述兩式帶入到函式1可得：

即：

2.2求min L(w,b,a)對a的極大，即使對偶問題

這裡寫圖片描述

這樣就可以得到與之等價的對偶最優化問題：

現在對上式中a的解為a*=( a1*, a2*,…an*)T,因為滿足KKT條件那麼就可以求得最優化問題的解w*,b*.

綜上，分類決策函式可以寫成：

以上內容來自於部落格園使用者【小花花108】，原文地址：http://www.cnblogs.com/xiaohuahua108/p/5934282.html

下篇內容：《機器學習-核函式》

機器學習筆記—svm演算法（上）

機器學習筆記—svm演算法（上）