1. 程式人生 > >機器學習技法筆記--- Linear SVM

機器學習技法筆記--- Linear SVM

1)引入

線性可分的情況下,下面哪條線(或者哪個面)算是最好的?


2)為什麼選擇的超平面(線)Hyperplane要離Xn最遠?

因為如果未來的資料X ≈ 已測的資料Xn(也就是看做有一些測量誤差noise),那麼一旦超平面過近,就有可能導致分類錯誤

超平面越遠,所容忍的噪聲越多(噪聲是導致過擬合的原因之一)

3)怎樣的Hyperplane才算是最遠?

可以看成把一根線不斷地往兩邊加粗,直到某一邊觸及到資料點,我們要找的就是最粗的一條線

fat: far from both sides of examples.       fatness: distance to closest Xn

4)用公式來表示largest-margin separating Hyperplane

W代表一個Hyperplane的引數,直接看成一個Hyperplane也行

        yn是實際類別,WTXn是預測類別。兩者乘積大於0代表要保證分類正確

        margin是尋找超平面與最近的點的距離

5)承接上面,那distance怎麼求呢?

     5.1)我們再把W拆成兩部分,一部分叫b=w0;另一部分是剩下的,仍然叫W

於是Hyperplane就是WTx + b = 0。。。

距離就是     

點到平面的距離,不會請百度

5.2)那距離有個絕對值,不好算,那怎麼去掉它呢,我們想到yn與WTx+b同號,於是


5.3)原始的式子就轉換成如下的式子了:


6)放縮

6.1)超平面WTx + b = 0 和 3WTx + 3b = 0是同一個。

於是我們不斷地放縮w和b,使得:


6.2)於是原來的式子又進一步轉化為下面的式子:


6.3)再變一下形,就成了極小凸二次規劃問題,可以用拉格朗日對偶法求解