機器學習技法筆記--- Linear SVM
阿新 • • 發佈:2019-01-23
1)引入
線性可分的情況下,下面哪條線(或者哪個面)算是最好的?
2)為什麼選擇的超平面(線)Hyperplane要離Xn最遠?
因為如果未來的資料X ≈ 已測的資料Xn(也就是看做有一些測量誤差noise),那麼一旦超平面過近,就有可能導致分類錯誤
超平面越遠,所容忍的噪聲越多(噪聲是導致過擬合的原因之一)
3)怎樣的Hyperplane才算是最遠?
可以看成把一根線不斷地往兩邊加粗,直到某一邊觸及到資料點,我們要找的就是最粗的一條線
fat: far from both sides of examples. fatness: distance to closest Xn
4)用公式來表示largest-margin separating Hyperplane
W代表一個Hyperplane的引數,直接看成一個Hyperplane也行
yn是實際類別,WTXn是預測類別。兩者乘積大於0代表要保證分類正確
margin是尋找超平面與最近的點的距離
5)承接上面,那distance怎麼求呢?
5.1)我們再把W拆成兩部分,一部分叫b=w0;另一部分是剩下的,仍然叫W
於是Hyperplane就是WTx + b = 0。。。
距離就是
點到平面的距離,不會請百度
5.2)那距離有個絕對值,不好算,那怎麼去掉它呢,我們想到yn與WTx+b同號,於是
5.3)原始的式子就轉換成如下的式子了:
6)放縮
6.1)超平面WTx + b = 0 和 3WTx + 3b = 0是同一個。
於是我們不斷地放縮w和b,使得:
6.2)於是原來的式子又進一步轉化為下面的式子:
6.3)再變一下形,就成了極小凸二次規劃問題,可以用拉格朗日對偶法求解