SVM——傳說中的核技巧
(1)線性可分(硬間隔)
(2)線性不可分,但大致可分(軟間隔)
(3)線性不可分,最優超平面誤差極大,如異或問題區分{(0,0),(1,1)}和{(0,1),(1,0)}這兩類,超平面無最優解,至少都有50%的誤差,於是就要用到傳說中的核函式(核技巧)
這篇文章將通過簡單的例子,解釋下這傳說中的核技巧思想。其實說到底,SVM是資料探勘中較為高效的二分類演算法,但是如果遇到了線性不可分的情況(異或問題),SVM仍然想完成線性可分,那麼在原來的樣本空間內顯然無法完成,但根據Cover模式可分性定理——指不定把樣本對映到一個更高維的空間就可以實現線性可分了,於是核技巧應運而生!即通過核函式將原來的m
假設存線上性不可分的N個m0維的向量 x1,...,xN,分為C1和C2兩類,於是可通過這樣一組函式(輸入為向量,輸出為一實數):φ1(x),φ2(x),...,φm1(x) 是是,就可以將m0維的樣本轉換為m1維向量,即令m1維ϕ=[φ1(x),φ2(x),⋯,φm1(x)]T,而向量ϕ 可被認為是被對映到高維空間之後的輸入資料x。φi(x)稱為隱藏函式,其組成的向量ϕ所在的空間稱為隱藏空間或特徵空間。
如果樣本在m1維空間裡的對映恰巧線性可分,那麼問題便簡化為一個硬間隔線性可分問題。所以說白了,傳說中的核技巧就是對初始樣本進行非線性變換
異或問題,將點(0,0)和(1,1)歸於類A,點(0,1)和點(1,0)歸於類B。我們可以通過這樣一組變換函式:
φ1(x)=exp(−∥x−t1∥2)
φ2(x)=exp(−∥x−t2∥2)
是啥
這就是高斯隱藏函式,雖然只有兩個隱藏函式,所以對應的高維空間也只有二維,但是已經可以實現線性可分。其中t1=(1,1),t2=(0,0);也就是將樣本點x與點(1,1)和點(0,0)的距離作為函式變數。轉換之後結果如下,顯然已經線性可分。
轉換前 | 轉換後 |
(0,0) | (0.1353,1.000) |
(0,1) | (0.3678,0.3678) |
(1,0) | (0.3678,0.3678) |
(1,1) | (1.000,0.1353) |
是的是也
即是啥