1. 程式人生 > >SVM——傳說中的核技巧

SVM——傳說中的核技巧

SVM說白了,就分三種應用方式:

    (1)線性可分(硬間隔)

    (2)線性不可分,但大致可分(軟間隔)

    (3)線性不可分,最優超平面誤差極大,如異或問題區分{(0,0),(1,1)}和{(0,1),(1,0)}這兩類,超平面無最優解,至少都有50%的誤差,於是就要用到傳說中的核函式(核技巧)

       這篇文章將通過簡單的例子,解釋下這傳說中的核技巧思想。其實說到底,SVM是資料探勘中較為高效的二分類演算法,但是如果遇到了線性不可分的情況(異或問題),SVM仍然想完成線性可分,那麼在原來的樣本空間內顯然無法完成,但根據Cover模式可分性定理——指不定把樣本對映到一個更高維的空間就可以實現線性可分了,於是核技巧應運而生!即通過核函式將原來的m

0維的樣本轉換到另一個m1維空間(m1>=m0):

        假設存線上性不可分的N個m0維的向量   x1,...,xN,分為C1和C2兩類,於是可通過這樣一組函式(輸入為向量,輸出為一實數):φ1(x),φ2(x),...,φm1(x) 是是,就可以將m0維的樣本轉換為m1維向量,即令m1ϕ=[φ1(x),φ2(x),,φm1(x)]T,而向量ϕ 可被認為是被對映到高維空間之後的輸入資料xφi(x)稱為隱藏函式,其組成的向量ϕ所在的空間稱為隱藏空間或特徵空間。

        如果樣本在m1維空間裡的對映恰巧線性可分,那麼問題便簡化為一個硬間隔線性可分問題。所以說白了,傳說中的核技巧就是對初始樣本進行非線性變換

,在另一個高維空間找到最優超平面完成對樣本對映的二分類,而那個高維空間的最優超平面映射回初始樣本空間就變成了一個最優超曲面。下面舉個簡單的例子:

       異或問題,將點(0,0)和(1,1)歸於類A,點(0,1)和點(1,0)歸於類B。我們可以通過這樣一組變換函式:

                                            φ1(x)=exp(xt12)

                                            φ2(x)=exp(xt22)

        是啥

這就是高斯隱藏函式,雖然只有兩個隱藏函式,所以對應的高維空間也只有二維,但是已經可以實現線性可分。其中t1=(1,1),t2=(0,0);也就是將樣本點x與點(1,1)和點(0,0)的距離作為函式變數。轉換之後結果如下,顯然已經線性可分。

轉換前轉換後
(0,0)(0.1353,1.000)
(0,1)(0.3678,0.3678)
(1,0)(0.3678,0.3678)
(1,1)(1.000,0.1353)

是的是也

即是啥