詳解SVM系列(五):非線性支援向量機與核函式
對解線性分類問題,線性分類支援向量機是一種有效的方法。但是,有時分類問題是非線性的,這時可以使用非線性支援向量機。
核技巧
**非線性分類問題:**如上面左圖所示,能用
中的一個超曲面將正負例項分開,則稱這個問題為非線性可分問題。
非線性問題不好求解,想辦法轉換成線性問題。
通過進行一個非線性變換(線性變換無法改變資料集的線性可分與不可分性),將非線性問題轉換為線性問題,通過解變換後的線性問題的方法求解原來的非線性問題。(如上圖所示)
用線性分類方法求解非線性分類問題分為兩步:
1):首先使用一個非線性變換,將原空間的資料對映到新的空間
2):然後在新空間裡用線性分類學習方法從該訓練資料集中學習分類模型。
核技巧就屬於這樣的方法。
要搞明白核技巧是怎麼回事,我們先來看一下核函式的定義:
李航在統計學習方法中的定義是:有一個輸入空間
是歐式空間
的子集,又有一個特徵空間
,是希爾伯特空間,如果存在一個從
到
的對映
,使得對所有的
,函式
則稱
為核函式,
為對映函式,式中
為
和
的內積。
核技巧的想法是:在學習與預測中只定義核函式
,而不顯式定義對映函式
。
(因為在求解非線性可分問題時,其目標函式形式是
,在這個目標函式裡面,只有x內積的形式,這就是為什麼核函式要定義成對映的內積的形式了)
為什麼之定義核函式,而不顯式的定義對映函式?
1)要求解的目標函式裡面是輸入例項
與
的內積形式,而核函式的定義形式就是將原始輸入空間的例項對映到高緯的特徵空間後的例項的內積。所以可以直接定義核函式不用定義對映函式。
2)對映後的特徵空間一般是高維的,在其空間內求內積不太容易。並且對於給定的核函式
,特徵空間與對映函式的取法並不唯一。
核技巧在支援向量機中的應用
線上性支援向量機的對偶問題中,無論是目標函式還是決策函式(分離超平面)都只涉及輸入例項與例項之間的內積。
在對偶問題的目標函式中的內積
可以用核函式
來代替。此時對偶問題的目標函式成為:
同樣分類決策函式中的內積也可以用核函式代替,而分類決策函式式成為:
這等價於經過對映函式