《SVM筆記系列之六》支援向量機中的核技巧那些事兒

前言

我們在前文[1-5]中介紹了線性支援向量機的原理和推導，涉及到了軟和硬的線性支援向量機，還有相關的廣義拉格朗日乘數法和KKT條件等。然而，光靠著前面介紹的這些內容，只能夠對近似於線性可分的資料進行分割，而不能對非線性的資料進行處理，這裡我們簡單介紹下支援向量機中使用的核技巧，使用了核技巧的支援向量機就具備了分割非線性資料的能力。本篇可能是我們這個系列的最後一篇了，如果有機會我們在SMO中再會吧。

如有謬誤，請聯絡指正。轉載請註明出處。

聯絡方式：
e-mail: [email protected]
QQ

: 973926198
github: https://github.com/FesianXu

1. 重回SVM

我們在前文[1-5]中就線性SVM做了比較系統的介紹和推導，我們這裡做個簡單的小回顧。支援向量機(Support Vector Machine,SVM)，是一種基於最大間隔原則進行推匯出來的線性分類器，如果引入鬆弛項，則可以處理近似線性可分的一些資料，其最終的對偶問題的數學表達形式為(1.1)，之所以用對偶形式求解是因為可以輕鬆地引入所謂的核技巧，我們後面將會看到這個便利性。
$\begin{matrix} (1.1) \end{matrix}$

min ⁡ α 1 2

∑ i = 1 N ∑ j = 1 N α i α j y i y j ( x i ⋅ x j ) − ∑ i = 1 N α i s . t . ∑ i = 1 N α i y i = 0 α i ≥ 0 , i = 1 , ⋯   , N \min_{\alpha} \frac{1}{2}\sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_jy_iy_j(x_i \cdot x_j)- \sum_{i=1}^N\alpha_i \\ s.t. \ \sum_{i=1}^N\alpha_iy_i=0 \\ \alpha_i \geq0,i=1,\cdots,N \tag{1.1}

α min \frac{1}{2} i = 1 \sum N j = 1 \sum N α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j}) - i = 1 \sum N α_{i} s . t . i = 1 \sum N α_{i} y_{i} = 0 α_{i} \geq 0, i = 1, \dots, N (1.1)

其最終的分類超平面如(1.2):

\theta(x) = \rm{sign}(\sum_{i=1}^N \alpha^*_iy_i(x_i \cdot x)+b^*) \tag{1.2}

從KKT條件[3]中我們知道，除了支援向量SV會影響到決策面之外，其他所有的樣本都是不會對決策面產生影響的，因此只有支援向量對應的 $\alpha_i^* > 0$ ，其他所有的 $\alpha_j^*$ 都是等於0的。也就是說，我們的支援向量機只需要記住某些決定性的樣本就可以了。實際上，這種需要“記住樣本”的方法，正是一類核方法(kernel method)。這個我們後面可能會獨立一些文章進行討論，這裡我們記住，因為SVM只需要記憶很少的一部分樣本資訊，因此被稱之為稀疏核方法(Sparse Kernel Method)[6]。

2. 更進一步觀察SVM

我們這裡更進一步對SVM的對偶優化任務和決策面，也即是式子(1.1)(1.2)進行觀察，我們會發現，有一個項是相同作用的，那就是 $(x_i \cdot x_j)$ 和 $(x_i \cdot x)$ ，這兩項都是在度量兩個樣本之間的距離。我們會發現，因為點積操作
$x_i \cdot x_j = ||x_i|| \cdot ||x_j|| \cdot \cos(\theta) \tag{2.1}$
在兩個向量模長相同的情況下，可以知道這個點積的結果越大，兩個樣本之間的相似度越高，因此可以看作是一種樣本之間的度量(metric)。這個我們可以理解，SVM作為一種稀疏核方法的之前就是一個核方法，是需要紀錄訓練樣本的原始資訊的。

但是，我們注意到，我們是在原始的樣本特徵空間進行對比這個相似度的，這個很關鍵，因為在原始的樣本特徵空間裡面，樣本不一定是線性可分的，如果在這個空間裡面，線性SVM將沒法達到很好的效果。

3. 開始我們的非線性之路

那麼，我們在回顧了之前的一些東西之後，我們便可以開始我們的非線性之路了，抓好扶手吧，我們要起飛了。

3.1 高維對映

對於非線性的資料，如下圖所示，顯然我們沒法通過一個線性平面對其進行分割。
在這裡插入圖片描述
當然，那僅僅是在二維的情況下我們沒法對齊進行線性分割，誰說我們不能在更高的維度進行“維度打擊”呢？！我們不妨把整個資料上升一個維度，投射到三維空間，我們將紅色資料“拉高”，而綠色資料“留在原地”，那麼我們就有了：
在這裡插入圖片描述
發現沒有，在二維線性不可分的資料，在三維空間就變得線性可分了。這個時候我們可以紀錄下在三維情況下的決策面，然後在做個逆操作，將其投射到原先的二維空間中，那麼我們就有了:

看來這種維度打擊還真是有效！

$\nabla$ 我們其實還可以再舉個更為簡單的例子。 $\nabla$
假如我們現在有一些資料，滿足 $x_1^2+x_2^2=1$ ，是的，我們不難發現這其實就是個以原點為圓心半徑為1的圓，其引數為 $x_1$ 和 $x_2$ ，但是顯然的，這個是個非線性的關係，如果要轉換成一個線性的關係要怎麼操作呢？簡單，用 $x_3 = x_1^2$ 和 $x_4 = x_2^2$ ，我們有變形等價式 $x_3+x_4=1$ ，於是我們便有了關於 $x_3$ 和 $x_4$ 的線性關係式，其關鍵就是對映 $\phi(x)=x^2$ 。

別小看這個例子哦，這個是我們核技巧的一個關鍵的直觀想法哦。沒暈吧？讓我們繼續吧。

3.2 基函式

其實我們剛才舉得例子中的 $\phi(x) = x^2$

《SVM筆記系列之六》支援向量機中的核技巧那些事兒

《SVM筆記系列之六》支援向量機中的核技巧那些事兒

前言

1. 重回SVM

2. 更進一步觀察SVM

3. 開始我們的非線性之路

3.1 高維對映

3.2 基函式

《SVM筆記系列之六》支援向量機中的核技巧那些事兒

[SVM系列之一]白話支援向量機（SVM）

sklearn庫學習之核支援向量機

資料科學和人工智慧技術筆記十五、支援向量機

人工智障學習筆記——機器學習(4)支援向量機

周志華《Machine Learning》學習筆記（7）--支援向量機

公開課機器學習筆記（13）支援向量機三核函式

《Hands-On Machine Learning with Scikit-Learn & TensorFlow》讀書筆記第五章支援向量機

支援向量機之非線性支援向量機（四）

SVM支援向量機系列理論（六） SVM過擬合的原因和SVM模型選擇

斯坦福CS229機器學習筆記-Lecture8- SVM支援向量機之核方法 + 軟間隔 + SMO 演算法

Python3《機器學習實戰》學習筆記（九）：支援向量機實戰篇之再撕非線性SVM

Spark機器學習系列之13：支援向量機SVM

機器學習之支援向量機SVM Support Vector Machine (六) 高斯核調參

《機器學習》周志華學習筆記第六章支援向量機（課後習題）python 實現

詳解SVM系列（三）：線性可分支援向量機與硬間隔最大化

[四]機器學習之支援向量機SVM

SVM支援向量機系列理論（九）核嶺迴歸

SVM支援向量機系列理論(八) 核邏輯迴歸

SVM支援向量機系列理論（七）線性支援向量機與L2正則化 Platt模型

《SVM筆記系列之六》支援向量機中的核技巧那些事兒

《SVM筆記系列之六》支援向量機中的核技巧那些事兒

前言

1. 重回SVM

2. 更進一步觀察SVM

3. 開始我們的非線性之路

3.1 高維對映

3.2 基函式

相關推薦