支援向量機SVM 簡要推導過程

阿新 • • 發佈：2018-12-27

SVM 是一塊很大的內容，網上有寫得非常精彩的部落格。這篇部落格目的不是詳細闡述每一個理論和細節，而在於在不丟失重要推導步驟的條件下從巨集觀上把握 SVM 的思路。

1. 問題由來

SVM (支援向量機) 的主要思想是找到幾何間隔最大的超平面對資料進行正確劃分，與一般的線性分類器相比，這樣的超平面理論上對未知的新例項具有更好的分類能力。公式表示如下：

$\gamma$ : 所有點中最小的幾何間隔, 實際上就是支援向量上的點的幾何間隔

$x_i,y_i$ : 訓練樣本及對應標籤， $y_i\in \{-1,+1\}$ , 作用是將第 i 個樣本點的幾何間隔轉化為正數

公式的意思是假設每個訓練樣本點的幾何間隔至少是 $\gamma$ , 求 $\gamma$ 的最大值。

由於幾何間隔（沒帽子）和函式間隔

（有帽子）的關係是：

$\gamma = \frac{\hat{\gamma}}{||w||}$

最大化 $\gamma$ 可以固定 $\hat{\gamma}$ ,求 ||w|| 的最小值或者固定 ||w||, 求 $\hat{\gamma}$ 的最大值，一般選擇前者: 固定函式間隔為 1, 將 \gamma = 1/||w|| 帶入上式，同時為了計算方便，目標函式等價於最小化 ||w||^2 ,約束優化問題轉化為：

這是一個 QP 優化問題。

2. 對偶問題

利用拉格朗日乘子法將約束條件融入到目標函式:

SVM 的原始問題實際上是一個極小極大問題：

這個表示式有幾個變數，先從哪一個著手？答案是 $\alpha$ , 至於為什麼，實際上是根據下面這個優化函式將原始問題的約束條件——函式間隔必須不小於 1 轉化到拉格朗日乘子 $\alpha$ 向量上去的，先看函式的後面一部分：

很容易可以看出，如果樣本點 xi 滿足約束條件，即有 $y_i(w^Tx_i+b)-1\ge 0$ , 上式求最大，必定有 $\alpha_i(y_i(w^Tx_i+b)-1)=0$ , alpha 與後面括號裡面的式子必有一個為 0 (VI) 所有的樣本點都滿足約束條件，極小極大問題就轉化為 $\min_{w,b}{\frac{1}{2}\| w\| ^2}$ , 如果有一個樣本點不滿足約束條件，alpha 值取無窮大，上式將取無窮大，顯然是沒有意義的。實際上，這段論述就說明了原始問題具有 KKT 強對偶條件，對於原始問題來說需要滿足的 KKT 條件有哪些呢？