軟間隔

在建立SVM模型時，假定正負樣本是線性可分的。但是，實際有些時候，樣本不是完全線性可分的，會出現交錯的情況，例如下圖。

這時，如果採用以下模型

$m i n_{w, b} {\frac{1}{2} ‖ w ‖_{2}^{2}}, s u b j e c t t o y_{i} (w^{T} x_{i} + b) \geq 1$

w , b { 1 2 ‖ w ‖ 2 2

} , s u b j e c t t o y i

( w T x i + b ) ≥ 1 $min_{w,b}\{\dfrac{1}{2}\|w\|_2^2\},\\ subject\ to\quad y_i(w^Tx_i+b)\ge1$

可能就沒有可行解。針對這種情況，允許某些樣本不滿足約束 $y_i(w^Tx_i+b)\ge 1$ , 但是在最大化間隔的同時，不滿足約束的樣本應儘可能少，優化目標可以寫為：

$min_{w,b}\dfrac{1}{2}\|w\|^2+C\sum_{i=1}^{m}l_{0/1}(y_i(w^Tx_i+b)-1)\quad \tag{4-1}$

其中 $l_{0/1}$ 是0/1損失函式，

L_{0 / 1} (z) = {\begin{cases} 1 & if z<0 \\ 0 & otherwise \end{cases}

$L_{0/1}(z)= \begin{cases} 1 &\mbox{if z<0}\\ 0 &\mbox{otherwise} \end{cases}$
從(4-1)可以看到，當C為無窮大時，所有樣本必須滿足約束

y_{i} (w^{T} x_{i} + b) \geq 1

$y_i(w^Tx_i+b)\ge 1$ 才可行。當C取有限值時，允許一些樣本不滿足約束。

$l_{0/1}$ 非凸非連續，數學性質不好，因此常用其他函式替代，稱為替代損失函式（surrogate loss function）。一些常用的替代損失函式有：

hinge損失： $l_{hinge}(z)=max(0,1-z)$

指數損失exponential loss： $l_{exp}(z)=exp(-z)$

對率損失 logistic loss: $l_{log}(z)=log(1+exp(-z))$

如果採用hinge損失，則（4-1）變為：

$min_{w,b}\dfrac{1}{2}\|w\|^2+C\sum_{i=1}^{m}max(0,1-y_i(w^Tx_i+b))\quad \tag{4-2}$

引入鬆弛變數 $\xi_i$ (也叫容忍度)，C為引數，需要根據經驗調整。可以得到

\begin{matrix} (4-3) & \begin{aligned} (4) & m i n_{w, b} & {\frac{1}{2} ‖ w ‖_{2}^{2} + C \sum_{i = 1}^{N} ξ_{i}}, \\ (5) & s u b j e c t t o & y_{i} (w^{T} x_{i} + b) \geq 1 - ξ_{i}; i = 1, . . ., N \\ (6) & ξ_{i} \geq 0 \end{aligned} \end{matrix}

SVM拓展和SVR支援向量迴歸