前言

由上節，線性可分SVM的學習模型為
$\begin{aligned} \min_{\bm\omega, b} &\quad\frac{1}{2}||\bm\omega||^2\\ \text{s.t.} &\quad 1-y_i(\bm\omega\cdot\bm x_i + b) \leq 0 \end{aligned}$

對於不可分資料集（少量資料不可分），由於約束條件不再成立，不能使用以上線性可分SVM的模型。為此，引入鬆弛變數 $ξ$

i≥0\xi_i\geq 0

ξ_{i} \geq 0

，使得加上鬆弛變數後的函式間隔不小於1，從而建立起線性不可分資料集的學習模型。

本節主要介紹線性不可分資料集的模型建立、求解，以及等價形式。

基於軟間隔最大化的線性SVM

模型描述

線性不可分資料集 $T=\{(\bm x_1,y_1), \cdots, (\bm x_N, y_N)\}$ ，例項特徵向量 $\bm x_i \in \mathcal{X}=\R^n$ ，例項類別 $y_i \in \mathcal{Y}=\{+1, -1\}$

y_{i} \in Y = {+ 1, - 1}

。通常情況下，資料集中僅有少部分特異點，去除特異點的資料集線性可分。

模型建立

軟間隔與正則化

軟間隔 指允許某些樣本的函式間隔小於1（下式第一項）；正則化 指使不滿足約束的樣本儘可能少（下式第二項），即
$\min\limits_{\bm\omega, b}\quad\frac{1}{2}||\bm\omega||^2+C\sum\limits_{i=1}^N\ell_{0/1}(y_i(\bm\omega\cdot\bm x_i + b) - 1)$

ℓ0/1(yi(ω⋅xi+b)−1)

式中 $\ell_{0/1}$ 為0/1損失函式，即當樣本分類正確，值為0；當樣本分類錯誤，值為1。 $C$ 為大於0的懲罰引數，即當 $C$ 趨於無窮時，迫使所有樣本均滿足約束；取有限值時，允許一些樣本不滿足約束。

函式 $\ell_{0/1}$ 非連續可導，不利用優化求解。常用的替代損失函式有合頁損失、指數損失以及對率損失，即
$\ell_\text{hinge}(z)=\max(0,1-z), \quad\ell_\text{exp}(z)=exp(-z),\quad\ell_\text{log}(z)=\log(1+\exp(-z))$

三種替代損失函式的曲線：

圖1 三種常見的替代損失函式：合頁損失、指數損失、對率損失

若採用 合頁損失 $\ell_\text{hinge}(y_i(\bm\omega\cdot\bm x_i + b)$ ，即函式間隔大於1時無損失、小於1時有損失，得軟間隔優化問題
$\min\limits_{\bm\omega, b}\quad\frac{1}{2}||\bm\omega||^2+C\sum\limits_{i=1}^N\max(0, 1-y_i(\bm\omega\cdot\bm x_i+b))$

引入鬆弛變數
$\xi_i=\max(0, 1-y_i(\bm\omega\cdot\bm x_i+b))$
則當 $\xi_i\gt0$ ， $\xi_i = 1 - y_i(\bm\omega\cdot\bm x_i+b)$ ；當 $\xi_i=0$ ， $y_i(\bm\omega\cdot\bm x_i+b)\geq1$ ，即 $y_i(\bm\omega \cdot \bm x_i + b) \geq 1-\xi_i$ 始終成立，得優化問題變式
$\begin{aligned} \min_{\bm\omega, b} &\quad\frac{1}{2}||\bm\omega||^2 + C\sum\limits_{i=1}^N\xi_i\\ \text{s.t.} &\quad y_i(\bm\omega \cdot \bm x_i + b) \geq 1-\xi_i \\ &\quad \xi_i \geq 0 \end{aligned}$

解約束方程得 $(\bm\omega^*,b^*)$ ，求得分離超平面 $\bm\omega^*\cdot\bm x+b^*=\bm0$ ，決策函式 $f(\bm x)=\text{sign}(\bm\omega^*\cdot \bm x+b^*)$ 。

邏輯迴歸與線性SVM

若使用對率機率損失替代0/1損失，則軟間隔優化問題
$\min\limits_{\bm\omega, b}\quad\frac{1}{2}||\bm\omega||^2+C\sum\limits_{i=1}^N\log(1+\exp(1-y_i(\bm\omega\cdot\bm x_i+b)))$

可見上述軟間隔SVM與邏輯迴歸（使用L2正則化）優化目標相近，通常效能也基本一致。對率迴歸的輸出具有自然的概率意義，而SVM不做處理時，輸出不具有概率意義。此外對率迴歸能直接用於多分類，SVM需加以推廣。由於合頁損失函式有平坦的零區域，使得 支援向量機的解具有稀疏性，具有支援向量的概念，計算開銷較小。

更一般的損失替代形式為
$\min_{f}\quad \Omega(f)+C\sum_{i=1}^m\ell(f(\bm x_i), y_i)$

支援向量機SVM（二）：基於軟間隔最大化的線性SVM

前言

基於軟間隔最大化的線性SVM

模型描述

模型建立

軟間隔與正則化

邏輯迴歸與線性SVM

支援向量機SVM（二）：基於軟間隔最大化的線性SVM

支援向量機SVM（三）：基於核函式的非線性SVM

資料探勘十大演算法——支援向量機SVM（二）：線性支援向量機的軟間隔最大化模型

opencv 視覺項目學習筆記（二）：基於 svm 和 knn 車牌識別

支援向量機學習（一）·統計學習方法

opencv 視覺專案學習筆記（二）：基於 svm 和 knn 車牌識別

機器學習---支援向量機實戰（四）核函式實現

linux基礎篇（二）：基於Redhat7系統的特殊許可權與acl許可權列表

Spring Cloud Config（二）：基於Git搭建配置中心

移動推薦演算法（二）：基於簡單規則的預測

基於內容推薦的個性化新聞閱讀實現（二）：基於SVD的推薦演算法

數字訊號處理實驗（二）：離散時間訊號和線性時不變離散時間系統的頻域分析

支援向量機（support vector machine）（二）：線性SVM

TensorFlow深度學習框架學習（二）：TensorFlow實現線性支援向量機（SVM）

資料探勘十大演算法——支援向量機SVM（一）：線性支援向量機

資料探勘十大演算法——支援向量機SVM（四）：SMO演算法原理

資料探勘十大演算法——支援向量機SVM（五）：線性支援迴歸

支援向量機學習筆記（二）：線性支援向量機

機器學習（7）——支援向量機（二）：線性可分支援向量機到非線性支援向量機

機器學習與深度學習系列連載：第一部分機器學習（九）支援向量機2（Support Vector Machine）

支援向量機SVM（二）：基於軟間隔最大化的線性SVM

前言

基於軟間隔最大化的線性SVM

模型描述

模型建立

軟間隔與正則化

邏輯迴歸與線性SVM

相關推薦