NG機器學習總結-（七）SVM支援向量機

阿新 • • 發佈：2018-12-15

一、損失函式

在邏輯迴歸中，我們的預測函式和損失函式為：

預測函式：

$h_{\theta}(x)=\frac{1}{1+e^{-\theta^{T}x}}$

損失函式：

$cost=-ylogh_{\theta}(x)+(1-y)log(1-h_{\theta}(x))$

我們知道當y分別是1和0的時候，其cost函式如下黑色曲線部分：

不難看出，當 y=1時，隨著 z 取值變大，預測損失變小，因此，邏輯迴歸想要在面對正樣本 y=1時，獲得足夠高的預測精度，就希望 $z=\theta^{T}x\gg 0$ 。而 SVM 則將上圖的曲線拉直為圖中的折線，構成了 y=1時的代價函式曲線 $cost_{1}(z)$ ，如上圖的藍色直線部分，因此當y=1的時候，為了預測精度足夠高，SVM希望 $\theta^{T}x\geq 1$ 。同樣的，在y=0的時候，為了預測精度足夠高，SVM希望 $\theta^{T}x\leq -1$ 。

我們知道，在邏輯迴歸中，加上正則化項後的損失函式為：

$min-\frac{1}{m}[\sum_{i=1}^{m}y^{(i)}logh_{\theta}(x^{(i)})+(1-y^{(i)})log(1-h_{\theta}(x^{(i)}))]+\frac{\lambda }{2m}\sum_{j=1}^{n}\theta_{j}^{2}$

而SVM定義其損失函式為：

$minC[\sum_{i=1}^{m}y^{(i)}cost_{1}(\theta^{T}x^{(i)})+(1-y^{(i)})cost_{0}(\theta^{T}x^{(i)})]+\frac{1}{2}\sum_{j=1}^{n}\theta_{j}^{2}$

事實上，我們可以將邏輯迴歸的損失函式簡要描述為：

$cost=A+\lambda B$

而SVM的損失函式描述為：

$cost=CA+ B$

即，在邏輯迴歸中，我們通過正規化引數 λ調節 A、B 所佔的權重，且 A 的權重與 λ 取值成反比。而在 SVM 中，則通過引數 C調節 A、B 所佔的權重，且 A的權重與 C 的取值成反比。亦即，引數 C 可以被認為是扮演了 1\λ 的角色。

二、大間距分類器

上一節中，SVM的最小損失函式的過程為：

$minC[\sum_{i=1}^{m}y^{(i)}cost_{1}(\theta^{T}x^{(i)})+(1-y^{(i)})cost_{0}(\theta^{T}x^{(i)})]+\frac{1}{2}\sum_{j=1}^{n}\theta_{j}^{2}$

並且，C取值很大，當 $y^{(i)}=1$ 的時候，SVM希望 $\theta^{T}x^{(i)}\geq 1$ ；而當 $y^{(i)}=0$ 的時候，SVM希望 $\theta^{T}x^{(i)}\leq -1$ 。因此上述最小化損失函式又可以描述為：

$min \frac{1}{2}\sum_{j=1}^{n}\theta_{j}^{2} \\ \begin{align*} s.t.\quad\theta^{T}x^{(i)}\geq 1 \quad if \quad y^{(i)}=1\\ \theta^{T}x^{(i)}\leq -1 \quad if \quad y^{(i)}=0 \end{align*}$

SVM 最終找出的決策邊界會是下圖中三條平行的藍色直線所示的決策邊界，而不是另外兩條的決策邊界。該決策邊界保持了與正、負樣本都足夠大的距離，因此，SVM 是典型的大間距分類器（Large margin classifier）。

為什麼求解SVM的最小損失函式就能得到最大化間距呢？這裡面有一個有關向量內積的知識點。

假設我們現在又兩個二維的向量：

$u=\begin{bmatrix} u_{1}\\ u_{2} \end{bmatrix}$ $v=\begin{bmatrix} v_{1}\\ v_{2} \end{bmatrix}$

令p為v投影到u的線段長，如下圖所示：

則u，v的內積為：

$u^{T}v=p\cdot ||u||=u_{1}v_{1}+u_{2}v_{2}$

其中，||u||為u的範數，也就是向量u的長度。

假定我們的 $\theta=\begin{pmatrix} \theta_{1}\\ \theta_{2} \end{pmatrix}$ ，則有：

$min\frac{1}{2}\sum_{j=1}^{2}\theta_{j}^{2}=min\frac{1}{2}||\theta||^{2}$

由向量內積公式可得：

$\theta^{T}x^{(i)}=p^{(i)}\cdot ||\theta||$

其中， $p^{(i)}$ 為特徵向量 $x^{(i)}$ 在 $\theta$ 上的投影：

當 $y^{(i)}=1$ 時，我們希望 $\theta^{T}x^{(i)}\geq 1$ ，就是希望 $p^{(i)}\cdot ||\theta||\geq 1$ ，此時考慮兩種情況：

（1）當 $p^{(i)}$ 很小，則需要 $||\theta||$ 很大，這與 $min\frac{1}{2}||\theta||^{2}$ 矛盾。

（2）當 $p^{(i)}$ 很大，則需要 $||\theta||$ 很小，如下圖所示，即樣本與決策邊界的距離足夠大，此時我們才能在既要 $||\theta||$ 足夠小的情況下，又能有 $\theta^{T}x^{(i)}\geq 1$ ，保證預測精度夠高。這就解釋了為什麼 SVM 的模型會具有大間距分類器的性質了。

三、核函式

以上是資料線性可分的情況，然而真實情況下，很多時候資料都不是線性可分的。在邏輯迴歸中，我們會通過擴充套件多項式來處理非線性可分的問題：

$h_{\theta}(x)=\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}+\theta_{3}x_{1}x_{2}+\theta_{4}x_{1}^{2}+\theta_{5}x_{2}^{2}+...$

假設我們令：

$f_{1}=x_{1},f_{2}=x_{2},f_{3}=x_{1}x_{2},f_{4}=x_{1}^{2},f_{5}=x_{2}^{2}...$

預測函式為：

$h_{\theta}(x)=\theta_{0}+\theta_{1}f_{1}+\theta_{2}f_{2}+\theta_{3}f_{3}+\theta_{4}f_{4}+\theta_{5}f_{5}+...$