1. 程式人生 > >支援向量機(SVM)回顧與擴充套件

支援向量機(SVM)回顧與擴充套件

前面的部落格中對SVM進行了細膩的理論推導。這裡,筆者想可以更進一步思考。

重溫hard-margin SVM的推導

在SVM中,樣本標籤是{1,-1},而不是經常接觸的{0,1},這樣設計是為了便於公式的推導。
w = i =

1 m α i y i x i
w = \sum_{i=1}^m \alpha_iy_ix_i ,其中m是樣本數。
在這裡插入圖片描述

Kernel Trick

將樣本x對映到新的空間 ϕ ( x ) \phi(x)

,我們在新的空間裡進行hard margin svm。推導過程不變,只需將圖片裡的x換為 ϕ ( x ) \phi(x) 即可。
f ( x ) = i = 1 m α i y i ϕ ( x i ) T ϕ ( x ) + b f(x) = \sum_{i=1}^m \alpha_iy_i\phi(x_i)^T\phi(x) + b
核函式就是
k ( x i , x ) = ϕ ( x i ) T ϕ ( x ) k(x_i,x) = \phi(x_i)^T\phi(x)

f ( x ) = i = 1 m α i y i k ( x i , x ) + b f(x) = \sum_{i=1}^m \alpha_iy_ik(x_i,x) + b

Kernal trick不侷限於SVM
any L2-regularized linear model can be kernelized!!!
並且最優 w = i = 1 m β i x i w = \sum_{i=1}^m \beta_ix_i
首先,我們需要回憶一下soft margin SVM
在這裡插入圖片描述
本質上,soft-margin SVM是帶有L2正則化的hinge loss(合頁損失)
通過KKT條件,可知soft-margin svm採用了hinge loss,仍然保持瞭解的稀疏性

SVR
帶有L2正則化的 ϵ \epsilon 不敏感損失,同樣解具有稀疏性。

在實際使用中,soft-margin SVM相比hard margin SVM使用的更多。

Kernel Logistic Regression
w = i = 1 m β i x i w = \sum_{i=1}^m \beta_ix_i 帶入損失函式中,轉為求解 β \beta 的問題
在這裡插入圖片描述
注意: 不同於SVM, kernel logistic regression的解並不稀疏,因此預測開銷很大

Kernel ridge regression:
w = i = 1 m β i x i w = \sum_{i=1}^m \beta_ix_i 帶入損失函式中,轉為求解 β \beta 的問題
同樣是解並不稀疏,預測開銷很大

Support Vector Regression(SVR):
解稀疏