詳解SVM系列（六）：深入解析序列最小最優化SMO演算法一

阿新 • • 發佈：2018-12-30

SMO演算法是幹啥的

首先要先搞明白一個基本的問題： SMO演算法是幹啥的？
通過前面的介紹，我們現在掌握了線性不可分支援向量機。其形式為如下的凸二次規劃：
$m i n \frac{1}{2} \sum$

i = 1 N ∑ J =

1 N α i α j y

i y j K ( x i x j ) − ∑ i = 1 N α i min\frac{1}{2}\displaystyle\sum_{i=1}^{N}\displaystyle\sum_{J=1}^{N}α_iα_jy_iy_jK(x_ix_j)-\displaystyle\sum_{i=1}^{N}α_i

m i n \frac{1}{2} i = 1 \sum N J = 1 \sum N α_{i} α_{j} y_{i} y_{j} K (x_{i} x_{j}) - i = 1 \sum N α_{i}

s.t.\displaystyle\sum_{i=1}^{N}α_iy_i=0

0≤α_i≤C

但是到現在為止，都沒有講解到底如何求解其中的引數

α

(通過對偶形式求解，

α

是拉格朗日乘子)
如果我們找到了一個

α

向量，

α=（α_1,α_1,……α_N）

是最優解，就可以利用KKT條件來計算出原問題的最優解

(w,b)

w=\displaystyle\sum_{i=1}^{N}α_iy_ix_i

取一個

α_i &gt;0,b=y_i-w^Tx_i

就可以得到分離超平面。

那麼問題來了，針對一個這樣的凸二次規劃問題，如何求解？難點在哪？
現有的求解凸二次規劃問題的演算法，都有一個瓶頸，那就是當訓練樣本的容量非常大時，演算法往往變的比較低效，甚至無法求解。

SMO演算法是如何求解這個凸二次規劃問題的呢？它沒有想著怎麼去直接讓目標函式變小，而是採用一個啟發式演算法，想著法的讓這些 $α$ 變數滿足KKT條件。因為KKT條件是該最優化問題的充分必要條件。
具體怎麼優化 $α$ ？在優化的過程中需要遵循2個基本原則：
1）每次優化時，必須同時優化 $α=（α_1,α_2,……α_N）$ 的兩個分量，因為只優化一個分量的話，新的 $α$ 向量就不再滿足KKT條件裡面的初始限制條件中的等式約束了（ $s.t.\displaystyle\sum_{i=1}^{N}α_iy_i=0$ ）
2）每次優化的兩個分量應當是違反KKT條件比較多的，還有一個重要的考量，就是經過一次優化後，兩個分量要有儘可能多的改變，這樣才能用盡可能少的迭代優化次數讓它們得到最優解。

SMO演算法是一種啟發式演算法，其基本思路是：
1）如果 $α=（α_1,α_2,……α_N）$ 的每一個分量都滿足該二次規劃的KKT條件，那麼這個最優化問題的解就得到了。（因為KKT條件是該最優化問題的充分必要條件）
2）否則，一次選擇兩個變數，固定其他變數，針對這兩個變數構建一個二次規劃問題。這個二次規劃問題關於這兩個變數的解應該更接近原始二次規劃問題的解，因為這會使得原始二次規劃問題的目標函式值變的更小。更重要的是，這時子問題可以通過解析方法求解，這樣就可以大大提高整個演算法的計算速度。
3）子問題有兩個變數，一個是違反KKT條件最嚴重的那一個（怎麼衡量嚴重性？），另一個由約束條件自動確定（沒那麼簡單）。，如此SMO演算法不斷將原問題分解為子問題並對子問題求解，進而得到求解原問題的目的。

兩個變數的二次規劃求解方法

先不考慮具體如何選擇兩個變數 $α_1,α_2$ ,我們先來看下如何求解二次規劃問題。
不失一般性，假設選擇的兩個變數時 $α_1,α_2$ ，其他變數 $α_i(i=3,4,……N)$ 是固定的。於是SMO的最優化問題：
$min\frac{1}{2}\displaystyle\sum_{i=1}^{N}\displaystyle\sum_{J=1}^{N}α_iα_jy_iy_jK(x_ix_j)-\displaystyle\sum_{i=1}^{N}α_i$

詳解SVM系列（六）：深入解析序列最小最優化SMO演算法一

SMO演算法是幹啥的

兩個變數的二次規劃求解方法

詳解SVM系列（六）：深入解析序列最小最優化SMO演算法一

詳解SVM系列（二）：拉格朗日對偶性

詳解SVM系列（三）：線性可分支援向量機與硬間隔最大化

詳解SVM系列（五）：非線性支援向量機與核函式

詳解SVM系列（四）：線性支援向量機與軟間隔最大化

詳解SVM系列（一）：感知機

物聯網平臺構架系列（六）：Amazon, Microsoft, IBM IoT 解決方案導論之結語

Scala入門系列（六）：面向對象之object

詳解YUV系列（二）--YUV422

詳解YUV系列（三）----YUV420

STM32開發筆記52：STM32F4+DP83848乙太網通訊指南系列（六）：Wireshark使用

爬蟲入門系列（六）：正則表示式完全指南（下）

EonStor GSe Pro1000詳解攻略（六）最全面的數據保護和安全

深入JavaScript系列（六）：原型與原型鏈

解密SVM系列（五）：matlab下libsvm的簡單使用：分類與迴歸

解密SVM系列（四）：SVM非線性分類原理實驗

周志華《機器學習》課後習題解答系列（六）：Ch5.8

周志華《機器學習》課後習題解答系列（六）：Ch5.10

周志華《機器學習》課後習題解答系列（六）：Ch5.5

周志華《機器學習》課後習題解答系列（六）：Ch5.7

詳解SVM系列（六）：深入解析 序列最小最優化SMO演算法一

SMO演算法是幹啥的

兩個變數的二次規劃求解方法

相關推薦

詳解SVM系列（六）：深入解析序列最小最優化SMO演算法一