林軒田--機器學習技法--SVM筆記2--對偶支援向量機（dual+SVM）

阿新 • • 發佈：2019-01-12

對偶支援向量機

咦？怎麼還有關於支援向量機的內容，我們不是在上一講已經將支援向量機解決了麼？怎麼又引入了對偶這個概念？

1.動機

我們在上一講已經講過，可以使用二次規劃來解決支援向量機的問題。如果現在想要解決非線性的支援向量機的問題，也很簡單，如下圖所示：

這裡寫圖片描述

我們只需要將原來的有關於X的內容通過轉換變為Z，剩下的事情就一樣了。在Z空間裡面，將Q,P,A,C等填充好，然後丟到一個二次規劃的軟體裡去求得一個Z空間的最佳的w和b。所以我們需要解決的是Z空間的二次規劃問題，我們想象一下，但是當我們Z空間的維度(d)很高時(甚至無限維)，我們的二次規劃解起來具有一定的挑戰性。

所以說，如果我們想要做高維度特徵的SVM，如何移除掉對於特徵維度的依賴？使高維甚至無限維的特徵的SVM稱為可能？這就是我們考慮對偶支援向量機的動機。

2. 學習的對偶演算法

因為我們的SVM的原始問題是一個受限制的最優化問題，回想之前做regularization時候，我們的regularization也是一個受限制的最優化問題，我們應用拉格朗日乘數法，來得到一個不受限制的正則項表示式。同理，我們也可以在此應用拉格朗日乘數法，將有條件的SVM問題變成沒有條件的SVM問題，緊接著利用拉格朗日對偶性，得到對偶問題，對偶中可以有效地移除對特徵維度的依賴性，所以我們可以用過求解對偶問題來得到原始問題的最優解。如果對拉格朗日乘數法不理解，可以點選如下連結：拉格朗日乘數法，這個視訊講得很不錯的。

2.1 拉格朗日函式

首先構建拉格朗日函式：

這裡寫圖片描述

我們的拉格朗日函式由兩部分組成
* 第一部分：原始的目標函式
* 第二部分：對原始問題的每一個限制條件均乘上一個朗格朗日乘子，然後在求和

現在拉格朗日函式寫出來了，那如何來求解拉格朗日函式來求得我們的最優解呢？（也就是說函式寫出來了，你是通過最大值還是最小值來求最佳解？）

2.1.1 拉格朗日原始問題

通過拉格朗日函式，我們可以求解的SVM問題寫為如下形式。解釋一下下面這個形式所表達的意義

首先選定一個(w,b)
然後找到a使L()的值最大
然後通過w,b,a計算L()的值
選定另一個(w,b)做相同的步驟，得出相應的L()值
選定完所有的(w,b)之後，找出L()值最小的wb,即是最優解

這裡寫圖片描述

為什麼可以寫成這個形式呢？這個問題的最優解和原始問題一致麼？下面我們就來證明這件事情。

演算法的第一步是選出一個(w,b)來，選出的這個(w, b)有兩種可能：

如果選出來的(w, b)是壞的，也就是說我們的(w, b)會違反某些限制條件，也就是說某些1-Yn(W.Zn + b)的項本來是要小於等於0的，現在大於0了，那如果對an(1-Yn(W.Zn + b))求最大值，那最終L()就是無窮大了。
如果選出來的(w, b)是好的，也就是說(w, b)滿足所有的限制條件，也就是所有的1-Yn(W.Zn + b)要小於等於0，那an(1-Yn(W.Zn + b))什麼時候能夠得到最大值呢？那就是an等於0才是最大值。當an等於0時，我們的問題就剩下min 1/2 w * w了（原始的最優化問題）。

根據之前所說表示式的意義，最後一步是選出L()值最小的(w, b)，由於那些壞的(w, b)的L()值為無窮大，所以那些壞的(w, b)被自動排除了。剩下的就是從好的(w, b)（他們的an均為0）中，選出使L()=1/2 w * w的值最小的(w, b)。所以這不就是我們原始問題做的事情麼？

所以朗格朗日函式的最優解也就是我們原始問題的最優解。

2.1.2 拉格朗日對偶問題

接下來我們繼續對拉格朗日函式做變換，來實現我們‘動機’章節所說的消除對特徵維度的依賴。

如下圖所示，可以很容易得出下圖的結論

這裡寫圖片描述

圖中大於號右側的表示式表示僅僅根據b.w來求表示式的最小值，a為一個任意的固定值。大於號左側的表示式表示先求表示式關於a的最大值，然後再求關於b.w的最小值，所以顯而易見不等式成立。也就是說，對於右側的任何一個固定的a值，都有以上結果。

進一步地，既然任意的a都有以上結果，那現在在右側加一個max的動作的話，那不等式也依然成立咯。

這裡寫圖片描述

上圖中不等式右側的式子又叫做拉格朗日原始問題（注意這裡指的是拉格朗日原始問題，並不是SVM的原始問題，不要混淆）的對偶問題，可以看出對偶問題將原始問題的max/min對調了。

但是從圖中我們可以看出，原始問題和對偶問題是大於等於的關係，那麼拉格朗日對偶問題的最優解也是拉格朗日原始問題的最優解麼？

在最佳化文獻中，我們管 >= 叫做weak duality，弱的對偶關係。但是我們不想要這種關係，我們能不能夠直接將上式從不等式變為等式呢？變為等式後，對偶問題的最佳解就是原始問題的最佳解了。

那麼有沒有什麼理論來保證這個等式成立呢？做在最佳化理論中，如果我們的SVM原始問題（QP問題）滿足以下條件：

目標函式是凸的
是有解的（也就是能找到一條線將資料正確分開）
線性的限制條件（QP本來就有）

那我們的強對偶關係就成立。所以就可以通過解對偶問題來得到原始問題的最優解。我們把對偶問題的推導過程叫做拉格朗日對偶性

2.2 求解拉格朗日對偶問題

現在的拉格朗日對偶問題的形式如下：

這裡寫圖片描述

我們可以看到，在大括號內部，是一個關於wb的無條件的最優化問題。請記住我們的初衷，我們是想移除掉特徵維度的依賴，所以我們接下來的事情就是通過某些關係來將w,b從我們的問題中移除。

2.2.1 KKT condition

對於我們的對偶問題，大括號內部是關於w和b的無條件最優化問題。無條件最優化問題我們會解啊，可以分別對w和b求偏微分等於0，就可以分別得到w和b的表示式。好，現在就來做

首先來對b做偏微分：

這裡寫圖片描述

上式的結果不必多說吧，我們再把上式的結果帶回函式中，會發現b被成功地消除掉了：

這裡寫圖片描述

然後我們在對w做偏微分：

這裡寫圖片描述

可以將w用另一個表示式表示出來，所以可以將該表示式帶回原函式中，將w用anynzn來表示：

這裡寫圖片描述

經過上面的步驟，w和b已經基本消失了，對偶問題中的min也不用做了，剩下的事情就是做關於a的最優化（有條件限制的最優化）。

這裡寫圖片描述

上圖中表示的就是我們匯出來的簡化版的拉格朗日對偶問題。

從我們的推導過程可知，我們的最佳的a,w,b會滿足某些關係，我們把這些關係叫做KKT condition：

這裡寫圖片描述

下面我們來一一解釋KKT條件：

第一條是我們原始的SVM問題要滿足的條件
第二條使我們拉格朗日原始/對偶問題的條件
第三條是我們對拉格朗日對偶問題的w,b引數做偏微分所得出的結論
第四條，我們在2.1.1節中，將SVM的原始問題（受限制）轉換為拉格朗日原始問題（不受限）的過程中，證明該轉換的有效性時，得出的一個結論。

這些條件有什麼用呢？待會兒可以看到，當我們求出a後，可以用這些條件來求w和b。

2.2.2 求解對偶問題

上一小結中我們得到了簡化版的拉格朗日對偶問題，現在我們來做一點兒小小的變動，使其變成我們習慣的形式。

這裡寫圖片描述

w的表示式我們沒有將其作為條件列出來，因為現在求解的是a的問題，和w的限制條件沒有關係，所以沒將其列出來。

我們的新的問題有N個變數和N+1個條件，而且新問題還是一個凸的二次規劃問題（目標函式為二次，限制條件為一次），所以說我們大費周章地將一個QP問題轉換為另一個QP問題，這是因為點啥呢？哈哈，就是為了消除掉對特徵維度的依賴啊，還有一個目的是為了引出很好用的kernel方法（請看下一篇文章）。

好，既然是新的QP問題，那解法當然和就的QP問題差不多啦，將所有的係數算出來，然後丟給二次規劃軟體就搞定啦。所以解法就不囉嗦了，看下圖：

這裡寫圖片描述

2.2.3 警告

在我們解決QP問題的過程中，會有一個二次係數矩陣Q，這個矩陣的大小是N x N的，從上一小節我們知道，Qmn = ym.yn.Zm.Zn，
當Zm與Zn垂直時，Qmn為0，但是Z向量垂直的情況畢竟是少數，也就是說我們的Q矩陣的元素大多數都不是0，我們管Q叫做密集的。

現在我們來看看，當N = 30000時（有30000個樣本），就算Q是對稱矩陣，只存一半，也需要花 > 3G 的記憶體來儲存這些係數，所以這個Q矩陣很大。所看看起來沒有原始的SVM的二次規劃問題那麼好解，原始SVM的QP問題的Q矩陣比較特殊，裡面包含一個單位矩陣，只有對角線才有值，所以會佔用比較少的記憶體。

所以我們通常在解決SVM問題的時候，不會使用一個通用的QP軟體，而是會使用特殊的專為SVM設計的二次規劃軟體。也就是這種軟體不會要求將Q矩陣先算出來，而是用到的時候再去算。

2.2.4 求解b,w

假設我們通過二次規劃軟體將a解出來了，那麼現在怎麼得出b，w呢？

我們之前說過，KKT condition可以幫我們求解w和b。

這裡寫圖片描述

求解w : 求解w就很簡單了，直接使用KKT條件的第三項
求解b : 求解b也不難，利用KKT條件的最後一項。我們知道，當an不等於0時，1-yn(wzn + b)肯定等於0。現在我們知道了所有的a，所以就找一個an不等於0的點，將其代入，求得b即可。

2.2.5 a的稀疏性

根據KKT條件，我們可以輕易得出，a的解具有稀疏性(向量內的大多元素為0)。當yn(wzn+b)不等於1時，也就是該點位於我們的邊界外時，這是我們的這些資料點的大多數的分佈，根據KKT條件中的complementary slackness條件，我們得知，an為0，也就是大多數資料點的an為0，這也就說明了an的稀疏性。

3. 對偶演算法的總結

從解w和b的過程中，我們知道。當an > 0時，1-yn(wzn + b)肯定等於0（KKT條件最後一項），也就是說yn(wzn + b) = 1，也就是說該(zn,yn)點的函式間隔等於1，所以說，該點處於邊界上。也就是說所有an>0的點均位於邊界上，對我們的邊界起到一個支撐作用。我們這些位於邊界上的點叫做支撐向量。其他非支撐向量的點，也就是an = 0的點對我們的邊界的構建沒有貢獻，從w和b的表示式可以看出，an等於0的點不會貢獻任何力量。

（注意：an > 0的點一定位於邊界上，但是位於邊界上的點並不一定是an > 0的。所以我們僅僅把an > 0的點叫做支撐向量）

所以，我們計算w和b的時候僅僅需要支撐向量的點就行了

這裡寫圖片描述

3.1 兩種形式的hard-margin SVM

到現在我們已經學習兩種形式的hard-margin SVM（hard-margin表示保證資料不違反邊界），分別是原始的SVM問題和對偶的SVM問題：

這裡寫圖片描述

我們從原始問題的d空間切換到了新問題的N空間，原始問題比較適合解決d較小的情況，對偶問題適合解決N較小的情況

兩個問題解決完成之後，都可以得到一個最佳的w,b，通過這個w,b就能得到我們的hypothesis：

這裡寫圖片描述

林軒田--機器學習技法--SVM筆記2--對偶支援向量機（dual+SVM）

對偶支援向量機

1.動機