【理論部分】：（1）SVM理解與數學證明

一. SVM(Support Vector Machine)匯入

首先說明一下，SVM提出的目的是為了解決在低維空間中線性不可分的二分類問題，通過將資料空間對映到高維，使得資料在高維空間中是線性可分的，以此來完成優化目標。

線性分類

假設，某一個給定的資料集是線性可分的，那麼我們可以用線性分類器實現其二分類問題，也即在n維的資料空間中找到一個超平面（hyper plane），將資料劃分為兩個類別，超平面表示為：

邏輯迴歸（Logistical Regression）

邏輯迴歸是指將取值範圍為 $(-\infty,\infty)$ 的原自變數對映到 $(0,1)$

)，對映後的值被分類為類別

y = 1

的概率

二. 優化目標函式選取

考慮在資料是線性可分的情況下，我們只要找到一個合適的超平面，就能夠將資料明確的進行分類，那現在就要考慮這個超平面怎麼選取的問題了，什麼樣的超平面能夠使資料的分類效果最好？？

那當然，是兩個類別的資料到超平面的距離和越大越好！

先來考慮用什麼距離來進行評估吧，這裡先介紹兩種距離：函式距離（Functional Margin）+ 幾何距離（Geometrical Margin）

函式距離（Functional Margin）

既然超平面可以表示為： $w^Tx + b = 0$ ，那麼對於任意一個數據x，只要代入上式計算出函式值，便可以直接根據其正負來判斷該資料是屬於哪一個類別。那麼我們可以簡單的用函式值的絕對值來表徵該資料距離超平面的遠近，也即： $γ$

^=∣wTx+b∣=y(wTx+b)=yf(x)(2−1)\hat{\gamma} = |w^Tx + b| = y(w^Tx + b) = yf(x) \ \ \ \ \ \ \ \ (2-1)

\overset{γ}{^} = ∣ w^{T} x + b ∣ = y (w^{T} x + b) = y f (x) (2 - 1)

定義為函式距離。

對於每一個數據點 $x_i$ ，可分別計算出其對應的函式距離 $\hat{\gamma_i}$ ，且滿足： $\hat{\gamma} = min(\hat{\gamma_i}) \ i = 1,2,\dots,n\ \ \ \ \ \ \ \ (2-2)$

n(γi^)i=1,2,…,n(2−2)

【注】：用 $y=1$ 和 $y=-1$ 分別表示兩個類別標籤，因為由超平面分開的兩個類別的函式取值是符號相反的，用1和-1表示類別標籤可以便於計算。

但是，函式距離的缺點也很明顯了，當引數w和b成倍增加的時候，超平面的位置並沒有改變，但是函式距離成倍增加，並不能將其作為參考。

幾何距離（Geometrical Margin）

由上圖可示，加入矢量表示，資料點x可以表示為： $x = x_0 + \gamma \frac{w}{||w||}\ \ \ \ \ \ \ \ (2-3)$ 其中， $x_0$ 是資料點x在超平面上的投影， $\gamma$ 表示該資料點據超平面的距離，w表示超平面的法向量，||w||是範數表示，是向量w的模。同時已知 $x_0$ 是超平面上的點，因此有 $f(x_0) = w^Tx_0 + b = 0\ \ \ \ \ \ \ \ (2-4)$ 聯合公式（2-3）和（2-4）可以計算得到： $\gamma = \frac{w^Tx + b}{w^tw}||w|| = \frac{w^Tx+b}{||w||} = \frac{f(x)}{||w||}\ \ \ \ \ \ \ \ (2-5)$ 然後再取絕對值： $\tilde{\gamma} = \frac{yf(x)}{||w||} = \frac{\hat{\gamma}}{||w||}\ \ \ \ \ \ \ \ (2-6)$ 定義為幾何距離。

從表示式中可以明顯的看出，幾何距離不會因為w和b的成倍增加而隨之增加，可以公正的表示資料點x相對於超平面的距離（畢竟除了一個w的範數就是相當於進行歸一化處理了嘛）。

到了這裡，我們就可以先確定下來第一個未知因素了，

用幾何距離來衡量資料點到超平面的距離遠近！

對於任意一個輸入資料x，引數優化目標就是為了要讓幾何距離取到最大。為了計算方便，將函式距離令為1，即添加了約束條件： $\hat{\gamma} = 1 \leq\hat{\gamma_i} = y_if(x_i) = y_i(w^Tx_i +b)$

得到最終的優化目標： $max \ \frac{1}{||w||} \ \ s.t.\ y_i(w^Tx_i +b) \ge 1,i = 1,2,\dots,n \ \ \ \ \ \ \ \ (2-7)$

三. 目標函式求解

當未知引數在分母的位置時，往往是不好求解的，那麼就換個思路，將其變換到分子，然後求變換後式子的最小值。（對偶問題求解，這裡不對對偶問題詳細解釋，基本思路就是將函式轉化為更容易求解的形式，一般通過優化其倒數來實現）。好的，那現在我們的優化目標轉變為了： $min \ \frac{1}{2} {||w||}^2 \ \ s.t.\ y_i(w^Tx_i +b) \ge 1,i = 1,2,\dots,n \ \ \ \ \ \ \ \ (3-1)$

又有目標優化函式，又有約束條件，這就是拉格朗日求解的最佳拍檔組合嘛！

理所當然的引入了拉格朗日乘子 $\alpha_i$ ，新定義損失函式： $L(w,b,\alpha) = \frac{1}{2} {||w||}^2 - \sum_{i = 1}^n {\alpha_i}{[y_i(w^Tx_i + b)- 1]}\ \ \ \ \ \ \ \ (3-2)$ $\theta(w) = max \ L(w,b,\alpha_i) , \alpha_i \ge 0\ \ \ \ \ \ \ \ (3-3)$ 當 $y_i(w^Tx_i + b) - 1 \ge0$ 時，有 $\alpha_i \ge 0$ ，此時滿足 $\theta(w) = \frac{1}{2}{||w||}^2$

整理一下，現在有了三類未知引數了，分別是w,b, $\alpha_i$ ，並且 $\alpha_i$ 還是有範圍的，那肯定是w和b比較好求了。

根據凸函式的理論，可以直接通過梯度為0求得其全域性最優，求導吧… $\frac{\partial L}{\partial w} = w - \sum_{i = 1}^n \alpha_i y_i x_i = 0 \Rightarrow w = \sum_{i = 1}^n \alpha_i y_i x_i \ \ \ \ \ \ \ \ (3-4)$ $\frac{\partial L}{\partial b} = \alpha_i y_i = 0\ \ \ \ \ \ \ \ (3-5)$

【理論部分】：（1）SVM理解與數學證明

一. SVM(Support Vector Machine)匯入

二. 優化目標函式選取

三. 目標函式求解

【理論部分】：（1）SVM理解與數學證明

【系統配置】：（1）Ubuntu18.04 + Tesla K40c + Cuda9.0 + Cuddn7.0

【編譯原理】LL（1）語法分析器

【Python之路】基礎（1）隆重儀式：Hello World程序

【深入Java虛擬機（1）】：Java內存區域與內存溢出

【深入Java虛擬機器（1）】：Java記憶體區域與記憶體溢位

【深度學習影象識別課程】tensorflow實現CNN系列：（1）概念介紹

【微服務從入門到精通】：（一）微服務的藍綠發布及灰度發布

【phaser.js學習筆記（1）】使用phaser.js製作遊戲

【資料結構】樹（四）：B樹（C++實現）

Java基礎【二維陣列例題（1）——表格求和】

【CUDA並行程式設計系列（1）】GPU技術簡介

【Unity3D5.6版本使用（1）】自定義編輯器獲取場景所有物件Tag生成Json

【大資料技術】——Hadoop（1）

【10分鐘學Spring】：（一）初識Spring框架

形態學濾波：（1）腐蝕與膨脹（2）開運算，閉運算，形態學梯度，頂帽，黑帽

c++ 部分基礎知識 ---- （1）

RCNN,Fast RCNN,Faster RCNN 的前生今世：（1） Selective Search

【算法】排序（一）選擇排序

【算法】排序（二）冒泡排序

【理論部分】：（1）SVM理解與數學證明

一. SVM(Support Vector Machine)匯入

二. 優化目標函式選取

三. 目標函式求解

相關推薦