第三講：感知機+SVM+LR（上）

主要內容

1. 補充

1.1 最小二乘法的概率解釋

2. 支援向量機

2.1 模型與策略

2.2 硬間隔最大化

2.2.1 函式間隔與幾何間隔

2.2.2 間隔最大化原理

2.2.3 線性可分SVM學習演算法——最大間隔法

2.2.4 最大間隔法示例

2.2.5 線性可分SVM學習的對偶演算法

2.2.6 對偶學習演算法示例

2.3 軟間隔最大化（下）

3. LR（下）

補充
1.1 最小二乘法的概率解釋

前文向大家介紹了最小二乘的解析式以及它的幾何解釋，下面我們嘗試從概率的角度，去探討最小二乘與極大似然估計的關係。先做這樣幾個假設：

誤差總是存在的

首先要說明的，所有的預測值都不可能完美地與真實值契合，所以誤差必然存在，而我們的目的就是如何讓誤差儘可能地小。這樣就可以假設有一組θ，使真實的資料存在以下關係式，

y⁽ⁱ⁾表示真實值，θ^Tx⁽ⁱ⁾表示預測值，ε表示誤差項：

假設誤差服從高斯分佈

至於為什麼可以這樣假設，原因是人們認為誤差是隨機的，所以服從高斯分佈。根據中心極限定理，也能夠做出這樣的假設。該定理指出，如果一個隨機變數是若干獨立隨機變數的總和，當被加的個數趨近於無窮大時，他的概率密度函式近似高斯密度。並且誤差也是獨立同分布(Independent Identical Distribution,IID)。

其中μ是正態分佈隨機變數的均值，σ²是此隨機變數的方差，也可以記作N(μ,σ²)。

設ε的平均值為0，方差為ε²

，ε的高斯分佈，也就是ε的概率密度函式表示如下：

求真實值的概率分佈

ε的概率密度函式，就是預測值與真實值差的概率密度函式，那麼可以把上述兩個等式合併，經過變換，得到如下等式：

求聯合概率分佈

這樣相當於給定一組θ、x，求出了y的概率密度分佈，聯合概率分佈等於邊緣概率分佈的乘積：

定義對數似然函式

這裡我們就得到了一個關於x、y、θ的模型，它表示真實值y的聯合概率分佈。當我們想使預測正確的概率最大時，只需要將L(θ)最大化就可以了。於是，求值問題又變成了求最大值問題。為了方便計算，我們定義對數似然函式，L(θ)，也就是對L(θ)取對數，再求最大值。對數函式為一個單調遞增函式，所以不會對原函式造成影響。取對數後，累乘變成累加。

等式第一項是一個常數項，第二項是一個負數項。要讓L(θ)最大，就要讓負數項最小：

這又回到了我們熟悉的式子上面來了，簡單的來說，最小二乘法就是誤差服從高斯分佈且獨立同分佈下的極大似然估計。

支援向量機
2.1 模型與策略

90年代的時候，在貝爾實驗室，Yann Lecun和 Vapnik經常就SVM和神經網路的優劣展開激烈的討論，但那個時候，神經網路發展的並不是很強大，反觀SVM的理論研究則更加深入，通過核技巧成功將SVM的應用層面從線性可分擴充套件到線性不可分的情況，一度佔據上風。

支援向量機(SupportVector Machine, SVM)是一種二類分類模型，它的基本模型是定義在特徵空間上的間隔最大的線性分類器，間隔最大使它有別於感知機；支援向量機的學習策略是間隔最大化，可形式化為一個求解凸二次規劃(convex quadratic programming)的問題，也等價於正則化的合頁損失函式的最小化問題。

當訓練資料可分時，通過硬間隔最大化(hardmarginmaximization)，學習一個線性的分類器，即線性可分支援向量機，又稱為硬間隔支援向量機；當訓練資料近似可分時，通過軟間隔最大化(softmargin maximization) ，也學習一個線性分類器，稱為軟間隔支援向量機。

2.2 硬間隔最大化

對於二維特徵空間的線性可分的二分類問題，如上圖所示兩種類別。這時有無數個直線能將兩類資料正確區分。但哪種看起來分的更好呢？也就是說如何去定義“好”呢，有這樣兩種度量方式，一種叫做函式間隔，另外一種叫幾何間隔，函式間隔與幾何間隔的概念如下。

1.2.1 函式間隔與幾何間隔

函式間隔

對於給定的訓練資料集T和超平面(w,b)，定義超平面(w,b)關於樣本點(x_i,y_i)的函式間隔為

如圖所示，資料點到分介面的在y軸上的距離即函式間隔（藍線所示）。

定義超平面(w,b)關於訓練資料集T的函式間隔為超平面(w,b)關於T中所有樣本點(xi,yi)的函式間隔之最小值，即

函式間隔可以表示分類預測的正確性及確信度。但是當等比例的改變w和b時，如

超平面沒有改變，但是函式間隔變為原來的k倍，即

如果對超平面的法向量w加以約束，使得間隔是確定的，這時函式間隔成為幾何間隔。

幾何間隔
對於給定的訓練資料集T和超平面(w,b)，定義超平面(w,b)關於樣本點(xi,yi)的幾何間隔為

其中，||w||為 w 的L2範數。

下圖為幾何間隔的示例圖。其中w為超平面的法向量，A點到超平面的距離為γ_i

定義超平面(w,b)關於訓練資料集T的幾何間隔為超平面(w,b)關於T中所有樣本點(xi,yi)的幾何間隔之最小值，即

如果等比例的改變超平面引數w和b,函式間隔按比例改變，而幾何間隔不變。

1.2.2 間隔最大化原理

最大間隔分離超平面

對於一個線性可分的資料來說，我們總能找到一個超平面能將它區分開來，那麼對這個超平面來說，我們也可以找到距離這個超平面最近的一些資料點，也就是與超平面幾何間隔最小的這些資料點，即，但是我們找的這個超平面可能不是最優的，這個最優的意思是說，不僅將這些資料正確分開，並且對於那些距離超平面最近的資料點（難分的資料點）也讓它離超平面儘可能的遠，這樣的超平面對於未知資料就有很好的預測能力。因此我們要最大化幾何間隔。也稱之為硬間隔最大化。