Machine Learning 第七講SVM -- (一)最大間隔分類

阿新 • • 發佈：2019-01-03

一、Optimization Objective（SVM優化目標）

在logistic迴歸模型中，g(z)=1/(1+e^(-z)),其函式影象如下：

在這基礎上，若logistic迴歸只有一個樣本，則Cost函式如下圖所示：

（1）在y=1的情況下，只剩下Cost的左邊一項，當y=0時，只剩下Cost的右邊一項，其對應的圖形如上圖中的平滑曲線。

（2）我們在logistic曲線的基礎上修改，將其修改成上圖紫色曲線所示，即如下圖:

SVM的代價函式：

我們通過最小化目標函式能夠得到對應的引數值C

支援向量機中h(x)如下：

二、Large Margin Intuition（最大間隔的直觀感知）

在上面的內容中講到SVM的目標函式是：

若C是一個非常大的數，假設C=100,0000，則我們希望找到一個能使C後面的求和數

為0的解，這樣會使得目標函式最小化，在這種情況下，目標函式變成：

SVM決策邊界：線性劃分

這裡引入margin的概念，如下圖：

SVM便是努力將正樣本和負樣本用最大間距分開。

存在離群點的線性可分邊界

上圖中A、B、C、D都是異常資料。

在不考慮異常資料的情況下，若C非常大，原來的邊界應該是黑色的線，但是在加入

了異常點A之後，邊界變成紫色的線，因為一個異常點就改變了劃分邊界，這是不明智的。

因此，若C不是非常大，即使一些異常資料，如A、B、C、D等，SVM也能夠把不同的

類正確區分開（支援向量機這時候可以忽略一些異常資料，得到更好的決策邊界），

甚至不是線性可分的情況下，SVM也可以得到好的結果。

三、Mathematics Bebind Large Margin Classification（最大間隔分類背後的數學原理）

本部分內容主要講最大間距分類器的數學原理。

首先了解內積的概念：

其中p是可正可負。

如下圖：

SVM決策邊界：

下圖說明為何SVM會選擇具有最大間隔的超平面（決策邊界）：

（1）先看左圖，這是一個反面示例，綠色的線表示決策邊界，這不是一個好的決策邊界，

不是好的決策邊界原因：

正例情況下，即當時，，從圖中可以看到，p^(1)較小，因此

若需要滿足不等式，||θ||需要非常大。

負例情況下，即當時，，從圖中可以看到，p^(2)較小，因此

若需要滿足不等式，||θ||需要非常大。

但是，最小化目標函式需要||θ||越小越好，因此出現矛盾，因此這個綠色

決策邊界不是一個很好的

決策邊界。

（2）再看右圖，右圖中綠色的線表示決策邊界，這是一個很好的決策邊界的原因：

當時，，從圖中可以看到，p^(1)(紅色)比（1）中的大很多，

因此滿足不等式，||θ||可以比之前變小很多。

當時，，從圖中可以看到，p^(2)(紫色)比（1）中的大很多，

因此滿足不等式，||θ||可以比之前變小很多。

因此，圖2綠色的決策邊界線，能保證||θ||取值較小，滿足我們的要求。

因為SVM試圖極大化的範數（|| ||），即極大化訓練樣本到決策邊界的距離，因此，SVM能夠找出最大間距分類器。

附上一道練習題：

解答：

在本圖中，X表示正樣本，O表示負樣本。

在本題中，最優決策邊界肯定是y軸，又θ是決策邊界的法向量，因此θ向量和x軸重合（x軸的正方向即為θ向量的正方向），是指樣本在θ向量上的投影，這個值和樣本的x大小一致。

||θ||

應該滿足因此只需要考慮支援向量，所謂支援向量表示離超平面最近的那個樣本，

這裡考慮的是x=2（=2）的正樣本，和x=-2（=-2）的負樣本。因為只要滿足這兩個樣本，對於x>2的正樣本和x<-2的負樣本，都能滿足上述不等式。

（1）考慮正樣本，x=2（=2）的，需要滿足2*||θ||≥1，則||θ||≥1/2。

（2）考慮負樣本，x=-2（=-2）的，需要滿足(-2)*||θ||≤-1，則||θ||≥1/2。

因此，||θ||≥1/2，取||θ||=1/2；

（可以驗證一下，x=3（=3）和x=-3（=-3）是否滿足，x=3（=3）時，3*(1/2)）>1；x=-3（=-3）時，(-3)*(1/2)<-1，因此滿足不等式）。

注：

如果根據正負樣本，一個求出||θ||≥2，一個求出||θ||≥3，則為了讓所有樣本滿足不等式條件，需要取兩者的交集，即||θ||≥3。

Machine Learning 第七講SVM -- (一)最大間隔分類

一、Optimization Objective（SVM優化目標）在logistic迴歸模型中，g(z)=1/(1+e^(-z)),其函式影象如下：在這基礎上，若logistic迴歸只有一個樣本，則Cost函式如下圖所示：（1）在y=1的情況下，只剩下Cost的左

Machine Learning第七講SVM --（二）核函式

一、Kernels I（核函式I）在非線性函式中，假設函式為：將表示式改變一下，將其寫為：聯想到上次講到的計算機視覺的例子，因為需要很多畫素點，因此若f用這些高階函式表示，則計算量將會很大，那麼對於我們有沒有更好的選擇呢? 由此引入核函式的概念。對於給定

Machine Learning第七講SVM -- （三）SVM在實踐中的應用

Using SVM in Practice(SVM在實踐中的應用) 在實際應用中，並不推薦自己寫SVM的演算法，可以使用別人已經寫好的，那我們需要做什麼呢？如下圖：對於核函式的選型，我們一般會選擇線性核函式和高斯核函式。一般情況下，我們需要自己提供核函式，必

Machine Learning第九講【推薦系統】--（一）基於內容的推薦系統

符號介紹：對於每一個使用者j，假設我們已經通過學習找到引數，則使用者j對電影i的評分預測值為：。對於上面的例子：

Machine Learning第九講【異常檢測】--（一）密度估計

一、Problem Motivation（問題引入）異常檢測一般應用在非監督學習的問題上，如圖，我們可以通過已知的資料集，訓練模型根據此模型進行異常檢測：在使用這些資料訓練的過程中，我們假設這些資料是正常的。我們可以把異常檢測應用在網站欺詐預測上，比如可以根據使用者平時

Machine Learning第八講[非監督學習] -- （一）聚類

一、Unsupervised Learning: Introduction（非監督學習簡介）之前介紹的線性迴歸、logistic迴歸以及神經網路等都是監督學習的例子，通過給出一系統樣本，通過這些樣本去訓練模型進行預測，在這些樣本中，是包含y標籤的，即實際值。在非監督學習中，我們給一系列樣

Machine Learning第九講【推薦系統】-- （二）協同過濾

一、Collaborative Filtering（協同過濾）協同過濾能夠自行學習所需要使用的特徵。來看下面的例子：在之前講的基於內容的推薦系統中，我們需要事先建立特徵並知道特徵值，這是比較困難的。假設我們某一使用者的喜好，即假如Alice、Bob喜歡romance的電影，carol

Machine Learning第九講【異常檢測】-- （三）多元高斯分佈

一、Multivariate Gaussian Distribution（多元高斯分佈）資料中心例子：因為上面的原因，會帶來一些誤差，因此我們引入了改良版的演算法：我們不再單獨地將p(x1)，p(x2)，p(x3)訓練模型，而是將這些引數都放在一個模型裡，

Machine Learning第九講【異常檢測】-- （二）建立一個異常檢測系統

一、Developing and Evaluating an Anomaly Detection System（異常檢測系統的衡量指標）對於某一演算法，我們可以通過藉助某些數字指標來衡量演算法的好壞，仍舊以飛機引擎的例子來說：假設有10000個正常的引擎，20個有瑕疵的引擎（異常）

Machine Learning第八講【非監督學習】-- （四）PCA應用

一、Reconstruction from Compressed Representation（壓縮特徵的復原）本部分主要講我們如何將已經壓縮過的特徵復原成原來的，如下圖：左邊的二維圖是未縮減維數之前的情況，下面的一維圖是利用縮減之後的情況，我們利用公式可以得到x的近似值，如右圖，

Machine Learning第八講【非監督學習】--（三）主成分分析（PCA）

一、Principal Component Analysis Problem Formulation（主成分分析構思）首先來看一下PCA的基本原理： PCA會選擇投影誤差最小的一條線，由圖中可以看出，當這條線是我們所求時，投影誤差比較小，而投影誤差比較大時，一定是這條線偏離最優直線。

Machine Learning第八講【非監督學習】-- （二）動因

一、Motivation I: Data Compression（動因I：資料壓縮）下面是2個降維處理的例項：例項1：將cm和inch的2維資料降成1維資料：例項2：降3維資料降成2維資料：二、Motivation II: Visualization（動因II：視

Machine Learning第六講[應用機器學習的建議] --（二）診斷偏差和方差

一、Diagnosing Bias vs. Variance（診斷偏差 vs. 方差）如果一個演算法表現的不理想，多半是出現兩種情況，一種情況是偏差比較大（這種情況是欠擬合情況），另一種是方差比較大（這種情況是過擬合的情況）。下圖是欠擬合、剛好、過擬合三種情況的Size-price圖（仍然是預

Machine Learning第六講[應用機器學習的建議] --（三）建立一個垃圾郵件分類器

內容來自Andrew老師課程Machine Learning的第六章內容的Building a Spam Classifier部分。一、Prioritizing What to Work on（優

Machine Learning第十講【大規模機器學習】

本部分主要包括如下內容： Learning With Large Datasets (大資料集訓練模型) Stochastic Gradient Descent (隨機梯度下降演算法) &n

第七章部分例題最大乘積

創建 max 第七章 blog 例題 pac ons std esp 思路:用數組存儲然後枚舉起點和終點來創建子序列由於乘積很大所以要用long long 同時使用cout輸出避免printf不同編譯器的不同實現 1 #include <cstdio>

Machine Learning第三講[Logistic迴歸] --（三）多元分類

內容來自Andrew老師課程Machine Learning的第三章內容的Multiclass Classification部分。一、Multiclass Classification: One-vs-all（多元分類：一對多）（1）下圖左邊是二元分類的

三個角度看SVM（1）——最大間隔分類器

“橫看成嶺側成峰，遠近高低各不同。” 支援向量機（Support Vector Machine, SVM）作為一個被廣泛應用的有監督機器學習演算法，網路上對它的介紹數不勝數，其中更有不少好文佳作。本文與它們的區別在於：並不著重於“教程式”地對SVM進行系統性介

最大間隔分類器的錯誤理解

以前：以為最大間隔是因為一條線段從中間分開會令平方和最大化；a+b=8; a=b=4j時,a^2+b^2是最小的，並不符合最大間隔的含義； 20180813：所有樣本中距離超平面（將所有的樣本正確分類）最近的幾何間隔最大化；比如說確定了某平面A，離它最近的樣本點的幾何間隔為

（筆記）斯坦福機器學習第七講--最優間隔分類器

滿足優化最終 clas 定義 mar 擴展 strong play 本講內容 1.Optional margin classifier（最優間隔分類器） 2.primal/dual optimization（原始優化問題和對偶優化問題）KKT conditions（KK

Machine Learning 第七講SVM -- (一)最大間隔分類

相關推薦