1. 程式人生 > >支援向量機學習(一)·統計學習方法

支援向量機學習(一)·統計學習方法

支援向量機

1 線性可分支援向量機

線性可分支援向量機和線性支援向量機假設輸入空間與特徵空間為一一對應關係,並將輸入空間中的輸入對映為特徵空間中的特徵向量。非線性支援向量機利用一個從輸入空間到特徵空間的非線性對映將輸入對映為特徵向量,所以輸入都是由輸入空間到特徵空間,支援向量機的學習是在特徵空間進行的。
假設資料集 T = { (

x 1 , y 1 ) , . .
. . . , ( x N , y N
) } , x i χ = R n , y i ψ = { + 1 , 1 } , i = 1 , 2.... N T=\{(x_1,y_1),.....,(x_N,y_N)\},x_i\in\chi=R^n,y_i\in\psi=\{+1,-1\},i=1,2....N 假設資料是線性可分的,學習的目標就是在空間中找到一個分離超平面,將例項分別分開為正負例。分離超平面對應方程 w x + b = 0 wx+b=0 一般的當資料可分時,有無數多個超平面可以將資料分開,線性可支援向量機利用間隔最大化求解最優分離超平面,這時的解是唯一的。

定義(線性可分支援向量機):
給定線性可分訓練資料集,通過間隔最大化或者等價的求解相應的凸二次規劃問題學習得到分離超平面為
w x + b = 0 w^{*}x+b^*=0
對應的分類決策函式
f ( x ) = s i g n ( w x + b ) f(x)=sign(w^{*}x+b^*)
稱為線性可分支援向量機。

2 函式間隔和幾何間隔

一個點距離分離超平面的遠近可以表示分類預測的確信程度。在超平面 w x + b = 0 wx+b=0 確定的情況下 w x + b |wx+b| 可以表示點距離分離超平面的遠近, w x + b wx+b 的符號與類標記 y y 的符號是否一致能夠表示分類是否正確。所以用 y ( w x + b ) y(wx+b) 表示分類的正確性和確信度,即為函式間隔。

定義:對於給定的訓練資料集T和超平面(w,b),定義超平面(w,b)關於樣本點 ( x i , y i ) (x_i,y_i) 的函式間隔為:
γ ^ i = y i ( w x + b ) \hat \gamma_i=y_i(wx+b)
定義超平面(w,b)關於訓練資料集T的函式間隔為超平面(w,b)關於T中所有樣本點 ( x i , y i ) (x_i,y_i) 的函式間隔之最小值,即:
γ ^ = m i n γ ^ \hat \gamma=min \hat \gamma

函式間隔可以表示分類預測的正確性以及確信度,但是如果成比例的改變 w , b w,b 則超平面不會改變,但是函式間隔卻成為原來的2倍,所以我們可以對分離超平面的法向量 w w 加某些約束,規範化。 w = 1 ||w||=1 使得函式間隔是確定的,這時函式間隔變為幾何間隔。點到超平面 ( w , b ) (w,b) ,法向量 w w 的距離為:
γ i = y i ( w w x i + b w ) \gamma_i=y_i(\frac{w}{||w||}·x_i+\frac{b}{||w||})
超平面關於樣本的幾何間隔一般是指例項點到超平面的帶符號的距離,當樣本點被超平面正確分類時就是例項點到超平面的距離。

3 間隔最大化

所說的間隔是指硬間隔,當訓練資料近似線性可分的時候,稱為軟間隔。直觀解釋是,以充分大的確信度對訓練資料進行分類,不僅將正負樣例分開,而且將最難分的例項點,離超平面最近的點也有足夠大的確信度將他們分開。
問題可以被表示為:
m a x w , b γ max_{w,b} \quad\gamma
s . t . y i ( w w x i + b w ) γ , i = 1 , 2 , 3 , . . . N s.t.\quad y_i(\frac{w}{||w||}·x_i+\frac{b}{||w||})\ge \gamma,i=1,2,3,...N
考慮到幾何間隔和函式間隔的關係式,這個問題可以改寫為:
m a x w , b γ ^ w max_{w,b}\quad \frac{\hat \gamma}{||w||}
s . t . y i ( w x i + b ) γ ^ , i = 1 , 2 , 3... N s.t. \quad y_i(w·x_i+b)\ge\hat\gamma,i=1,2,3...N
實際上間隔 γ ^

相關推薦

支援向量學習·統計學習方法

支援向量機 1 線性可分支援向量機 線性可分支援向量機和線性支援向量機假設輸入空間與特徵空間為一一對應關係,並將輸入空間中的輸入對映為特徵空間中的特徵向量。非線性支援向量機利用一個從輸入空間到特徵空間的非線性對映將輸入對映為特徵向量,所以輸入都是由輸入空間到特徵空間,支援向量機的

機器學習——支援向量SVM

在之前做數學建模的時候就有使用過支援向量機的有關知識,但是對於支援向量機的理解一直不是很深刻,尤其是數學推導部分還是存在一些問題。在最近看周志華西瓜書的過程中同樣發現這一問題,西瓜書中對支援向量機的講解部分不是很詳細,所以我又查找了其他的資料。 支援向量機是一種原創性(非組

資料探勘十大演算法——支援向量SVM:線性支援向量

首先感謝“劉建平pinard”的淵博知識以及文中詳細準確的推導!!! 本文轉自“劉建平pinard”,原網址為:http://www.cnblogs.com/pinard/p/6097604.html。 支援向量機原理SVM系列文章共分為5部分: (一)線性支援向量機

機器學習---支援向量實戰核函式實現

這節和上一節很像,不同的是,上一篇的是通過支援向量和待分類資料內積進行分類的,只是這裡不同的是,在計算內積時使用核函式進行代替,這裡參考的是機器學習實戰中的核函式,如果前面理解的比較深入,讀程式碼還是很簡單的,這裡的程式碼建議不要剛開始就去讀核函式定義,建議先從測試核函式的程

【深度學習基礎-06】支援向量SVM-線性不可分

 1 SVM的優點                                      

【深度學習基礎-05】支援向量SVM-線性可分

Support Vector Machine 目錄 1背景 2 機器學習的一般框架 3 什麼是超平面 4 線性可區分(linear separatable)和線性不可區分(linear inseparatable) 5 如何計算超平面以及舉例 1背景 Vladim

學習筆記——支援向量svm2對偶問題

回顧 上一篇已經講到了將找一個最好的分割超平面轉化為上面的公式並且用二次規劃來求解的問題。但是還是存在一個問題,這個演算法維度(w的維度)不是跟資料量相關的,而是跟資料內在的vc維度有關的,所以當

支援向量SVM:基於核函式的非線性SVM

前言 線性分類SVM是一種線性分類非常有效的方法,若分類問題是非線性,需要考慮對資料進行 空間變換,將非線性分類問題轉變為線性分類問題,使非線性SVM的學習轉變為線性SVM的學習。 若使用對映ϕ\phiϕ將例項從原空間X\mathcal XX(一般為歐式空

資料探勘十大演算法——支援向量SVM:SMO演算法原理

首先感謝“劉建平pinard”的淵博知識以及文中詳細準確的推導!!! 支援向量機原理SVM系列文章共分為5部分: (一)線性支援向量機 (二)線性支援向量機的軟間隔最大化模型 (三)線性不可分支援向量機與核函式 (四)SMO演算法原理 (五)線性支援迴歸

資料探勘十大演算法——支援向量SVM:線性支援向量的軟間隔最大化模型

首先感謝“劉建平pinard”的淵博知識以及文中詳細準確的推導!!! 支援向量機原理SVM系列文章共分為5部分: (一)線性支援向量機 (二)線性支援向量機的軟間隔最大化模型 (三)線性不可分支援向量機與核函式 (四)SMO演算法原理 (五)線性支援迴歸

資料探勘十大演算法——支援向量SVM:線性支援迴歸

首先感謝“劉建平pinard”的淵博知識以及文中詳細準確的推導!!! 支援向量機原理SVM系列文章共分為5部分: (一)線性支援向量機 (二)線性支援向量機的軟間隔最大化模型 (三)線性不可分支援向量機與核函式 (四)SMO演算法原理 (五)線性支援迴歸

支援向量SVM:基於軟間隔最大化的線性SVM

前言 由上節,線性可分SVM的學習模型為 min⁡ω,b12∣∣ω∣∣2s.t.1−yi(ω⋅xi+b)≤0\begin{aligned} \min_{\bm\omega, b} &\quad\frac{1}{2}||\bm\omega|

演算法面試題-- 統計學習與模式識別面試題

題目: 答案解析: 第一部分: 1.統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行預測與分析的一門學科,又稱為統計機器學習; 特點:以計算機為平臺;以資料為物件;以方法為中心;以概率論、統計學、資訊理論以及最優化理論等為理論依託;目的是實現對資料的預測

統計學習方法筆記統計學習方法簡介

統計學習概論: 一、統計學習 執行統計學習相關方法的前提:假設同類資料具有一定的統計規律性 定義:計算機基於資料構建相應的概率統計模型,利用模型對資料進行預測與分析 方法分類:監督學習、非監督

STM32Hal庫學習CubeMx學習點亮LED燈[轉載]

STM32Hal庫學習(一)CubeMx學習點亮LED燈 2018年07月10日 01:05:03 靜守己心 閱讀數:174更多 個人分類: STM32 cubemx安裝: MDK5安裝+破解+pack 言歸正傳 新建工程選擇是STM32型

深度學習深度學習資料

一、學習清單 1、綜合類 2、計算機視覺 3、NLP領域 (3)部落格推薦:http://www.wildml.com/  包含了RNN、LSTM、Attention機制等教程,最主要的是講解的淺顯易懂,讓我等菜鳥受益匪淺

系統學習深度學習 --深度學習與神經網路關係

       假設我們有一個系統S,它有n層(S1,…Sn),它的輸入是I,輸出是O,形象地表示為: I =>S1=>S2=>…..=>Sn => O,如果輸出O等於輸入I,即輸入I經過這個系統變化之後沒有任何的資訊損失(呵呵,大牛說,這是不可能的。資訊理論中有個“資訊逐層丟失”

Boosting學習——PAC學習模型到Boosting

PAC ( Probably Approximately Correct)可能近似正確學習模型 因為我們不能指望學習能夠零錯誤,並且也不能要求對任意資料的預測能夠成功,但是我們需要將錯誤率和預測失敗率

深度學習深度學習的發展歷史

本次深度學習系列主要從以下幾個方面記錄,主要為CNN相關 另外最後會專留一章講述CNN與計算機視覺中的目標檢測的發展。 ∙發展歷史 ∙基礎結構 ∙損失函式 ∙優化方法 ∙訓練trick 學習任一門知識都應該先從其歷史開始,把握了歷史,也就抓住了現在

機器學習(十) 支持向量 SVM

gin 模型 結構 線性可分 adding 統計學習 lis 可能 方法 一、什麽是支撐向量機SVM (Support Vector Machine) SVM(Support Vector Machine)指的是支持向量機,是常見的一種判別方法。在機器學習領域,是一個有監