支援向量機學習(一)·統計學習方法
支援向量機
1 線性可分支援向量機
線性可分支援向量機和線性支援向量機假設輸入空間與特徵空間為一一對應關係,並將輸入空間中的輸入對映為特徵空間中的特徵向量。非線性支援向量機利用一個從輸入空間到特徵空間的非線性對映將輸入對映為特徵向量,所以輸入都是由輸入空間到特徵空間,支援向量機的學習是在特徵空間進行的。
假設資料集
假設資料是線性可分的,學習的目標就是在空間中找到一個分離超平面,將例項分別分開為正負例。分離超平面對應方程
一般的當資料可分時,有無數多個超平面可以將資料分開,線性可支援向量機利用間隔最大化求解最優分離超平面,這時的解是唯一的。
定義(線性可分支援向量機):
給定線性可分訓練資料集,通過間隔最大化或者等價的求解相應的凸二次規劃問題學習得到分離超平面為
對應的分類決策函式
稱為線性可分支援向量機。
2 函式間隔和幾何間隔
一個點距離分離超平面的遠近可以表示分類預測的確信程度。在超平面 確定的情況下 可以表示點距離分離超平面的遠近, 的符號與類標記 的符號是否一致能夠表示分類是否正確。所以用 表示分類的正確性和確信度,即為函式間隔。
定義:對於給定的訓練資料集T和超平面(w,b),定義超平面(w,b)關於樣本點 的函式間隔為:
定義超平面(w,b)關於訓練資料集T的函式間隔為超平面(w,b)關於T中所有樣本點 的函式間隔之最小值,即:
函式間隔可以表示分類預測的正確性以及確信度,但是如果成比例的改變
則超平面不會改變,但是函式間隔卻成為原來的2倍,所以我們可以對分離超平面的法向量
加某些約束,規範化。
使得函式間隔是確定的,這時函式間隔變為幾何間隔。點到超平面
,法向量
的距離為:
超平面關於樣本的幾何間隔一般是指例項點到超平面的帶符號的距離,當樣本點被超平面正確分類時就是例項點到超平面的距離。
3 間隔最大化
所說的間隔是指硬間隔,當訓練資料近似線性可分的時候,稱為軟間隔。直觀解釋是,以充分大的確信度對訓練資料進行分類,不僅將正負樣例分開,而且將最難分的例項點,離超平面最近的點也有足夠大的確信度將他們分開。
問題可以被表示為:
考慮到幾何間隔和函式間隔的關係式,這個問題可以改寫為:
實際上間隔