1. 程式人生 > >支援向量機2—線性支援向量機與軟間隔最大化

支援向量機2—線性支援向量機與軟間隔最大化

1、線性支援向量機

線性可分問題的支援向量機學習方法,對線性不可分訓練資料是不適用的。因為這時上述方法中的不等式約束並不能都成立。這時就需要修改硬間隔最大化,使其成為軟間隔最大化。

假設給定一個特徵空間上的訓練資料集T={(x1,y1),(x2,y2),...,(xN,yN)},其中xi∈χ=Rn(R的n次方),yi∈γ={-1,+1},i=1,2,...,N, xi為第i個特徵向量,yi為xi的類標記。再假設訓練資料集不是線性可分的。通常情況是,訓練資料中有一些特異點,將這些特異點去除後,剩下大部分的樣本點組成的集合是線性可分的。

線性不可分意味著某些樣本點(xi,yi)不能滿足函式間隔大於等於1的約束條件。即不能滿足 yi(w*xi+b)-1≥0 這個條件。為了解決這個問題,可以對每個樣本點(xi,yi)引進一個鬆弛變數 ξi≥0, 使得函式間隔加上鬆弛變數大於等於1。這樣約束條件變為yi(w*xi+b)≥1-ξi, 同時,為每個鬆弛變數ξi支付一個代價ξi。


最小化目標函式(7.32)包含兩層含義:使0.5*||w||2儘量小即間隔大,同時使誤分類點的個數儘量小,C是調和二者的係數。


2、學習的對偶演算法







步驟(2)中,對任一適合條件0<aj*<c的aj*,按式(7.51)都可求出b*,但是由於原始問題(7.32)~(7.34)對b的解並不唯一,所以實際計算時可以取在所有符合條件的樣本點上的平均值。

3、支援向量


軟間隔的支援向量xi或者在間隔邊界上,或者在間隔邊界與分離超平面之間,或者在分離超平面誤分一側。

由上面的KKT條件知,若ai*<C,則ξi=0,支援向量xi恰好落在間隔邊界上;若ai*=C, 0<ξi<1,則分類正確,xi在間隔邊界與分離超平面之間;若ai*=C, ξi=1,則xi在分離超平面上;若ai*=C, ξi>1,則xi位於分離超平面誤分一側。

4、合頁損失




參考:《統計學習方法》李航