1. 程式人生 > >《機器學習實戰》學習筆記:支援向量機

《機器學習實戰》學習筆記:支援向量機

該節的內容是支援向量機(SVM, support vectormachine)。

一.概念描述

支援向量機,就是通過最大化支援向量到分類超平面之間的分類間隔。分類超平面就是我們想要得到的決策曲面;支援向量就是離分類超平面最近的點,而間隔即為支援向量到分類超平面的距離。

核函式:這是一種將SVM擴充套件到更多資料集的方式,一般的說法是,核函式的作用是將資料從低維空間對映到高維空間,使得線性不可分變得線性可分。這句話的意思用個簡單的例子來說明:

有:a1 * x1^2 + a2 * x2^2 + a3 * x1x2 = 0

此時令:z1=x1^2, z2=x2^2, z3=x1x2

這樣就由原來的二維對映到三維空間了,而此時問題變成線性可分了。我們知道,在求解SVM時,所有的運算都可以寫成內積的形式

,但是在高維空間中計算內積往往比較複雜,有時可能出現維數災難,此時我們就可以把內急運算子換成核函式,從而解決這個問題。

設非線性對映Φ(x)將全部原始資料 x 變換到另一個特徵空間,在訓練SVM時,需要計算兩個樣本間的內積,兩個樣本xixj對應的高維空間的內積為:<Φ(xi), Φ(xj)>,該內積可以通過一個核函式K(xi, xj)計算得到。而不用知道這個樣本對映Φ(x)是怎樣。徑向基函式是SVM中常用的一個核函式:

這裡寫圖片描述

徑向基函式是一個採用向量作為自變數的函式,能夠基於向量距離運算輸出一個標量。

二.書中提到的幾點

  • SVM可能是現成最好的分類器,這裡“現成”指的是分類器不加修改即可直接使用。幾乎所有的分類問題都可以使用SVM,但是,SVM本身是一個二值分類器,對於多類分類問題,如果需要使用SVM,則需要對程式碼做一些修改。
  • SVM的實現方法有很多,最常用的就是序列最小最優化演算法(SMO,Sequential Minimal Optimization)
  • 支援向量機是一種分類器。之所以稱為“機”是因為它會產生一個二值決策結果,即它是一種決策“機”。