1. 程式人生 > >周志華《機器學習》第 6 章 支援向量機

周志華《機器學習》第 6 章 支援向量機

本文是 周志華《機器學習》系列文章 之一,主要介紹支援向量機函式及核函式等概念。

第 6 章 支援向量機

6.1 間隔與支援向量

給定訓練樣本集這裡寫圖片描述分類學習最基本的想法就是基於訓練集 D 在樣本空間中找到一個劃分超平面,將不同類別的樣本分開。

在樣本空間中,劃分超平面可通過如下線性方程來描述:
這裡寫圖片描述
其中這裡寫圖片描述 為法向量,決定了超平面的方向;b為位移項,決定了超平面與原點之間的距離。

支援向量機(Support Vector Machine,簡稱SVM)的基本型為:
這裡寫圖片描述

6.2 對偶問題

對支援向量機基本型式子使用拉格朗日乘子法可得到其“對偶問題”(dual problem)。

支援向量機的一個重要性質:訓練完成後,大部分的訓練樣本都不需保留,最終模型僅與支援向量有關。

6.3 核函式

現實任務中,原始樣本空間內也許並不存在一個能正確劃分兩類樣本的超平面,對這樣的問題,可將樣本從原始空間對映到一個更高維的特徵向量,使得樣本在這個特徵空間內線性可分。如果原始空間是有限集,即屬性數有限,那麼一定存在一個高維特徵空間樣本可分。

這裡寫圖片描述
這裡的函式 k(·,·)就是“核函式”(kernel function)。

“核函式選擇”稱為支援向量機的最大變數。若核函式選擇不合適,則意味著將樣本對映到了一個不合適的特徵空間,很可能導致效能不佳。

6.4 軟間隔與正則化

現實任務中往往很難確定合適的核函式使得訓練樣本在特徵空間中線性劃分,所以就要引出“軟間隔”(soft margin)的概念。

軟間隔允許某些樣本不滿足約束這裡寫圖片描述
軟間隔支援向量機為這裡寫圖片描述
軟間隔支援向量機的最終模型僅與支援向量有關。

這裡寫圖片描述稱為“正則化”(regularization)問題,Ω(f)稱為正則化項,C稱為正則化常數。

6.5 支援向量迴歸

支援向量迴歸(Support Vector Regression,簡稱SVR)假設我們能容忍 f(x)與 y 之間最多有 Є 的偏差,即僅當 f(x) 與 y 之間的差別絕對值大於 Є 時才計算損失。

6.6 核方法

人們發展處一系列基於核函式的學習方法,統稱為“核方法”(kernel methods)。最常見的是通過“核化”(即引入核函式)來將線性學習器拓展為非線性學習器。

資源