1. 程式人生 > >統計學習理論(SLT)與支援向量機(SVM)

統計學習理論(SLT)與支援向量機(SVM)

0、相關名詞解釋

內積<xy>=x1y1+x2y2
超平面:是二維中的直線、三維中的平面的推而廣之。它是n維空間的n-1維仿射子空間,能將n維空間分為兩部分,對應輸出中的兩類。
對映:指一個法則,它能夠使一個集合中的元素在另一個集合中有確定的元素與之對應。任何一個定義在全體實數上的函式都是實數集到其自身的對映,因此,函式可以看作對映的特殊情況。
線性空間:有一個非空集合V和一個數域P,當……滿足加法和乘法規則時,那麼V稱為數域P上的線性空間。V的右肩可以用整數n表示維數。
歐幾里得空間:引入內積運算並且內積計算滿足一些性質,這樣的線性空間成為歐幾里得空間。

1、引言-統計學習理論與機器學習

傳統的估計高維函式依賴關係的方法所堅持的信念是:實際問題中總存在較少數目的一些“強特徵”,用它們的簡單函式(如線性組合)就能較好地逼近未知函式。因此,需要仔細地選擇一個低維的特徵空間,在這個空間中用常規的統計技術來求解一個逼近。
而SLT&SVM所堅持的信念是:實際問題中存在較大數目的一些“弱特徵”,它們“巧妙的”線性組合可較好地逼近未知的依賴關係。因此,採用什麼樣的“弱特徵”並不十分重要,而形成“巧妙的”線性組合更為重要。
在傳統方法中,需要人工選擇(構造)一些數目相對較少的“巧妙的特徵”,而SVM方法則是自動地選擇(構造)一些數目較少的“巧妙的特徵”。在實際應用中,可通過構造兩層(或多層)SVM來選擇“巧妙的特徵”
機器學習就是從給定的函式集f(x,α

)(α是引數)中,選擇出能夠最好地逼近訓練器響應的函式。機器學習目的可以簡單歸納為:給出一組獨立的觀測樣本,在一組函式中求出一個最優函式,使期望的風險最小。模式識別、函式逼近和概率密度估計是三類基本的機器學習問題。
再用有限數量資訊解決一個問題時,要儘量避免將一個更為一般的問題作為其中間步驟。即意味著當解決模式識別或迴歸估計問題時,必須設法去“直接”尋找待求的函式,而不是首先估計密度,然後用估計的密度來構造待求的函式。
未知型別的概率分佈的數學期望不好計算,只好用樣本風險的算術平均來代替資料期望,相應的期望風險最小化也用經驗風險最小化來代替。
在某些情況下,誤差過小反而導致推廣能力下降,這就是過學習問題,神經網路的過學習問題是經驗風險最小化原則失敗的典型例子。推廣性和學習精度是一對不可調和的矛盾,採用複雜的學習機器雖然容易使得學習誤差更小,卻往往喪失推廣性。

2、支援向量機(SVM)的引入

SLT(統計學習理論)被認為是目前針對有限樣本估計和預測學習的最佳理論。不同於傳統的SLT提出了一種新的策略,即把函式集構造為一個函式子集序列,使各個子集按照VC維的大小排列;在每個子集中尋找最小經驗風險,在子集間折衷考慮經驗風險和置信範圍,取得實際風險的最小。這種思想稱作結構風險最小化(Structural Risk Minimization),即SRM準則。那麼如何實現SRM準則呢?有以下兩種思路:
1、在每個子集中求最小經驗風險,然後選擇使最小經驗風險和置信範圍之和最小的子集。
2、設計函式集的某種結構使每個子集中都能取得最小的經驗風險,然後只需選擇適當的子集使置信範圍最小,則這個子集中使經驗風險最小的函式就是最優函式。支援向量機方法實際上就是這種思路的實現。
SVM的理論基礎比NN更堅實,更像一門嚴謹的“科學”(三要素:問題的表示、問題的解決、證明);SVM是嚴格的數學推理,而NN更依賴於工程技巧;推廣能力取決於“經驗風險值”和“置信範圍值”,NN不能控制兩者中的任何一個;NN設計者用高超的工程技巧彌補了數學上的缺陷——設計特殊的結構,利用啟發式演算法,有時能得到出人意料的好結果。
但是:“我們必須從一開始就澄清一個觀點,就是如果某事不是科學,它並不一定不好。比如說,愛情就不是科學。因此,如果我們說某事不是科學,並不是說它有什麼不對,而只是說它不是科學。” —— by R. Feynman
課後作業:設計並程式設計實現一個簡單的用於文字分類的SVM。