1. 程式人生 > >機器學習-----核函式

機器學習-----核函式

前言:當我跟你說起核的時候,你的腦海裡一定是這樣的:

想到的一定是BOOMBOOM。談核色變,但是今天我們說的核卻溫和可愛的多了。

我記得我前面說到了SVM的核武器是核函式,這篇文章可以作為http://blog.csdn.net/su_mo/article/details/79310719這篇文章的下篇。但是我這裡首先強調一下,核函式不是僅僅在SVM裡使用,他只是一個工具,把低維資料對映到高維資料的工具。

形如這樣:

本來是二維的資料,現在我們把它對映的高維。這裡也需要說明下,低維到高維,維數沒有一個數量上的標準,可能就是無限維到無限維。

一 核

1.1 核的介紹


核心方法是一類用於模式分析或識別的演算法,其最知名的使用是在支援向量機(SVM)。模式分析的一般任務是在一般型別的資料(例如序列,文字文件,點集,向量,影象等)中找到並研究一般型別的關係(例如聚類,排名,主成分,相關    性,分類)圖表等)。核心方法將資料對映到更高維的空間,希望在這個更高維的空間中,資料可以變得更容易分離或更好的結構化。對這種對映的形式也沒有約束,這甚至可能導致無限維空間。然而,這種對映函式幾乎不需要計算的,所以可以說成是在低維空間計算高維空間內積的一個工具。

1.2 核的訣竅

核心技巧是一個非常有趣和強大的工具。 它是強大的,因為它提供了一個從線性到非線性的連線以及任何可以只表示兩個向量之間的點積的演算法。 它來自如下事實:如果我們首先將我們的輸入資料對映到更高維的空間,那麼我在這個高維的空間進行操作出的效果,在原來那個空間就表現為非線性。

現在,核心技巧非常有趣,因為不需要計算對映。 如果我們的演算法只能根據兩個向量之間的內積表示,我們所需要的就是用一些其他合適的空間替換這個內積。 這就是"技巧"的地方:無論使用怎樣的點積,它都被核心函式替代。 核函式表示特徵空間中的內積,通常表示為:

 

K(x,y)= <φ(x),φ(y)>

 

使用核心函式,該演算法然後可以被攜帶到更高維空間中,而不將輸入點顯式對映到該空間中。 這是非常可取的,因為有時我們的高維特徵空間甚至可以是無限維,因此不可能計算。

講了這麼大一段廢話,還是我上文的加黑部分,在低維中計算高維資料的點積。

1.3 核函式的性質

核函式必須是連續的,對稱的,並且最優選地應該具有正(半)定Gram矩陣。據說滿足Mercer定理的核是正半定數,意味著它們的核矩陣只有非負特徵值。使用肯定的核心確保優化問題將是凸的和解決方案將是唯一的。

然而,許多並非嚴格定義的核函式在實踐中表現得很好。一個例子是Sigmoid核心,儘管它廣泛使用,但它對於其引數的某些值不是正半定的。 Boughorbel(2005)也實驗證明,只有條件正定的核心在某些應用中可能勝過大多數經典核心。

核心還可以分為各向異性靜止,各向同性靜止,緊湊支撐,區域性靜止,非穩定或可分離非平穩。此外,核心也可以標記為scale-invariant(規模不變)或scale-dependent(規模依賴)    ,這是一個有趣的屬性,因為尺度不變核心驅動訓練過程不變的資料的縮放。

 

補充:Mercer 定理:任何半正定的函式都可以作為核函式。所謂半正定的函式f(xi,xj),是指擁有訓練資料集合(x1,x2,...xn),我們定義一個矩陣的元素aij = f(xi,xj),這個矩陣式n*n的,如果這個矩陣是半正定的,那麼f(xi,xj)就稱為半正定的函式。這個mercer定理不是核函式必要條件,只是一個充分條件,即還有不滿足mercer定理的函式也可以是核函式

1.4 如何選擇核

我導師說是世界性難題,反正我不懂,如果有懂得,可以私聊我哦。

但是據說高斯核效果很好。

二 幾種常用的核

2.1 線性核

線性核心是最簡單的核心函式。 它由內積<x,y>加上可選的常數c給出。 使用線性核心的核心演算法通常等於它們的非核心對應物,即具有線性核心的KPCA與標準PCA相同。

 

表示式 :

2.2 多項式核函式

多項式核是非固定核心。 多項式核心非常適合於所有訓練資料都歸一化的問題。我記得一般都會把問題歸一化吧??

表示式:k(x,y)=(αx ^ T y + c)^ d

可調引數是斜率α,常數項c和多項式度d。

2.3 高斯核

高斯核是徑向基函式核的一個例子。

或者,它也可以使用來實現

可調引數sigma在核心的效能中起著主要作用,並且應該仔細地調整到手頭的問題。 如果過高估計,指數將幾乎呈線性,高維投影將開始失去其非線性功率。 另一方面,如果低估,該函式將缺乏正則化,並且決策邊界將對訓練資料中的噪聲高度敏感。

 

2.4指數的核心

指數核與高斯核密切相關,只有正態的平方被忽略。 它也是一個徑向基函式核心。

表示式:。和高斯核確實很像,哈哈。

2.5 拉普拉斯運算元核

拉普拉斯核心完全等同於指數核心,除了對sigma引數的變化不那麼敏感。 作為等價的,它也是一個徑向基函式核心。

 

表示式:

重要的是注意,關於高斯核心的σ引數的觀察也適用於指數和拉普拉斯核心。


以上內容來自於部落格園使用者【小花花108】,原文地址:http://www.cnblogs.com/xiaohuahua108/p/6146118.html