說說高斯過程迴歸

阿新 • • 發佈：2019-01-14

作者介紹：新浪微博ID@妖僧老馮，9月將赴南京大學（直博生），方向是機器學習與資料探勘

編者：小便和作者打過幾次交道，一直以為是他是已“修成正果”的某某博士，便“畢恭畢敬”地去邀請他寫篇牛文。細聊之後才得知小夥子原來是90後，9月份才博士入學。這篇文章對GP進行了深度科普，數學公式是有一些的，但耐心讀讀，都不是問題的。高斯過程是機器學習領域一個基礎的方法，同時又和其他方法有千絲萬縷的聯絡，值得大家研究一下。文中一些細節也歡迎大家和作者一起探討。另外，推薦下小夥子的剛開的個人部落格：http://kingfengji.com/

今天起會陸續寫一些機器學習的notes，這次介紹一個很酷的idea，aka 高斯過程迴歸（Gaussian Process Regression)。

網上講高斯過程迴歸的文章很少，且往往從高斯過程講起，我比較不以為然：高斯過程迴歸（GPR），終究是個離散的事情，用連續的高斯過程( GP) 來闡述，簡直是殺雞用牛刀。所以我們這次直接從離散的問題搞起，然後把高斯過程逆推出來。

這篇部落格的主要目的是解釋高斯過程迴歸這個主意是怎麼想出來的，模型多了去了，為毛要用它。

這篇部落格次要目的是我買了一個surface pro 2 , 我想看看好不好用。（答案是好用）

這篇部落格有兩個彩蛋，一個是揭示了高斯過程迴歸和Ridge迴歸的聯絡，另一個是介紹了貝葉斯優化具體是怎麼搞的。後者其實值得單獨寫一篇部落格，我在這裡就是做一個簡單介紹好了，但沒準就不寫了，想想就累。

先說一說高斯過程迴歸的 Intuition:

假設有一個未知的函式f : R--> R ，

在訓練集中，我們有3個點 x_1, x_2, x_3, 以及這3個點對應的結果，f1,f2,f3. (如圖) 這三個返回值可以有噪聲，也可以沒有。我們先假設沒有。

so far so good. 沒什麼驚訝的事情。

高斯過程迴歸的關鍵假設是：

給定一些 X 的值，我們對 Y 建模，並假設對應的這些 Y 值服從聯合正態分佈！

（更正式的定義後面會說到）

換言之，對於上面的例子，我們的假設是：

一般來說，這個聯合正態分佈的均值向量不用操心，假設成0 就蠻好。（講到後面你就知道為什麼了）

所以關鍵是，這個模型的協方差矩陣K 從哪兒來。

為了解答這個問題，我們進行了另一個重要假設：

如果兩個x 比較相似（eg, 離得比較近），那麼對應的y值的相關性也就較高。換言之，協方差矩陣是 X 的函式。（而不是y的函式）

具體而言，對於上面的例子，由於x3和x2離得比較近，所以我們假設 f3和f2 的correlation 要比 f3和f1的correlation 高。

話句話說，我們可以假設協方差矩陣的每個元素為對應的兩個x值的一個相似性度量：

那麼問題來了，這個相似性怎麼算？如何保證這個相似性度量所產生的矩陣是一個合法的協方差矩陣？

好，現在不要往下看了，你自己想3分鐘。你也能想出來的。提示：合法的協方差矩陣就是 (symmetric) Positive Semi-definite Matrix

（。。。。。。。。。。。。思考中）

好了時間到。

答案： Kernel functions !

如果你瞭解SVM的話，就會接觸過一個著名的Mercer Theorem，（當然如果你瞭解泛函分析的話也會接觸過），這個M定理是在說：一個矩陣是Positive Semi-definite Matrix當且僅當該矩陣是一個Mercer Kernel .

所以我們在svm裡用過的任何Kernel都能拿過來用！

舉個栗子，在高斯過程迴歸裡，一種非常常見的Kernel就是SVM裡面著名的高斯核（但是為了讓命名不是那麼混淆，文獻中一般把這個Kernel稱作squared exponential kernel.

具體而言就是

好了，現在可以做迴歸分析了：

如果我們現在又有了一個新的點 x*

這個新的點對應的f* 怎麼求？（如下圖）

根據假設，我們假設 f* 和訓練集裡的 f1, f2, f3 同屬於一個（4維的）聯合正態分佈！

也就是說，不僅 f1,f2,f3屬於一個3 維的聯合正態分佈（引數可以算出來），而且 f* 和 f1,f2,f3屬於（另一個）4維的聯合正態分佈，用數學的語言來表達就是：

首先我們來看一看，這個4 x 4 的矩陣能不能算出來：

黃色的大K，是依據訓練集的3維聯合分佈算出來的，綠色的K*, 是測試點x* 分別和每一個訓練集的x 求出來的。所以整個聯合分佈我們都知道了。

接下來的事情就好辦了，我們既然已經知道（f,f*)的聯合分佈P(f, f*)的所有引數, 如何求p(f*) ？好訊息是這個聯合分佈是正態的，我們直接用公式就能搞出來下面的結果（using the marginalization property）：

不難求出f* 隸屬於一個1維的正態分佈，引數是：

所以這是一種貝葉斯方法，和OLS迴歸不同，這個方法給出了預測值所隸屬的整個（後驗）概率分佈的。再強調一下，我們得到的是f* 的整個分佈！不是一個點估計，而是整個分佈啊同志們。

In addition, 不僅可以得到 f*這一個點的分佈，我們對這個未知的函式也可以進行推斷！換言之，如果把一個函式想成一個變數，那麼高斯過程迴歸可以求出這個函式的分佈來。(distribution over functions)

不幸的是，我們的計算機只能儲存離散的資料，怎麼表示一個連續的函式呢？

好辦，我們對一個區間裡面均勻地硬造出來1萬個測試點x*, 然後求出這些測試點和訓練集所對應的y（一個巨高維的向量）的聯合分佈，然後在這個巨高維的聯合分佈裡取樣一次，就得到了函式的（近似的）一個樣本。

比如訓練集就三個點，測試集1萬個x，圖中的每一個紅點就分別是這些點f* 的均值，（當點很多的時候，就可以假設是一個“連續”的函數了）而藍色的線代表一個或兩個標準差的bound.

我們如果從這個分佈中取樣10次，就可以得到10個巨高維的向量，也就是從這個後驗概率中sample出來的10個函式的sample. plot出來長這個樣子：

含有已知資料（訓練集）的地方，這些函式都離的很近（variance很低），沒有資料的時候，這個spread就比較大。

也許你會問：我為毛要搞出來函式的分佈？我為毛要關心這個variance. 在很多問題中，我們不僅僅需要知道預測值的點估計，而且要知道這個估計有多少信心在裡面（這也是貝葉斯方法的好處之一）

舉個例子：Multiple Bandit Problem

假設我們已經有了幾個油井，每個油井的價值不一樣，我們在這個二維平面上，利用高斯過程迴歸，對每一個地理位置估計一個該位置對應的出油量。

而開發每一口井是有成本的，在預算有限的情況下，如果想盡可能少地花錢，我們就需要定義一個效益函式，同高斯過程迴歸的預測結果相結合，來指導我們下一次在哪兒打井。這個效益函式往往是預測值和方差的一個函式。

以上這個例子，就是高斯過程迴歸在貝葉斯優化中的一個典型應用。有時間專門寫一篇。

好了，現在終於可以講一講高斯過程了。
高斯過程是在函式上的正態分佈。（Gaussian distribution over functions)

具體而言就是

我們具體用的時候，模型假設是醬紫的：

我們觀察到一個訓練集 D

給定一個測試集 X* （ X* 是一個 N* x D 的矩陣， D是每一個點的維度）我們希望得到一個 N* 維的預測向量 f*. 高斯過程迴歸的模型假設是

然後根據貝葉斯迴歸的方法，我們可以求出來 f*的後驗概率：

This is it. 要啥有啥了。

下面著重說一下有噪聲情況下的結果，以及此情況下和Ridge Regression的神祕聯絡。

當觀測點有噪聲時候，即， y = f(x) + noise,where noise ~N(0, sigma^2)

我們有

發現沒，唯一區別就是 K 變成了 Ky，也就是多加了一個sigma。

這個很像是一種regularization. 確實如此。

好了，下面就說說這個 GPR的 insight，這個模型到底想幹什麼

如果只有一個測試點，那麼輸出的f* 就是隸屬於一個1維的正態分佈了，具體而言：

說說高斯過程迴歸

先說一說高斯過程迴歸的 Intuition:

說說高斯過程迴歸

淺析高斯過程迴歸（Gaussian process regression）

機器學習-高斯過程，隨機過程迴歸

高斯過程（GP）

高斯過程(轉)

(轉載) 淺談高斯過程回歸

機器學習的高斯過程-前言

淺談：高斯過程與貝葉斯優化

《隨機過程》學習筆記--高斯過程()

機器學習中的高斯過程

高斯過程的模擬/取樣/生成

《隨機過程》學習筆記--高斯過程(1)

高斯過程的優點和缺點

sklearn文件 — 1.7. 高斯過程

【貝葉斯分析⑦】高斯過程

1.7. 高斯過程(Gaussian Processes)

從高斯過程到貝葉斯優化

c++實現線性迴歸（高斯消元）（附python實現）

高斯模糊演算法的全面優化過程分享。

【機器學習】貝葉斯線性迴歸（最大後驗估計+高斯先驗）

說說高斯過程迴歸

先說一說 高斯過程迴歸 的 Intuition:

相關推薦

先說一說高斯過程迴歸的 Intuition: