1. 程式人生 > >機器學習的高斯過程-前言

機器學習的高斯過程-前言

前言

  在過去十年中,機器學習的“核心機器”領域出現了大量工作。 可能最著名的例子是支援向量機,但在此期間,高斯過程模型應用於機器學習任務的活動也很多。 本書的目標是為該領域提供系統統一的處理。 高斯過程為核心機器中的學習提供了一種原則的,實用的概率方法。 這為模型預測的解釋提供了優勢,併為學習和模型選擇提供了良好的框架。 過去十年的理論和實踐發展使得高斯過程成為真正監督學習應用的重要競爭者。

  粗略地說,隨機過程是概率分佈(描述有限維隨機變數)到函式的概括。通過關注高斯過程,可以看出推理和學習所需的計算變得相對容易。 因此,機器學習中的監督學習問題可以被認為是從例項中學習函式,可以直接投入到高斯過程框架中。

  1994年,機器學習環境引起我們對高斯過程(GP)模型的興趣,我們都是多倫多大學Geoff Hinton神經網路實驗室的研究生。 這是一個神經網路領域日趨成熟並且與統計物理學,概率模型和統計學的許多聯絡變得普遍的時代,並且第一個基於核心的學習演算法正在變得流行。 回想起來,應用高斯過程來應對機器學習問題的時機已經成熟。

  許多研究人員意識到神經網路在實踐中並不那麼容易應用,因為需要確定很多東西:使用什麼樣的架構,啟用函式是什麼,學習率是多少等等,以及缺乏有原則的框架來回答 這些問題。 概率框架是使用MacKay在1992b年提出的近似和使用Neal 在1996年提出的馬爾可夫鏈蒙特卡羅(MCMC)方法進行的。 Neal也是同一個實驗室的研究生,在他的論文中,他試圖證明使用貝葉斯理論,當模型變大時,人們不一定會遇到“過度擬合”的問題,而且應該追求大模型的極限。 雖然他自己的工作主要集中在用於在大型有限網路中進行推理的複雜馬爾可夫鏈方法,但他確實指出他的一些網路在無限大小的限制內成為高斯過程,並且他說,“在這種情況下可能有更簡單的方法進行推理”。

  提到一個稍微寬泛的歷史視角也許很有意思。 神經網路變得流行的主要原因是它們允許使用自適應基函式,而不是眾所周知的線性模型。 自適應基函式或隱藏單元可以“學習”對手頭的建模問題有用的隱藏特徵。 然而,這種適應性是以許多實際問題為代價的。 後來,隨著“核心時代”的推進,人們意識到固定基函式的侷限性並不是一個很大的限制,如果只有一個有足夠的,即通常無限多,並且一個人小心控制過度擬合的問題。 使用先驗或正規化。 得到的模型比自適應基函式模型更容易處理,但具有相似的效果。 因此,人們可以說(就機器學習而言)適應性基礎功能僅僅是十年的題外話,現在我們又回到了我們起點。 如果我們考慮用於解決實際學習問題的模型,這種觀點可能是合理的,例如,MacKay 在2003年提出一個質疑,“倒洗澡水時把嬰兒也倒了?(在扔掉你不要的東西時把寶貴的東西都無意地一起扔掉了?)”引起了人們的關注,因為核心檢視沒有給我們任何隱藏的表示,告訴我們解決特定問題的有用功能是什麼。 正如我們將在本書中論證的那樣,一個答案可能是學習更復雜的協方差函式,並且可以在這裡找到問題的“隱藏”屬性。 GP模型未來發展的一個重要領域是使用更具表現力的協方差函式。 超過一個世紀的統計學已經研究了監督學習問題,並且已經開發了大量已經成熟的理論。最近,隨著可負擔的快速計算的進步,機器學習社群已經解決了越來越大和複雜的問題。

  許多基本理論和許多演算法在統計和機器學習社群之間共享。 主要差異可能是受到攻擊的問題的型別,以及學習的目標。 有可能過於簡單化,可以說在統計學中,主要關注點通常是在模型方面理解資料和關係,給出線性關係或獨立性等近似摘要。 相比之下,機器學習的目標主要是儘可能準確地進行預測並理解學習演算法的行為。 這些不同的目標導致了兩個領域的不同發展:例如,神經網路演算法已廣泛用作機器學習中的黑盒函式逼近器,但對於許多統計學家來說,它們不太令人滿意,因為解釋這樣的模型計較困難。

  在某種意義上,高斯過程模型將兩個社群的工作結合在一起。 正如我們將要看到的,高斯過程在數學上等同於許多眾所周知的模型,包括貝葉斯線性模型,樣條模型,大型神經網路(在適當的條件下),並且與其他模型密切相關,例如支援向量機。 在高斯過程觀點下,模型可能比它們的傳統對應物更容易處理和解釋,例如, 神經網路。 在統計領域,雖然說高斯過程在某些特定的應用(如氣象學和地質學的空間模型,以及計算機實驗)之外,依然使用廣泛有些誇大,但是高斯過程確實被頻繁地研究。 在時間序列分析文獻中,高斯過程模型也存在豐富的理論; 附錄B給出了對這些文獻的一些註釋。

  本書主要面向電腦科學,統計學和應用數學系的機器學習研究生和研究人員。 作為先決條件,我們需要在電子工程,物理和電腦科學等數學學科的畢業生中獲得微積分,線性代數和概率論的良好基礎。 對於微積分和線性代數的準備,任何優秀的大學級物理或工程數學教科書如Arfken [1985]都可以。 對於概率論,需要熟悉多變數分佈(尤其是高斯分佈)和條件概率。 附錄A中還提供了一些背景數學資料。

  本書的主要重點是清晰簡明地概述高斯過程在機器學習環境中的主要思想。 我們還涵蓋了與文獻中現有模型的廣泛聯絡,並涵蓋了更快的實用演算法的近似推斷。 我們已經提供了許多方法的詳細演算法來幫助從業者。 軟體實現可以從本書的網站上獲得,參見附錄C.我們還在每章中包含了一小部分練習; 我們希望這些將有助於更深入地瞭解材料。

  為了控制本書篇幅,我們不得不省略一些主題,例如,用於推理的馬爾可夫鏈蒙特卡羅方法。 寫書的最困難的事情之一就是不寫的部分。 在章節中,我們經常選擇特別深入地描述一種演算法,並且僅在傳遞時提及相關工作。 雖然這導致了一些材料的遺漏,但我們認為它是專論的最佳方法,並希望讀者能夠獲得一般性的理解,以便能夠進一步推進GP模型不斷增長的文獻。

  本書自然分為兩部分,第五章涵蓋核心材料,其餘部分涵蓋與其他方法的聯絡,快速近似和更專業的屬性。 有些部分標有星號。 這些部分可能在第一次閱讀時被省略,並且不是以後(非加星標)材料的先決條件。

  儘管我們付出了最大努力,但不可避免地會出現一些錯誤,這些錯誤將通過本書的印刷版本。 勘誤表將通過該書的網站提供 http://www.gaussianprocess.org/gpml/ 我們發現這本書的聯合寫作是一次很好的經歷。 雖然有時很難,但我們相信最終結果要比我們任何一個人單獨寫出來的要好得多。

  現在,在他們第一次進入機器學習社群十年後,高斯過程正在受到越來越多的關注。 儘管全球智慧財產權在統計學和地統計學領域已有很長一段時間,但它們的使用可能追溯到19世紀末,但它們在實際問題上的應用仍處於早期階段。 這在某種程度上與GP的非概率性類似物(支援向量機)的應用形成對比,後者由從業者更快地採用。 也許這與理解全科醫生所需的概率性思維方式有關,而這種心態並未得到普遍認可。 也許這是由於需要計算快捷方式來實現對大型資料集的推斷。 或者可能是由於缺乏對這個令人興奮的領域的自足介紹 - 我們希望通過這個卷,我們希望能夠為高斯過程在機器學習中獲得的動力做出貢獻。

                                       Carl Edward Rasmussen and Chris Williams
                                           T¨ubingen and Edinburgh, summer 2005