貝葉斯、夏農和奧卡姆開會討論「機器學習是什麼」
介紹
我們很少聽到一個三詞短語,能將統計學習、資訊理論和自然哲學的一些核心概念融合到一起。它對於任何有探索興趣的人來說,都有精確且易於理解的含義,而且對 ML 和資料科學的研究人員,它應該是個有實用性的詞。
我說的就是「最小描述長度」(Minimum Description Length)。你可能在想這到底是什麼···
讓我們撥開層層迷霧,看看它有多有用。
貝葉斯和他的定理
我們從托馬斯·貝葉斯牧師開始說起(不按年代),他從未發表過關於統計推理的想法,但他的同名定理卻經久不衰。
在 18 世紀下半葉,還未曾出現名為「概率論」的數學科學分支。人們知道它,是因為 Abraham de Moievre 寫的一本名為《機會學說》的書。1763 年,由貝葉斯撰寫的一篇名為《機會問題的解法》的文章,經過 Richard Price 編輯後寄給了英國皇家學會,並發表到《倫敦皇家學會哲學學報》上。在這篇文章中,貝葉斯用一種頻率論的方式描述了一個關於聯合概率的簡單定理,得到了逆概率的計算公式,即貝葉斯定理。
自此統計學科的兩個敵對學派——貝葉斯學派和頻率學派展開了多次「戰爭」。但為了本文的目的,讓我們暫時忽略歷史,把重點放在貝葉斯理論的簡單解釋上。本文只關注方程。
該方程本質是:在看到資料/證據(似然度)後更新先驗概率,並將更新後的信念程度賦給後驗概率。你可以從一個信念開始,但是每個資料點會加強或削弱這個信念,所以會一直更新假設。(假定 A 是某個過程的可能的前提,則 P(A) 是人們事先對前提條件出現可能性大小的估計,稱之為先驗概率。如果這個過程得到了一個結果 B,那麼貝葉斯公式提供了我們根據 B 的出現而對前提條件做出新評估的方法。P(A∣B) 即是對以 B 為前提下 A 的出現概率的重新認識,稱 P(A∣B) 為後驗概率。)
聽起來是不是簡單明瞭?
不過這段話裡有個小陷阱,你發現了嗎?我漏掉了一個詞「假設」。
在統計推理的世界中,假設就是信念。這是關於過程本質的信念(我們無法觀察到),它產生於隨機變數(有噪聲但可觀察)。在統計學中,假設被定義為一種概率分佈。但在機器學習背景下,它被看做可以產生示例或訓練資料的一套規則(或邏輯或過程),我們再從這個神祕過程中學到隱藏的性質。
所以讓我們用資料科學的符號來重新定義貝葉斯定理。我們用 D 表示資料,h 表示假設。即應用貝葉斯的公式來確定:在給定資料下,資料由什麼假設得到。我們把公式重寫為:
一般來說,我們有一個巨大(通常為無限)的假設空間,可提供很多個假設。貝葉斯推理的本質是,我們檢驗資料,從而將最可能產生觀測資料的假設的概率最大化。我們主要是想確定 P(h|D) 的 argmax 函式,即怎樣的 h 使得觀測的 D 的概率最大。為了實現這個目的,我們去掉分母 P(D) 的項,因為它不依賴於假設。這個方法被稱為最大後驗(MAP)。
現在我們應用下面的數學技巧:
-
最大化原函式和最大化取對數的原函式的過程是相似的,即取對數不影響求最大值問題。
-
乘積的對數等於對數的和。
-
正量的最大化等同於負量的最小化。
底數為 2 的負對數項看起來是不是很熟悉?這都來自「資訊理論」,下面是夏農篇。
夏農
夏農的麻省理工碩士論文在電氣工程領域被稱為 20 世紀最重要 MS 論文:22 歲的夏農在論文中展示瞭如何利用帶繼電器和開關的電子電路實現 19 世紀數學家 George Boole 的邏輯代數(布林代數)。數字計算機設計的最基本的特徵是通過開關的開啟閉合來表示「真」和「假」、「0」和「1」,並使用電子邏輯閘來決定和執行計算——這都可以追溯到夏農的論文中。
但這還不是他最偉大的成就。
1941 年,夏農前往貝爾實驗室從事戰爭方向的研究,包括密碼學。他還在進行資訊和通訊領域的原創理論研究。在 1948 年,貝爾實驗室就此項研究成果發表了一篇著名的論文。
夏農定義了源資訊量,即通過類似物理中定義熱力學熵的公式定義訊息中的資訊量。用基礎術語來說,夏農資訊熵就是編碼資訊所需的二進位制數,對於概率為 P 的訊息或事件,該訊息最高效(緊湊)的編碼需要-log2(p) 位。
這恰恰是出現在貝葉斯定理中的最大後驗表示中的術語的本質。
因此,在貝葉斯推理中,最可能的假設依賴於決定編碼長度的兩個項,並偏好最小長度。
但長度是什麼概念呢?
Length (h):奧卡姆剃刀
William Ockham(1287–1347)是一位英語方濟會修士和神學家,也是一位非常有影響力的中世紀哲學家。作為一位偉大的邏輯學家,他的名氣主要來自於他的格言,也就是眾所眾知的奧卡姆剃刀。剃刀一詞指的是通過「剔除」不必要的假設或消除兩個相似的結論來區分兩個假設。
他的意思是:若無必要, 勿增實體。用統計學的話說,就是我們必須努力用最簡單的假設來解釋所有資料。
其他名人也說過類似的原則。
牛頓說:「解釋自然界的一切,應該追求使用最少的原理。」
羅素說:「只要可能,就應該用由已知實體組成的構造來代替推匯出未知實體的推論。」
人們總喜歡較短的假設。
下圖 A 和 B 中,哪個決策樹的長度更短?
即使沒有一個假設「長度」的準確定義,我相信你會認為左邊(A)的樹看起來更短。因此,一個更短的假設是說,它有更少的自由引數或者複雜度更低的決策邊界(對於分類問題而言),或者是能夠表示簡潔性的屬性的組合。
那 Length(D|h) 又是什麼?
它是給定假設的資料長度。什麼意思呢?
直觀上看,它與假設的正確性或表示能力有關。在給定假設的條件下,它決定了假設「推斷」資料的能力。如果假設生成的資料非常理想,我們可以無誤的預測出資料,那我們根本不需要資料。
回憶一下牛頓的運動定律。
它們首次以「原理」的形式出現時,背後沒有任何的嚴格數學證明。它們不是定理,而更像基於對自然物體運動的觀察而做出的假設。但是它們對資料的描述非常完美。所以它們最終變成了物理定律。
所以當力作用在物體上時,你不需要時刻記住每一刻的加速度資料。你只需要遵循假設的定律 F=ma,並相信根據這個公式,所有你需要的資料都能計算出來。這說明 Length(D|h) 非常小。
但是如果資料經常偏離嚴格假設,那你就要對這些偏差有一個「長」的描述,以解釋這些偏差。
因此,Length(D|h) 簡潔地描述了「資料與給定假設的吻合程度」的概念。
它本質上是錯誤分類或錯誤率的概念。對於完美的假設,它是短的,在極限情況下為零。對於一個不完全符合資料的假設,它往往比較長。
這是一種權衡。
如果你用奧卡姆的剃刀剔除掉你的假設,你可能會得到一個簡單的模型,但該模型不會擬合所有資料。因此,你必須提供更多的資料。另一方面,如果你建立一個複雜且長的假設,訓練資料可能會擬合得很好,但這個假設可能(對於其它資料)不正確,因為它違背了具有最小熵假設的最大後驗準則。
很像偏差與方差的權衡嗎?確實就是 :-)
三者結合
因此,貝葉斯告訴我們,最佳假設是假設長度和錯誤率之和的最小值。
這個意義重大的句子,幾乎囊括了所有(全監督)機器學習。
從這句話延伸開來,可以看到:
線性模型的模型複雜度——選擇什麼多項式,如何減少平方和的殘差。
神經網路的架構選擇——如何防止過擬合,達到良好的驗證準確率,同時減少分類誤差。
支援向量機的正則化和核選擇——非線性地權衡準確率和決策邊界。
結論
從最小描述長度(MDL)的分析中,我們能得出什麼結論呢?
這能直接證明短假設是最好的嗎?好像不行。
MDL 表明的是,如果選擇假設的表示使假設 h 的大小為—log2 P(h),並且如果選擇異常(異常)的表示,則給定 h 的 D 的編碼長度是等於—log2 P(D|h),則 MDL 原則產生 MAP 假設。
然而,為了證明我們有這樣的表示,我們必須知道所有先驗概率 P(h),以及 P(D|h)。相對於假設的任意編碼和錯誤/誤分類,沒有理由優先考慮 MDL 假設。
在實際的機器學習中,對設計者來說,有時獲得假設的相對概率表示比完全得到每個假設的絕對概率要容易得多。
在這一點上,領域的專業知識變得極為重要。它縮短了(通常)無限大的假設空間。通過它我們能獲得一組可能性更高的假設,我們可以對這些假設優化編碼,並找到其中一組最大後驗假設。
總結和思考
如此簡單的數學推導就能在概率論的基本特徵上,深刻而簡潔地描述監督機器學習的基本限制和目標。為簡明扼要地闡述這些問題,讀者可以參考論文《為什麼機器學習有效》(http://www.cs.cmu.edu/~gmontane/ montanez_. pdf)。這些定理是如何和沒有免費午餐定理聯絡到一起的,同樣值得思考。
原文連結:https://towardsdatascience.com/when-bayes-ockham-and-shannon-come-together-to-define-machine-learning-96422729a1ad