[白話解析] 深入淺出極大似然估計 & 極大後驗概率估計

0x00 摘要

本文在少用數學公式的情況下,儘量僅依靠感性直覺的思考來講解 極大似然估計 & 極大後驗概率估計,並且從名著中找了幾個例項給大家看看這兩種估計如何應用 & 其非常有趣的特點。

0x01 背景知識

1. 概率 vs 統計

概率(probability)和統計(statistics)看似兩個相近的概念,其實研究的問題剛好相反

1.1 概率

概率研究的是,已經知道了模型和引數後,給出一個事件發生的概率。

概率是一種確定性的東西,是一種理想值。根據大數定理,當實驗次數趨近無窮的時候,頻率等於概率

頻率學派就是認為世界是確定的,建模時候引數 θ 是一個確定的值,因此他們的觀點是直接的對時間本身進行建模。

1.2 統計

統計是根據給出的觀測資料,利用這些資料進行建模和引數的預測。

統計通俗的說法就是根據觀測的資料,得到對應的模型以及模型的描述引數等(例如推測是一個高斯模型,以及得到該模型的具體的引數 σ,μ 等)。

一句話總結:概率是已知模型和引數,推資料。統計是已知資料,推模型和引數。

2. 頻率學派 vs 貝葉斯學派

頻率學派和貝葉斯學派對世界的認知有本質不同。

2.1 頻率學派與貝葉斯學派探討「不確定性」這件事時的出發點與立足點不同

頻率學派認為世界是確定的,有一個本體,這個本體的真值是不變的,我們的目標就是要找到這個真值或真值所在的範圍;
貝葉斯學派認為世界是不確定的,人們對世界先有一個預判,而後通過觀測資料對這個預判做調整,我們的目標是要找到最優的描述這個世界的概率分佈。

2.2 頻率學派和貝葉斯學派解決問題的角度不同

頻率學派從「自然」角度出發,試圖直接為「事件」本身建模,即事件在獨立重複試驗中發生的頻率趨於極限,那麼這個極限就是該事件的概率。

貝葉斯學派並不從試圖刻畫「事件」本身,而從「觀察者」角度出發。貝葉斯學派並不試圖說「事件本身是隨機的」,或者「世界的本體帶有某種隨機性」,這套理論根本不言說關於「世界本體」的東西,而只是從「觀察者知識不完備」這一出發點開始,構造一套在貝葉斯概率論的框架下可以對不確定知識做出推斷的方法。

3. 概率函式 vs 似然函式

概率:引數 + 觀測 --> 結果
似然:觀測 + 結果 --> 引數

假如有一個函式 P(x|θ), 其中θ是需要估計的引數,x是具體的資料也就是樣本。

3.1 概率函式

如果θ是已知確定的,x是變數,這個函式叫做概率函式(probability function),它描述對於不同的樣本點x,其出現概率是多少(表示不同x出現的概率)。

概率函式屬於已知模型和引數對時間進行預測分析。概率函式用於在已知一些引數的情況下,預測接下來的觀測所得到的結果。

3.2 似然函式

如果x是已知確定的,θ是變數,這個函式叫做似然函式(likelihood function), 它描述對於不同的模型引數θ,出現x這個樣本點的概率是多少(表示不同θ下,x出現的概率)。此時的函式也記作L(θ|x)或L(x;θ)或f(x;θ)

似然函式是一種關於統計模型中的引數的函式,表示模型引數中的似然性(可能性)。就是給定一組觀測資料,對有關事物的性質的引數進行估計,即已知具體樣本資料,對於模型的引數進行分析預測。

最大似然就是模型引數的最大可能性

4. 引數估計

引數估計(parameter estimation),統計推斷的一種。根據從總體中抽取的隨機樣本來估計總體分佈中未知引數的過程。

所謂的“機器學習”就是把大量的資料歸納到少數的引數中,“訓練”正是估計這些引數的過程

現代機器學習的終極問題都會轉化為解目標函式的優化問題,MLE和MAP是生成這個函式的很基本的思想。

  • 極大似然估計 Maximum Likelihood Estimation, MLE 是頻率學派常用的引數估計方法 。
  • 極大後驗概率Maximum A Posteriori, MAP是貝葉斯學派常用的引數估計方法 。

在對事物建模時,用 θ 表示模型的引數,解決問題的本質就是求θ 。那麼:

4.1 頻率學派

頻率學派認為:存在唯一真值θ 。

4.2 貝葉斯學派

貝葉斯學派認為: θ是一個隨機變數,符合一定的概率分佈。即不認為模型的引數θ是一個確定的值,而是認為引數θ 本身也服從某種潛在分佈。

在貝葉斯學派裡有兩大輸入和一大輸出,輸入是先驗 (prior)和似然 (likelihood),輸出是後驗 (posterior)。

先驗,即 θ,指的是在沒有觀測到任何資料時對θ 的預先判斷;

似然,即 p(x|θ) ,是假設 θ已知後我們觀察到的資料應該是什麼樣子的;

後驗,即 p(θ|x) , 是最終的引數分佈。

即對事件進行建模的時候,先假設有一個預估(先驗概率),然後根據觀測資料,不斷調整之前的預估。

0x02 極大似然估計(Maximum Likelihood Estimation,MLE)

1. 思想

最大似然估計是一種“模型已定,引數未知”的方法,即利用已知的樣本的結果,在使用某個模型的基礎上,反推最有可能導致這樣結果的模型引數值。

最大似然估計的思想: 使得觀測資料(樣本)發生概率最大的引數就是最好的引數。

通俗的說就是 —— 最像估計法(最可能估計法),即概率最大的事件,最可能發生

極大似然估計是典型的頻率學派觀點,它的基本思想是:待估計引數 θ 是客觀存在的,只是未知而已,當 θ-mle 滿足 “ θ = θ-mle 時,該組觀測樣本 (X1,X2,...,Xn) = (x1, x2,...,xn) 更容易被觀測到“,我們就說 [θ-mle][θ] 的極大似然估計值。也即,估計值 [θ-mle] 使得事件發生的可能性最大。

2. 似然函式

假設分佈率為 P=p(x;θ),x是發生的樣本,θ是代估計的引數,p(x;θ)表示估計引數為θ時,發生x的的概率。
那麼當我們的樣本值為:x1,x2,...,xn 時,

L(θ) = L(x1,x2,...,xn;θ) = p(x1|θ)...p(xn|θ) 連乘

其中L(θ)成為樣本的似然函式。假設有 θ^ 使得 L(θ) 的取值最大,那麼 θ^ 就叫做引數 θ 的極大似然估計值

能使L(θ)最大的值,就作為引數的最大似然估計值。

而求最大似然估計的問題,就變成了求似然函式的極值。

3. 似然函式轉化

前提條件

能夠使用極大似然估計方法的樣本必須需要滿足一些前提,比如:訓練樣本的分佈能代表樣本的真實分佈。每個樣本集中的樣本都是所謂獨立同分布的隨機變數,且有充分的訓練樣本。

對數似然函式

對一個獨立同分布的樣本集來說,總體的似然就是每個樣本似然的乘積。由於總體的似然就是每個樣本似然的乘積,但是連乘計算起來比較麻煩,而且會有如下問題:

  • 下溢位問題:是太多很小的數相乘,結果可能會很小,就造成了下溢位。

  • 浮點數舍入問題:是程式中在相應小數位置進行四捨五入,計算結果可能就變成0。

為了求解方便,我們通常會將似然函式取對數,從而轉成對數似然函式。

轉成對數似然函式還有如下好處:

  • 對數函式並不影響函式的凹凸性。由於ln對數屬於單調遞增函式,概率的最大對數值出現在與原始概率函式相同的點上,因此不會改變極值點。
  • 方便求導:根據前面的似然函式公式,是一堆的數字相乘,這種演算法求導會非常麻煩,而取對數是一種很方便的手段。由於對數的計演算法則:lnab = blna、lnab = lna + lnb ,求導就很方便了。公式中的概率連乘變成了對數概率相加。

既然似然函式可導,那麼就可以通過求導數的方式得到駐點,從而算出極大值

如果對數似然函式簡單,是可以直接求導得到,但是在更多的情況下,我們需要通過梯度下降法等最優化演算法來求解。而絕大部分最優化的工具包都預設求函式的最小值,因此別忘了在你把它塞給一個最優化工具包之前,把你的log似然 乘以 -1 變成負log似然(Negative Log Likelihood)。

這也是某些文章中有如下公式的原因:
\[ θ =arg max l(θ)=-arg min l(θ) \]

4. 例項

舉一個網上的經典例子:

假如有一個罐子,裡面有黑白兩種顏色的球,數目多少不知,兩種顏色的比例也不知。我 們想知道罐中白球和黑球的比例,但我們不能把罐中的球全部拿出來數。現在我們可以每次任意從已經搖勻的罐中拿一個球出來,記錄球的顏色,然後把拿出來的球 再放回罐中。這個過程可以重複,我們可以用記錄的球的顏色來估計罐中黑白球的比例。假如在前面的一百次重複記錄中,有七十次是白球,請問罐中白球所佔的比例最有可能是多少?很多人馬上就有答案了:70%。而其後的理論支撐是什麼呢?
我們假設罐中白球的比例是p,那麼黑球的比例就是1-p。因為每抽一個球出來,在記錄顏色之後,我們把抽出的球放回了罐中並搖勻,所以每次抽出來的球的顏色服從同一獨立分佈。這裡我們把一次抽出來球的顏色稱為一次抽樣。題目中在一百次抽樣中,七十次是白球的概率是P(Data | M),這裡Data是所有的資料,M是所給出的模型,表示每次抽出來的球是白色的概率為p。如果第一抽樣的結果記為x1,第二抽樣的結果記為x2... 那麼Data = (x1,x2,…,x100)。這樣,

 P(Data | M)
     = P(x1,x2,…,x100|M)
     = P(x1|M)P(x2|M)…P(x100|M)
     = p^70(1-p)^30.

那麼p在取什麼值的時候,P(Data |M)的值最大呢?將p^70(1-p)^30對p求導,並其等於零。

    70p^69(1-p)^30-p^70*30(1-p)^29=0。

    解方程可以得到p=0.7。

在邊界點p=0,1,P(Data|M)=0。所以當p=0.7時,P(Data|M)的值最大。這和我們常識中按抽樣中的比例來計算的結果是一樣的。

5. 最大似然估計的求解步驟:

  • 確定似然函式
  • 將似然函式轉換為對數似然函式
  • 求對數似然函式的最大值(求導,解似然方程)

最大似然估計總是能精確地得到解嗎?簡單來說,不能。更有可能的是,在真實的場景中,對數似然函式的導數仍然是難以解析的(也就是說,很難甚至不可能人工對函式求微分)。因此,一般採用期望最大化(EM)演算法等迭代方法為引數估計找到數值解,但總體思路還是一樣的。

6. 水滸傳中的極大似然估計

話說極大似然估計是一個平時常用的原理,我在《水滸傳》中也找到了相關的應用,下面找幾個看看。

非常有趣的是,應用例項的人全是北宋都頭。一個是鄆城縣都頭雷橫,一個是清河縣都頭武松。

這能看出來北宋基層刑警一些工作特點, 他們沒有現代各種科學儀器和理論的幫助,只能憑藉"極大似然估計" 這個法寶在第一時間做出最可能最有效的判斷。與後文中實施"極大後驗概率"的小商販石秀形成了明顯區別。

6.1 插翅虎雷橫抓赤發鬼劉唐。

假定 分佈率為P=p(x;θ),x是發生的樣本,θ是代估計的引數,p(x;θ)表示估計引數為θ時,發生x的的概率。

θ = 劉唐是什麼人。可能取值大概是 普通人/賊人/軍官......

x = 這殿裡沒有廟祝,殿門不關,一條大漢夜裡獨睡。

雷橫這經驗豐富的老刑警,立刻做出了最可能的判斷。

θ 是"劉唐是賊"。

第十二回青面獸北京鬥武急先鋒東郭爭功

只說雷橫當晚引了二十個士兵出東門繞村巡察,遍地裡走了一遭,回來到東溪村山上,眾人採了那紅葉,就下村來。
行不到三二里,早到靈官廟前,見殿門不關。
雷橫道:“這殿裡又沒有廟祝,殿門不關,莫不有歹人在裡面麼?我們直入去看一看。”眾人拿著火一齊將入來。
只見供桌上禁止地睡著一個大漢
天道又熱,那漢子把些破衣裳團做一塊作枕頭枕在項下,的沉睡著了在供桌上。
雷橫看了道:“好怪!懊怪!知縣相公忒神明!原來這東溪村真個有賊!” 大喝一聲。
那漢卻待要掙挫,被二十個士兵一齊向前,把那漢子一條索綁子,押 出廟門,投一個保正莊上來。

6.2 武松初遇蔣門神

假定 分佈率為P=p(x;θ),x是發生的樣本,θ是代估計的引數,p(x;θ)表示估計引數為θ時,發生x的的概率。

θ = 大漢是什麼人。取值可能是蔣門神,店小二,隔壁店掌櫃......

x = 一個金剛也似大漢在蔣門神酒店門前躺著乘涼。

武二郎立刻做出了極大似然判斷,這漢在蔣門神酒店門前乘涼,長得身材金剛也似,所以這廝必然是蔣忠。

θ = "大漢是蔣門神"

第二十八回施恩重霸孟州道武松醉打蔣門神

武松酒卻湧上來,把布衫攤開;雖然帶著五七分酒,卻裝做十分醉的,前顛後偃,東倒西歪,來到林子前,僕人用手指道:“只前 頭丁字路口便是蔣門神酒店。”武松道:“既是到了,你自去躲得遠著。等我 打倒了,你們卻來。”

武松搶過林子背後,見一個金剛來大漢,披著一領白布衫,撒開一把交椅,拿著蠅拂子,坐在綠槐樹下乘涼。武松假醉佯顛,斜著眼看了一看,心中自忖道:“這個大漢一定是蔣門神了。”直搶過去。又行不到三五十步,早見丁字路口一個大酒店,簷前立著望竿,上面掛著一個酒望子,寫著四個大字,道:“河陽風月”。

6.3. 武松殺王道人

假定 分佈率為P=p(x;θ),x是發生的樣本,θ是代估計的引數,p(x;θ)表示估計引數為θ時,發生x的的概率。

θ = 王道人是什麼人。可能取值是 正常道人,歹人......

x = 荒山野嶺孤庵,一個先生摟著一個婦人在那窗前看月戲笑。

武二郎立刻做出了極大似然判斷,這必然不是好人。

θ = "王道人是歹人"

第三十回張都監血濺鴛鴦樓武行者夜走蜈蚣嶺

當晚武行者離了大樹十字坡便落路走。此時是十月間天氣,日正短,轉眼便晚了。約行不到五十里,早望見一座高嶺。武行者趁著月明, 一步步上嶺來,料道只是初更天色。武行者立在嶺頭上看時,見月從東邊上
來,照得嶺上草木光輝。

​ 正看之間,只聽得前面林子裡有人笑聲。武行者道:“又來作怪!這般一條靜蕩蕩高嶺,有甚麼人笑語!”走過林子那邊去打一看,只見松樹林中,傍山一座墳庵,約有十數間草屋,推開著兩扇小窗,一個先生摟著一個婦人 在那窗前看月戲笑。

​ 武行者看了,“怒從心上起,惡向膽邊生,”“這是山間林下,出家人卻做這等勾當!”便去腰裡掣出那兩口爛銀也似戒刀來,在月光下看了,道:“刀卻是好,到我手裡不曾發市,且把這個鳥先生試刀!”

0x03 最大後驗概率估計(MAP)

最大後驗概率估計,英文為Maximum A Posteriori Estimation,簡寫為MAP。MAP是貝葉斯學派常用的引數估計方法 。

先回顧下似然函式的概念:函式 P(x|θ), 其中θ是需要估計的引數,x 是具體的資料也就是樣本。如果x是已知確定的,θ是變數,這個函式叫做似然函式(likelihood function),它描述對於不同的模型引數,出現x這個樣本點的概率是多少。

最大後驗概率估計可以從最大似然估計推匯出來。

1. 推理過程

最大似然估計是求引數θ, 使似然函式P(x|θ)最大。

最大後驗概率估計則是想求θ使 P(x|θ)P(θ) 最大。求得的 θ 不單單讓似然函式大,θ 自己出現的先驗概率也得大。

MAP是在最大化 P(x|θ)P(θ)

因為在實際實驗中,p(x)是已經發生了,所以p(x)是一個固定數值, 是觀測到的。因而

MAP也就是在最大化 P(x|θ)P(θ) / P(x)

此時可見,MAP受到兩個部分的影響,P(x∣θ) 和P(θ) ,前者類似於似然函式,後者是引數的先驗分佈。

P(x|θ)P(θ) / P(x) ==> 就是 p(θ|x)。所以

MAP是在最大化 p(θ|x) = P(x|θ)P(θ) / P(x)

最大化P(θ|x)的意義也很明確,x 已經出現了,要求θ取什麼值使P(θ|x)最大。順帶一提,P(θ|x)即後驗概率,這就是“最大後驗概率估計”名字的由來。

2. 上述推理也可化成下面說法

最大似然估計認為使似然函式P(x|θ)最大的引數θ即為最好的θ,此時最大似然估計是將θ看作固定的值,只是其值未知;

最大後驗概率分佈認為θ是一個隨機變數,即θ具有某種概率分佈,稱為先驗分佈,求解時除了要考慮似然函式P(x|θ)之外,還要考慮θ的先驗分佈P(θ),因此其認為使P(x|θ)P(θ)取最大值的θ就是最好的θ

此時要最大化的函式變為P(x|θ)P(θ), 由於x的先驗分佈p(x)是固定的(可通過分析資料獲得),因此最大化函式可變為P(x|θ)P(θ)/P(x),根據貝葉斯法則,要最大化的函式P(x|θ)P(θ)/P(x) = p(θ|x),因此要最大化的函式是p(θ|x),而p(θ|x)是θ的後驗概率。

在最大似然估計中,由於認為θ是固定的,因此P(θ)=1。

3. 最大後驗,最大似然 聯絡和區別:

最大後驗估計不只是關注當前樣本的情況,還允許我們把先驗知識加入到估計模型中,這在樣本很少時候是很有用的。
最大後驗,最大似然這兩者的區別,其實就是對於引數θ的理解不一樣。

  • 最大化後驗概率的思想是該引數本身就服從某種潛在的分佈,是需要考慮的。其先驗概率密度函式是已知的,為P(θ)
  • 而最大似然則認為該引數是一個固定的值,不是某種隨機變數。

最大後驗概率估計其實就是最大似然多了一個先驗概率引數(待估計引數的先驗分佈),也可以認為最大似然估計就是把先驗概率認為是一個定值。即,如果假設 P(θ) 是均勻分佈,則貝葉斯方法等價於頻率方法。因為直觀上來講,先驗是uniform distribution本質上表示對事物沒有任何預判, 那麼最大後驗,最大似然就相等了。

4. 最大後驗概率估計的求解步驟:

  • 確定引數的先驗分佈以及似然函式
  • 確定引數的後驗分佈函式
  • 將後驗分佈函式轉換為對數函式
  • 求對數函式的最大值(求導,解方程)

5. 水滸傳中的極大後驗概率估計

極大似然估計是有風險的,就是如果樣本不足,可能就會有判別誤差。

而最大後驗與最大似然區別:最大後驗允許我們把先驗知識加入到估計模型中,這在樣本很少時候是很有用的。

水滸傳中極大後驗概率估計的應用,就是石秀殺裴如海/潘巧雲。

拼命三郎石秀是什麼人?

  • 首先他是小商人,"販賣羊馬/賣柴/開屠宰作坊",做事必須講證據/有推理/深思熟慮。
  • 其次他是梁山中少有的"膽大心細",能擔當細作搞定祝家莊迷宮,也能單刀劫法場救盧員外。

無論是職業特色還是性格特點都決定了他不會單純考慮 "極大似然",而是會結合"先驗條件"來實施“極大後驗概率估計”,就是必須 "先驗條件" & "樣本" 加在一起最大。

下面原文中加粗下劃線的就是石秀 之前的樣本經驗(先驗知識):潘巧雲之前就幾番對石秀說過風話

假定 分佈率為P=p(x;θ),x是發生的樣本,θ是代估計的引數,p(x;θ)表示估計引數為θ時,發生x的的概率。

θ = 潘巧雲和裴如海的關係,可能取值是 普通香客與僧人 / 結義兄妹 / 有姦情 .....

x = 石秀的觀察資料

石秀通過 "連續十次以上暗中觀察",得到了觀測樣本,然後 "觀測資料(樣本)+ 先驗知識 ---> 發生概率最大的引數" 。

θ 是"有姦情"。

施耐庵老爺子實在厲害,在書中把石秀這個"先驗 + 觀察 ---> 推理" 的迭代過程和心理狀態寫的入木三分。

第四十四回 楊雄醉罵潘巧雲 石秀智殺裴如海

石秀道:“原來恁地。”自肚裡已瞧科一分了。
不防石秀在布里一眼張見,早瞧科了二分,道: “‘莫信直中直,須防仁不仁!’我幾番見那婆娘常常的只顧對我說些風話, 我只以親嫂嫂一般相待。原來這婆娘倒不是個良人!莫教撞在石秀手裡,敢替楊雄做個出場也不見得!”石秀一想,一發有三分瞧科了,便揭起布,撞將出來。
石秀 在門前低了頭只顧尋思,其實心中已瞧科四分
石秀都瞧科了,足有五分來不快意。
石秀不快,此時真到六分,只推肚疼,自去睡在板壁後了。
不想石秀在板壁後假睡,正瞧得看,已看到七分了。
石秀自瞧科八分了。
石秀是乖覺的人,早瞧了九分,冷地里,思量道:“這條巷是條死巷。如何有這頭陀,連日來這裡敲木魚叫佛?”
石秀聽得叫的蹺蹊,便跳將起來去門縫裡張時, 只見一個人,戴頂頭巾,從黑影裡,閃將出來,和頭陀去了;隨後便是迎兒關門。石秀瞧到十分

0x04 貝葉斯估計

1. 對MAP進行擴充套件

貝葉斯學派有一個硬傷:憑什麼去選擇先驗?如果選擇了一個強但偏離實際的先驗,MAP效果可能還不如MLE。所以貝葉斯估計準備在MAP上做進一步拓展,如何擴充套件呢?下面理一下思路:

首先,MLE和MAP都把引數θ看成一個未知的確定變數。MLE認為引數θ是一個固定數值。MAP認為隨機變數θ具有某種概率分佈,然後MAP取了後驗分佈的峰值(眾數,mode)。

其次,mode往往不具有很強的代表性(特別是在多峰的函式中)。那麼與其將後驗分佈的峰值拿來湊合,還不如將整個後驗分佈求出來,用一個分佈來描述待估的引數。這就是Inference。

所以,貝葉斯估計同樣假定θ是一個隨機變數(服從一定概率分佈),但貝葉斯估計並不是直接估計出θ的某個特定值,而是估計θ的分佈,這是貝葉斯估計與最大後驗概率估計不同的地方。在貝葉斯估計中,先驗分佈P(X)是不可忽略的

2. 思想:

貝葉斯學派的思想認為,世界是不確定的,因此先假設有一個預估(先驗概率),然後根據觀測資料,不斷調整之前的預估。通俗的講就是,對事件進行建模的時候,不認為模型的引數θ是一個確定的值,而是認為引數θ本身也服從某種潛在分佈。

貝葉斯統計的重點:引數未知且不確定,因此作為未知的隨機變數,引數本身也是一個分佈,同時,根據已有的先驗知識和樣本資訊可以得到引數θ的先驗概率,根據先驗概率來推斷θ的後驗概率。並期望後延概率在真實的θ值處有一個尖峰。

極大似然估計和極大後驗概率估計,都求出了引數θ的值,而貝葉斯推斷則不是,它根據引數的先驗分佈P(θ)和一系列觀察X,求出引數θ的後驗分佈P(θ|X),即這個後驗概率分佈P(θ|X)其實是一系列引數值θ的概率分佈,再說簡單點就是我們得到了許多個引數θ及其對應的可能性,我們只需要從中選取我們想要的值就可以了。

3. 常見三種方法

那麼如何根據後驗分佈進行引數估計呢?常見的方法有三種:後驗分佈的眾數(即後驗密度最大的點)、後驗分佈的中位數、後驗分佈的均值。

有時我們想要概率最大的那個引數,那這就是 後驗眾數估計(posterior mode estimator);

有時我們想知道引數分佈的中位數,那這就是 後驗中位數估計(posterior median estimator);

有時我們想知道的是這個引數分佈的均值,那就是 後驗期望估計。

這三種估計沒有誰好誰壞,只是提供了三種方法得出引數,看需要來選擇。用得最多的是後驗期望估計,它一般也直接簡稱為貝葉斯估計。基於貝葉斯估計和基於極大似然估計的樸素貝葉斯演算法步驟基本上是一樣的,區別在於有沒有對概率做平滑。

4. MAP與貝葉斯估計的聯絡

現在我們清楚了,在貝葉斯估計中,如果我們採用極大似然估計的思想,考慮後驗分佈極大化而求解 θ ,然後選取了後驗分佈的峰值(眾數,mode),就變成了最大後驗估計(Maximum A Posteriori estimation,MAP)。

作為貝葉斯估計的一種近似解,MAP有其存在的價值,因為貝葉斯估計中後驗分佈的計算往往是非常棘手的;而且,MAP並非簡單地回到極大似然估計,它依然利用了來自先驗的資訊,這些資訊無法從觀測樣本獲得。

5. 對比:

  • 極大似然估計、最大後驗估計和貝葉斯估計都是引數估計方法。
  • 極大似然估計和最大後驗估計都是點估計,即把引數看成未知常數,通過最大化似然和後驗概率實現。
  • 貝葉斯估計把引數看成一個隨機變數,屬於分佈估計,然後求該隨機變數在資料集D下的條件期望。
  • 當先驗為均勻分佈時,極大似然估計和最大後驗估計是等價的。即估計引數的先驗概率為 1 ;
  • 當先驗和似然都是高斯分佈時,最大後驗估計和貝葉斯估計是等價的。
  • 通常情況下,貝葉斯估計的積分很難計算,但可以採取一些近似方法,如拉普拉斯和變分近似以及馬爾科夫鏈蒙特卡洛抽樣。
  • 貝葉斯估計相對於最大後驗估計的好處還在於,貝葉斯估計計算了整個後驗概率的分佈,從而也能求出其他一些比如分佈的方差之類的值來供參考,比如計算出來方差太大的,我們可以認為分佈不夠好,從而把這個當做選擇超引數的一個考慮因素。實際上,貝葉斯估計會比MAP把估計的結果往先驗結果“拉”的程度還提高了一些,從而使估計結果更靠近先驗結果。
  • 貝葉斯估計的應用有LDA主題模型。LDA主題模型通過共軛分佈的特性來求出主題分佈和詞分佈。

6. 貝葉斯估計的求解步驟:

  • 確定引數的似然函式
  • 確定引數的先驗分佈,應是後驗分佈的共軛先驗
  • 確定引數的後驗分佈函式
  • 根據貝葉斯公式求解引數的後驗分佈

0x05 參考

似然與似然函式

詳解最大似然估計(MLE)、最大後驗概率估計(MAP),以及貝葉斯公式的理解

邏輯迴歸>>>>>最大似然>>>>>最大後驗概率

貝葉斯估計、最大似然估計、最大後驗概率估計

聊一聊機器學習的MLE和MAP:最大似然估計和最大後驗估計

最大似然估計(MLE) & 最大後驗概率估計(MAP)

極大似然估計的理解與應用

深入淺出最大似然估計(Maximum Likelihood Estimation)

極大似然估計詳解

引數估計(2):極大似然,最大後驗,貝葉斯推斷以及最大熵

極大似然估計和貝葉斯估計

極大似然估計與最大後驗概率估計

你對貝葉斯統計都有怎樣的理解?

最大似然估計、最大後驗估計、貝葉斯估計的對