1. 程式人生 > >先驗分佈,後驗分佈,似然函式

先驗分佈,後驗分佈,似然函式

一個例子搞清楚(先驗分佈/後驗分佈/似然估計)

preface:

  • 無論是《通訊原理》、《資訊理論》、《通道編碼》還是《概率與統計理論》,或者在現在流行的《模式識別》《Machine Learning》中總會遇到這麼幾個概念:先驗分佈/後驗分佈/似然估計

  • 如果大家不熟悉這幾個詞,相信大家熟知貝葉斯公式,該公式涉及到了以上幾個概念。但是學完本科課程,也會算題,就是在實際情境中總感覺理不清這幾個概念的關係,最近上課老被老師講的先驗、後驗搞得暈頭轉向。因此,如果您和我遇到類似的囧事,這篇文章很適合您。

  • 宣告:本文主要內容修改整理於知乎回答1


本文目標:

  • 一個隔壁小哥的故事
  • 故事中的因果和三個概念
  • 貝葉斯公式的角色
  • 最大似然估計和貝葉斯的關係

隔壁小哥的故事

隔壁小哥要去15公里外的一個公園,他可以選擇步行走路騎自行車或者開輛車,然後通過其中一種方式花了一段時間到達公園。

首先在這個事裡邊,大家不要關注隔壁小哥去幹嘛,也許去送外賣吧:) 。言歸正傳,這件事中採用哪種交通方式是因花了多長時間是果俗話說瓜熟蒂落,皆是因果;因果迴圈,報應不爽。要理解即將提到的概念,何為因何為果先要搞清楚。


三個概念之後驗(知果求因)

隔壁小哥去公園的故事才剛剛開始,假設在這裡您已經牢記住這個故事的因和果。故事仍然要接著講,順便帶出我們的概念。

假設我們已經知道小哥花了1個小時到了公園,那麼你猜他是怎麼去的(走路or坐車or自行車),事實上我們不能百分百確定他的交通方式,我們正常人的思路是他很大可能是騎車過去的,當然也不排除開車過去卻由於堵車嚴重花了很長時間,當然還有可能他是個賽跑的運動員自己一路飛跑過去的。

假設已經知道小哥花了3個小時才到公園,這個時候我們猜的時候會覺得他很大可能是靜靜地走路過去的。但是假設已經知道小哥只花了20分鐘才到公園,那麼正常人會覺得他最大可能是開車賓士而去。

這種預先已知結果

(路上花的時間),然後根據結果估計(猜)原因(交通方式)的概率分佈即 後驗概率

例子問題公式化:

P(|)P(交通方式|花費的時間) 即A given B 的概率)

[解釋]:看到這裡估計大家很奇怪為什麼要用 xx 代表,後面的貝葉斯我們將會具體介紹這些字母的含義。


三個概念之先驗概率(由歷史求因)

換個情景,我們不再考慮隔壁小哥去公園的結果了。假設隔壁小哥還沒去,大早上剛起床,打算吃完早飯再去。

假設我們比較瞭解小哥的個人習慣,別管怎麼了解的:) 。小哥是個健身愛好者就喜歡跑步運動,這個時候我們可以猜測他更可能傾向於走路過去。

當然我的隔壁小哥是個大死肥宅,懶得要命!這個時候我們猜測他更可能傾向於坐車,連騎自行車的可能性都不大。

這個情景中隔壁小哥的交通工具選擇與花費時間不再相關。因為我們是在結果發生前就開始猜的,根據歷史規律確定原因 (交通方式)的概率分佈即 先驗概率

例子問題公式化:

P()P(交通方式)


三個概念之似然估計(由因求果)

換個情景,我們重新考慮隔壁小哥去公園的交通方式。

假設隔壁小哥步行走路去,15公里的路到公園,一般情況下小哥大概要用2個多小時,當然很小的可能性是小哥是飛毛腿,跑步過去用了1個小時左右,極為小的可能是小哥是隱藏的高手,10分鐘就輕功跑酷到了。

小哥決定開車,到公園半個小時是非常可能的非常小的概率是小哥因為途徑的路上有車禍堵了3個小時。

這種先定下來原因根據原因來估計結果的概率分佈即 似然估計。根據原因來統計各種可能結果的概率即似然函式

似然函式問題公式化:

P(|)P(時間|交通方式)


貝葉斯公式

我們熟知的貝葉斯公式是這樣的:

P(A|B)=P(B|A)P(A)P(B)P(A|B)=P(B|A)∗P(A)P(B) ,它也稱為樣本發生的概率分佈的 證據

evidenceevidence

知乎回答原文參考 這兒.


深入貝葉斯推斷

在這裡相信大多數人已經很好地理解了先驗概率,後驗概率,證據以及和似然估計的概念了。接下來我們將接著講故事,隔壁小哥到公園以後去做一個遊戲,遊戲內容如下:
在小哥面前有兩個一模一樣的寶箱,一號箱子裡面有3顆水果糖1顆巧克力糖;二號箱子裡面有2顆水果糖2顆巧克力糖
(1) 現在小哥將隨機選擇一個箱子,從中摸出一顆糖。請問小哥選擇一號箱子的概率有多大?
(2) 現在小哥將隨機選擇一個箱子,從中摸出一顆糖發現是水果糖。請問這顆水果糖來自一號箱子的概率有多大?


lizi

暫且不去算這道題,在這個看似無聊的事情中,從哪個箱子去抓是 因;抓到的糖是什麼糖為 結果。再去回顧我們之前的貝葉斯公式:

P(θ|x)=P(x|θ)P(θ)P(x)P(θ|x)=P(x|θ)∗P(θ)P(x) 是觀測結果資料的概率分佈。如下表:

xx 5/8 3/8

[解釋]:其中 θθ 發生的概率。如下表:

θθ 1/2 1/2

[解釋]P(θ|x)P(θ|x)結果資料的概率分佈

其中,P(θ=)P(θ=一號箱)

我們再考慮上面的計算:
(1) 現在小哥將隨機選擇一個箱子,從中摸出一顆糖。請問小哥選擇一號箱子的概率。根據明顯的先驗知識我們就可以知道

P(θ=)=1/2P(θ=一號箱)=1/2 】事件的 可能性得到了增強(1/2 < 3/5)。


我們可以用小哥在公園的第二個奇遇來解釋【貝葉斯估計】的意義:
小哥在公園裡玩飛鏢,附近有個陌生人說他是一個專業的飛鏢玩家,假設你現在是小哥,你可能最開始會假設這傢伙在開玩笑忽悠我吧。
首先你對這個人幾乎什麼都不瞭解,但遇到一個真正的專業飛鏢玩家的概率是很小的。 因為澳大利亞的專業飛鏢玩家也不過大約15個。
如果這個陌生人為了證明自己,開始扔飛鏢並且第一次正中靶心,但這個資料可能還是不能令你非常信服,因為你覺得這可能只是運氣。
但如果這個人連續十次都正中靶心,多個觀測樣本讓你會傾向於接受他的專業說法。
在這件事當中,你對【陌生人是專業玩家】的先驗置信度就被累積的實驗資料所覆蓋而增強變大,貝葉斯定理起作用了。


MAP/ML/貝葉斯估計

給定一些資料樣本 xx

  • 最大似然估計(ML,Maximum Likelihood)可以估計模型的引數。其目標是找出一組引數 θθ 的概率最大:

argmaxθP(x|θ)argmaxθP(x|θ)

  • 假如這個引數有一個先驗概率,那麼引數該怎麼估計呢?這就是MAP要考慮的問題。 最大後驗估計(MAP-Maxaposterior)。MAP優化的是一個後驗概率,即給定了觀測值後使概率最大:

  • argmaxθP(θ|x)=argmaxθP(x|θ)P(θ)P(x)argmaxθP(θ|x)=argmaxθP(x|θ)∗P(θ)P(x) 似然函式。

  • 前兩種都是假設引數是個確定值,但貝葉斯估計假設引數是個隨機數
    貝葉斯估計,假定把待估計的引數看成是符合某種先驗概率分佈的隨機變數,而不是確定數值。在樣本分佈上,計算引數所有可能的情況,並通過計算引數的期望,得到後驗概率密度。


  • 學習和科研是一件枯燥乏悶的事情,也常會遇到令自己感到難受和不公的事情。在這裡希望大家有一顆平常心,但行好事,莫問前程!

    現在的人都喜歡求福求貴,求健康長壽,乃至求名師,但是卻不知道家中就有兩尊現成的【活的佛菩薩】,不知道孝敬父母跟供養佛的功德是一樣的,是等同的!
    菩薩已經說的很清楚:福報是從【孝敬父母】中得來的,從【尊師重道】來的,乃至健康長壽是【從不殺生吃肉】來的,卻妄想不孝順父母就可以求功名富貴,每天殺生吃眾生肉去求健康長壽,真的是【如蒸沙石,欲成其飯】,這是不可能的。


    貝葉斯估計公式推導參考 這兒.


    1. 這裡是 腳註內容.