1. 程式人生 > >貝葉斯分析:拋硬幣的概率真的是1/2嗎

貝葉斯分析:拋硬幣的概率真的是1/2嗎

前言

前面兩文介紹了貝葉斯學派的思想和先驗分佈、後驗分佈的相關知識,古典頻率學派認為拋硬幣的概率是常數,本文從貝葉斯學派的角度看待拋硬幣的概率問題。本文詳細介紹了 β分佈,重述貝葉斯思想,對於拋硬幣的概率問題作各種情況的分析,最後總結本文。

目錄


1、為什麼選擇β分佈作為先驗分佈

2、重述貝葉斯思想

3、拋硬幣問題的多情況分析

4、總結

 

                                                                                1、為什麼選擇β分佈作為先驗分佈


本節詳細介紹β分佈的定義及解釋選擇β分佈作為先驗分佈的原因。

1、β分佈

β函式的定義:

               

其中α,β > 0,對等式兩邊各除以B(α,β),字母p代替x,得:

選積分項作為β分佈函式,由積分項可知β分佈已完成標準化(總積分等於1)。

因此,β分佈:

 

β分佈的期望和方差:

2、β分佈作為先驗分佈的原因

由β分佈定義可知,β分佈是概率分佈的分佈,β分佈常作為先驗分佈的原因:

(1)、貝葉斯對引數的估計與先驗分佈的選擇有很重要的關係,先驗分佈不同,貝葉斯對引數的估計也不同。先驗分佈往往是人們根據以往經驗去設計,β分佈是概率分佈的分佈,涵蓋了所有引數空間出現的概率大小,並通過設定引數α和β,可以使先驗分佈與你的先驗經驗基本符合。

i) α=1,β=1

                                                          

由上圖可知,α=1,β=1,β分佈符合均勻分佈,即引數空間所有取值的概率相等。

因此,當你對引數沒有任何的先驗知識時,建議你假設先驗引數符合均勻分佈,引數的後驗分佈由你的實際觀測資料決定。

ii) α=10,β=10

                                                             

由上圖可知,α=10,β=10時,β分佈符合高斯分佈,且在概率為0.5取得最大值,由β分佈期望和方差的公式可知期望和方差分別等於0.5和0.01。

假設引數的先驗分佈是高斯分佈,設定引數α和β相等(α>1)使β分佈成為高斯分佈,α越大方差越小。

因此,設定α和β使引數的先驗分佈符合你對引數的先驗認知。

(2)、上節已提到,引數的先驗分佈是β分佈時,則先驗分佈和後驗分佈形式一樣,且可以形成先驗鏈,方便分析問題。

 

                                                                            2、重述貝葉斯思想


因人而異,因閱歷而異

關於頻率學派和貝葉斯學派對頻率的理解可以參考我前面的文章《淺談頻率學派和貝葉斯學派》。

貝葉斯思想是量化事件發生的不確定性,是主觀評價。不同人評價同一事件發生的概率不同,因為不同人的生活經歷不同,對某一事件的先驗知識很可能不同,比如一個博士生和一個小學生對某一事件的看法可能不同;同一個人對同一事件發生的概率也隨著自身閱歷的增加而不同,例如某個人做了九件好事,你評估他是好人的概率為0.9,當他做了一件大逆不道的事情後,你評估他是好人的概率降到了0.1。貝葉斯評價事件發生的概率帶有主觀性,因人而異,因閱歷而異。

凡事要講資料

我們根據自己的閱歷對某一事件作一個先驗假設,先驗假設是否正確需要經過時間的檢驗,即是否有足夠多的觀測資料符合先驗假設。先驗假設和觀測資料是影響後驗假設的兩個因素,若觀測資料不符合先驗假設,則後驗假設在先驗假設的基礎上開始向觀測的資料偏斜,若觀測的資料為無窮大時,則先驗假設可以忽略不計,直接通過觀測資料來估計後驗假設。因此,貝葉斯思想評價事件發生概率的準則是凡事要講資料

PS:有點繞口,希望大家看完筆者介紹拋硬幣的例子,再來悟一悟這幾句話,若還有疑問請微信我

 

                                                                           3、拋硬幣問題的多情況分析


拋硬幣問題的公式說明

由於《淺談先驗分佈和後驗分佈》已經通過例子推導了拋硬幣正面向上的後驗概率,因此,本文不做推論,具體可參考上篇文章,若有疑問請微信我。本文只引用一些結論性的公式。

假設硬幣正面向上的概率為u,正面向上記為1,反面向上記為0。

則硬幣正面向上的先驗分佈如下:

硬幣正面向上的期望:

其中a,b表示虛擬的硬幣正面向上的次數和反面向上的次數,根據自己的先驗知識來設定a,b值。

 

若後續的觀測結果為m次正面向上,l次反面向上,共N次。

則硬幣正面向上的後驗分佈如下:

硬幣為正面向上的概率:

    

多情況的拋硬幣問題

(1)第1次拋硬幣為正面向上的概率;

(2)9次硬幣正面向上,1次反面向上,第十一次硬幣正面向上的概率;

(3)90次硬幣正面向上,10次硬幣反面向上,求101次正面向上的概率;

(4)900次硬幣正面向上,100次硬幣反面向上,求第1001次硬幣正面向上的概率。

解:

貝葉斯的後驗分佈受先驗分佈的影響,不同的先驗分佈會有不同的後驗分佈。請參考第一節,假設硬幣正面向上的分佈符合高斯分佈(a=10,b=10),高斯分佈符合大部分人的思想,認為硬幣為正面向上的概率在0.5達到最大,方差表示先驗分佈的確定程度,若你堅信硬幣向上的概率肯定是0.5,那麼可以調大a和b值。

作者就先驗分佈為高斯分佈來解答拋硬幣的四個問題。其他先驗分佈可通過調節a,b的值來實現,後面的計算過程一致。

正面向上的後驗概率:

a,b,m,l分別表示先驗分佈的正面向上次數,反面向上次數,已觀測資料的正面向上次數,反面向上次數。

先驗分佈為高斯分佈:

(1)由於沒有任何觀測資料,因此第一次正面向上的分佈為先驗分佈,先驗分佈在在引數為0.5時,概率最大,即正面向上的概率為0.5。

(2)正面向上的概率為:

(3)計算過程與(2)一樣,正面向上的概率:0.83

(4)正面向上的概率:0.89

討論:

頻率學派認為硬幣向上的概率是0.5,與觀測資料無關。貝葉斯學派是通過資料來主觀評價硬幣向上的概率,由例子可知,即使先驗分佈符合高斯分佈且正面向上的概率在0.5達到最大,但是如果觀測資料傾向於正面向上,則最終的判斷結果會傾向於正面向上,貝葉斯思想有點像是風往哪邊吹樹就往哪邊倒的意思。當觀測結果的正面向上次數遠遠大於正面向下次數,也遠遠大於先驗分佈的正面向下次數,則判斷下次為正面向上的概率無限接近1(若不理解請參考公式)。

 

                                                                                       4、總結


本文首先詳細介紹了β分佈,通過調節引數a和b使β分佈符合假設的先驗分佈,β分佈使後驗分佈和先驗分佈為共軛分佈,形成先驗鏈,便於分析問題。後面講的內容是貝葉斯思想,貝葉斯是主觀評價事件發生的概率,根據先驗知識來假設先驗分佈,若觀測的資料符合先驗分佈,則後驗分佈與先驗分佈類似;若觀測的資料不符合先驗分佈,則後驗分佈開始向觀測資料傾斜,若觀測資料為無窮大時,那麼前驗分佈可以忽略不計,最大似然函式估計引數與後驗分佈估計引數相同,直接可以用最大似然函式來估計引數。

參考:

Christopher M.Bishop <<Pattern Reconition and Machine Learning>>

 

推薦閱讀文章

淺談頻率學派和貝葉斯學派

淺談先驗分佈和後驗分佈