1. 程式人生 > >頻率學派和貝葉斯學派的一些區別

頻率學派和貝葉斯學派的一些區別

對於概率的解讀區別了頻率流派和貝葉斯流派。如果你不理解主觀概率就無法理解貝葉斯定律的核心思想。

首先談概率,概率這件事大家都覺得自己很熟悉, 叫你說概率的定義 , 你卻不一定說的出,我們中學課本里說概率這個東西表述是一件事發生的頻率, 或者說這叫做客觀概率。

而貝葉斯框架下的概率理論確從另一個角度給我們展開了答案, 他說概率是我們個人的一個主觀概念, 表明我們對某個事物發生的相信程度。 如同Pierre Lapalace說的: Probability theory is nothing but common sense reduced to calculation. 這正是貝葉斯流派的核心,換句話說,它解決的是來自外部的資訊與我們大腦內信念的互動關係。

我們來看一下貝葉斯統計的一個有趣的案例案例:假如你是一個女生, 你在你的老公書包裡發現了一個別的女人的內褲那麼他出軌的概率是多少。

稍微熟悉這個問題的人對會知道做這個題目你要先考察基率,你要把這個問題分解為幾步考慮:

1,你老公在沒有任何概率情況下出軌的概率是多少? 如果他是個天生老實巴交的程式設計師或者風流倜儻的CEO, 那麼顯然不該一視同仁

2,如果你老公出軌了, 那麼他有一條內褲的概率是多少, 如果他沒出軌, 出現這個情況概率有多少? 想想一般人即使出軌也不會犯那麼傻的錯誤, 會不會有沒出軌而出現內褲的狀況? 有沒有可能是某個暗戀你老公的人的陷害?

3, 根據1 和2求解最終問題,這才是擁有大學數學能力的你該做的分析。

在這裡1其實就是先驗概率P(A),而2是條件概率P(B|A), 最終得到3後驗概率P(A|B)。這三種即是貝葉斯統計的三要素。

基於條件概率的貝葉斯定律數學方程極為簡單:

A即出軌, B是內褲出現, 你得到1,2,就可以根據公式算出根據根據內褲出現判斷出軌的概率。

先驗概率在貝葉斯統計中具有重要意義,首先先驗概率即我們在取得證據之前所指定的概率P(A), 這個值通常是根據我們之前的常識,帶有一定的主觀色彩。 就像剛剛說的出軌的問題, 你的先驗概率代表了你對你男人的信心。

貝葉斯分析的思路對於由證據的積累來推測一個事物發生的概率具有重大作用, 它告訴我們當我們要預測一個事物, 我們需要的是首先根據已有的經驗和知識推斷一個先驗概率, 然後在新證據不斷積累的情況下調整這個概率。整個通過積累證據來得到一個事件發生概率的過程我們稱為貝葉斯分析。

-------------------------------------------------------------------------------------------------------------------------------------



從數學上來說就是一個能不能加先驗概率的問題。頻率派認為不能加,貝葉斯派認為可以加。加一個先驗概率往往有利於數學推導,即使是加一個沒有任何資訊的non-informative prior也行。因此說貝葉斯派首先是一個數學上便利的方法。我相信大多數科學家對數學方法沒有信仰,哪個能解決實際問題就用哪個。

但是有些貝葉斯信徒不滿意這種純功利的解釋,而要把這種數學方法上升到方法論的高度。比如xkcd的漫畫,就是找到一個例子從而貶低頻率派:你連太陽爆炸都信啊,啊哈哈哈哈。

可惜光笑不解決問題。實際使用中無法迴避的問題是,先驗概率是怎麼來的?有些問題,比如太陽有沒有爆炸之類,有比較明確的先驗概率。而我們之所以相信這個先驗概率,無非是因為我們知道在地球誕生以來的幾十億年裡太陽都沒有爆炸。我們不相信心電感應,無非是因為我們的日常生活中極少有人見過心電感應。仔細考察起來,這些先驗概率其實也是從長期觀察得來的。如果考慮到這點,頻率派和貝葉斯派就很難區分了。

更糟糕的是,科學實驗往往探索的是以前沒有探索過的新領域。很少有人去研究心電感應這種沒什麼希望的東西(也很少有人會資助這種研究)。在一個新領域,往往沒有特別公認的先驗概率,那麼怎麼辦呢?這時候往往還是使用不提供任何資訊的non-informative prior。

尤其在假設檢驗的時候,貝葉斯派對p-value很不滿意。但是你總不能說,因為我相信我的結論,所以我的結論是正確的吧。那就不是科學研究了。貝葉斯派總是說,得出先驗概率要用經驗,用知識,用這用那,可是提不出一個公認的標準方法。科學工作者需要向同行證明自己的工作有效。如果沒有一個客觀公認的方法,就很難讓別人相信,因此儘管p-value存在這樣那樣的問題,科學界也很難拋棄它,最多是做一些有針對性的預防措施。

話說回來,我以為這種爭議沒有太大意義。貝葉斯作為一種數學工具很好用,尤其在利用大量計算的統計模型中非常有效,因此在近年流行很廣。但是數學應該保持數學的本色。脫離了數學去談論哪種更好,我實在看不出有太多不得了的意義。 ---------------------------------------------------------------------------------------------------------------------------------------------- 頻率學派最先出現,瘋狂打壓新生的貝葉斯學派,貝葉斯很悽慘,就跟藝術圈的梵高一樣,死後的論文才被自己的學生髮表,經過拉普拉斯之手發揚光大,目前二派就像華山派的劍宗和氣宗。頻率學派挺煞筆的,非得做大量實驗才能給出結論,比如你今年高考考上北大的概率是多少啊?頻率學派就讓你考100次,然後用考上的次數除以100。而貝葉斯學派會找幾個高考特級教師對你進行一下考前測驗和評估,然後讓這幾個教師給出一個主觀的可能性,比如說:你有9成的把握考上北大。
目前貝葉斯學派的應用很廣,比如說預測美國總統競選成功的概率,巴西下屆世界盃奪冠的概率,明天下雨的概率,運載火箭發射成功的概率,等等。而這些事件的概率,頻率學派是無法進行估計的,因為這些事件不可能在相同條件下重複。二派的區別主要在於對概率的定義,頻率學派就是很客觀的了。而貝葉斯學派認為概率就是人對一個事件發生有多大的信心。雖然二者對概率的定義不同,但是都滿足概率的公理化定義所要求的條件。