1. 程式人生 > >貝葉斯vs頻率派:武功到底哪家強?| 說人話的統計學·協和八(轉)

貝葉斯vs頻率派:武功到底哪家強?| 說人話的統計學·協和八(轉)

定義 這一 tps cbc 出發 上一條 習慣 做出 而已

回我們初次見識了統計學理論中的“獨孤九劍”——貝葉斯統計學(戳這裏回顧),它的起源便是大名鼎鼎的貝葉斯定理。

整個貝葉斯統計學的精髓可以用貝葉斯定理這一條式子來概括:

技術分享
我們做數據分析,絕大多數情況下希望得到的是關於某種假說是否成立的信息。等式左邊的P(參數 | 數據),正是在觀察到了手頭上的數據的前提下,假說成立的概率。這裏的“參數”,只不過是描述我們感興趣的假說的數字而已。

比如說,在第1集《你真的懂p值嗎?》裏(戳這裏回顧),藍精靈拋一枚鋼蹦兒,想知道它是不是均勻的。那麽,關於鋼镚兒是否均勻的假說可以用什麽參數表示呢?

最直接的選擇,自然就是隨機拋一次鋼镚兒得到正面(或背面)朝上的概率了。如果我們把這個

概率用字母q表示,那麽“鋼镚兒均勻”這個假說就是q=0.5了。

藍精靈連續拋了5次都得到了正面,此時在觀察到了這樣的實驗結果之後這個假說成立的概率就是P(參數 | 數據),也就是P(q = 0.5 | 連續拋5次都得到了正面)

對於某個假說,選擇哪個量作為參數並不是唯一的

同樣是“鋼镚兒均勻”,你要是不喜歡拿隨機拋一次鋼镚兒得到正面朝上的概率作為參數,非要用獨立拋兩次鋼镚兒得到兩個背面的概率,那也沒什麽不可以。這樣一來,“鋼镚兒均勻”這個假說相對應的參數值就變成了0.25了。

但是,對於同樣的一個假說,你選什麽做參數,並不影響上面的貝葉斯公式中描述數據或者參數的概率,如P(數據 | 參數)、P(參數)等,也不會影響在觀察到同樣數據下算出來的結果P(參數 | 數據)

(想想看為什麽?)。

因此,用哪個量做參數,主要的決定因素是怎樣好理解、好計算

說到底,參數只是對假說的描述方式,就好像“中國的首都”、“清華大學所在城市”或者“北緯40度東經116度”說的都是同一個地方。

在鋼镚兒這個例子裏,一個參數q就足以完整表述鋼镚兒的均勻程度了。但是,在更普遍的情況下,我們需要不止一個參數

比如說,我們的假說是關於健康人群的某個生化指標的分布,那麽除了均值以外,我們還需要知道這個分布有多發散,如標準差或5%、95%分位等。如果這個指標隨年齡或性別還會有明顯的變化,我們還需要引進更多的參數。

在實際的數據分析中,假說模型有許多個參數是很常見的,在一些復雜的多層次分析中出現成百上千以至更多的參數也不稀奇。

我們都知道,我們對數據進行分析,最終目的是得到某些關於我們感興趣的假說的信息。既然假說由參數來表示,那麽回顧一下文章開頭的式子,有哪些項是關於參數的呢?P(參數)P(參數 | 數據)(雖然參數也在P(數據 | 參數)中也出現了,但它只是作為一個條件,這一項並不是它的概率)。

在上一集中,我們說過,P(參數)P(參數 | 數據)分別叫做先驗概率後驗概率。這裏頭的“”字,就是試驗、檢驗的意思,所以,先驗和後驗概率說的就是在試驗前和試驗後我們對由某參數表示的假說成立可能性的估計。

如果我們稍微改一改之前式子的模樣:

技術分享

我們更能清楚地看到,貝葉斯定理其實就是告訴我們,怎樣根據觀察到的數據來更新我們的先驗概率,從而獲得對假說的新看法——後驗概率

現在我們來關註一下先驗概率P(參數)前面的因子。這個因子決定了我們手上的數據將會使先驗概率往哪個方向變化。

既然參數代表了假說,那麽在分子上P(數據 | 參數)(即“似然”)說的就是在假說成立的條件下得到數據的概率。如果數據很符合假說,P(數據 | 參數)就比較大,從而後驗概率P(參數 | 數據)也會變大。

你是否感覺到這與我們之前講過的什麽東西有些隱約的聯系?

不錯!咱們整個系列最先討論的概念p值——在原假設成立的條件下得到與手上數據相同或更極端的數據的概率——說的不就是這個麽?

為了讓這一點變得更明顯,我們把上一條式子的“參數”換成“原假設”,就有

技術分享

也就是說,原假設的後驗概率與p值和它的先驗概率的乘積成正比

這也就解釋了為什麽我們說,p值不是原假設成立的概率,這還取決於試驗前原假設本身成立的概率有多大。如果反過來考慮備選假設成立的可能性,那麽就是把推論也同樣反過來而已:如果備選假設的先驗概率很小,即便我們獲得了基於原假設的很小的p值,也只不過把備選假設的後驗概率提高了一點點而已;如果備選假設的先驗概率本來就大,那麽很小的p值則會進一步增大備選假設成立的概率。

下圖就展示了幾種不同的可能:

技術分享
(請點擊圖片查看大圖)

(註:本圖出自參考文獻1,中文翻譯來自果殼網譯文http://www.guokr.com/article/438043/;圖中註釋的“假設似然性”譯法不規範,實際指的就是本文所說的備選假設成立的“先驗概率”。)

你也許還會發現,我們一直在講貝葉斯統計學,但說著說著竟然把死對頭頻率主義的法寶(p值)給扯進來了。這是什麽情況?

其實呢,貝葉斯學派和頻率學派在對似然性(即P(數據 | 假說))的處理上是非常相似的,他們之間最大的區別,就在於是否引進先驗概率這個東西。也正是因為有了先驗概率,貝葉斯學派才能把他們祖師爺威力無比的“獨孤九劍”貝葉斯定理用上,算出在觀察到數據之後假說成立的概率,即後驗概率

那麽,既然這個後驗概率是我們真正感興趣的東西,為什麽頻率學派不願意邁出這一步?

這還得從兩派最根本的分歧——概率的定義——上說起。

統計學的根本任務,就是在數據的隨機性之中尋找真實的規律。既然有隨機性,那就逃不開概率的問題。

什麽是概率

即使沒學過概率論的人都會有樸素的認識,就是事情發生的可能性。但是,這個所謂的“可能性”,到底是客觀存在於這個世界裏的,還是存在於我們主觀的想法之中?

頻率學派說,我們只相信客觀的、能測量的東西,因此我們認為,概率是頻率在無限多次重復試驗時的極限值

比如說拋鋼镚兒,如果我們想知道拋一次得到正面的概率q,將其作為均勻性的參數,我們要做的就是把這枚鋼镚兒拋盡量多次,我們相信,次數n越多,在n次試驗中出現正面的頻率就會趨近於真實的概率q。(這也是他們被稱為“頻率學派”的緣由——費希爾大爺滿地打滾:不公平!為啥不叫“費希爾派”!!)

而且,這個數字q是客觀存在的,是一個老天知道的確定的數值。只要你選定了鋼镚兒,q就是個確鑿的數,在冥冥中掌控著拋出的結果。任何不確定性都只存在於數據之中。

所以,不管你的假說認為q是哪個數,它要麽就是對的(正好就是真實的q),要麽就是錯的(任何其他數值),不存在什麽概率。

所以,你們說的那些什麽假設成立的概率,什麽先驗後驗,這在我們看來都是不存在的事情。

所以,我們只關心實際到手的數據符不符合假說,要是太不符合,那就推翻假說,否則就不能推翻。當然了,我知道有時候會犯錯,不過我可以設一道門檻兒比如p<0.05,那樣從長遠來看,我犯錯的頻率就應該不會和0.05差的太遠。

貝葉斯學派怎麽說呢?

非也非也!我們既非上帝,也沒有長生不老之軀能在千百萬個平行空間中做無限多次重復試驗。

所謂概率,只不過是我們思想中對事情發生可能性的一種猜測與信念。我覺得一件事情板上釘釘,那麽(對於我來說)它的概率就大,我覺得一件事情希望渺茫,它的概率就小。當然,我的看法也不一定對,看到了新的現象,我就修正我的信念,這不是我們所有人(包括你們這些頻率派)每天都在做的事嗎?

至於說那些代表假說的參數,我不知道有沒有一個真實確定的數值,即使有我也沒法知道。不過我會收集信息來形成一個看法

比如你給我一枚鋼镚兒,我看看它的樣子不太奇怪,也不是什麽遊戲幣,我就覺得它應該挺均勻的,所以q應該和0.5挺接近的。我再把它拿到手拋幾次,根據正反面出現的次數的多少,修正我對於q=0.5的概率的看法。我相信隨著收集信息的增多,我的估計會越來越精確。

於是你覺得誰說的更有理?

先不用著急站隊。這兩家之言,根本出發點是哲學觀點的差異,這一分歧並不存在誰對誰錯

一方面,人們對於以頻率描述的問題往往有很好的直覺(例如上一集《見識數據分析的“獨孤九劍”》中提到的男女生穿裙子的例子)。

另一方面,正如頻率學派和貝葉斯學派都認同的那樣,真實的參數是不可知的,而人類自然的傾向便是去對它做估計,並以之指導自己的行為。

假設我們生活到30年前,那會兒沒有網絡,沒有手機和微信,甚至也沒有固定電話。有一天,在沒有事先約定的情況下,你出門去找住在5分鐘路程外的一個朋友。雖然你能不能找到你的朋友(他在不在家)在你出門的時候就已經是一件確定的事了(我們忽略你出門時他還在家、在你抵達他家之前正好離開了家的可能性),按照頻率學派的思想沒有概率可討論。但是我們肯定會在路上和在出發前思考能找到他的概率,還可能會想想朋友的作息習慣,回憶他前些天有沒有說過今天有事要出門,好讓這個概率感覺更準確。當我們這樣做的時候,我們就都是貝葉斯主義者了

那麽,為什麽歷史悠久的貝葉斯統計學曾沈寂多時,直到近年來才重出江湖呢?

貝葉斯統計學曾經面臨兩個很大的困難。我們重新來看這條式子:

技術分享

第一,分母P(數據)我們一直沒怎麽講過,它指的就是觀察到所得數據的概率。看起來它和參數或假說無關,但實際上我們不能脫離參數來計算數據的概率。

回憶上一集中,我們是怎樣計算穿裙子的人在所有學生中的比例P(裙)的?我們分別考慮男女生中穿裙子的比例P(裙 | 男)P(裙 | 女),分別乘以男女生在總人數的比例P(男)P(女),再把它們加起來。在這裏,男和女是性別這個參數的所有可能的取值

推廣到普遍情況,我們要把P(數據)重新拆分成許多個P(數據 | 參數k)*P(參數k),其中參數k要取遍所有可能的情況,然後再把它們全部加起來。如果參數可以在一個連續範圍內取值,那麽求和就變成了積分

∫P(數據 | 參數)P(參數)d參數

了。我們之前還說過,實際應用中經常遇到有成百上千個參數的情況,那麽P(數據)就變成極其復雜的多重積分了。這一直到近年都是算不出來的。

所以在很長一段時間裏,盡管貝葉斯統計學的思想十分優雅簡潔,但只能解決一些極為簡單的問題,在科學實踐中只能扮演“然並卵”的角色。

但是,過去十多年來,貝葉斯統計學家們練就了一個新利器Markov Chain Monte Carlo(馬爾可夫鏈蒙特卡洛)方法(不必感到不明覺厲,我們以後將會專門講到它),加上計算機的發展,即便有上百萬個參數,計算也不再是問題了。從而也有許多人認為,未來將會是貝葉斯統計學收復失地的時代。

第二,在前面的討論中我們能看到,先驗概率對結果有著相當大的影響。這樣一來,如果人人都按自己的意願、甚至按自己想要什麽結果來設定先驗概率,那豈不是亂套了?

這是一個被頻率學派吐槽已久、也讓許多人感到困惑的地方。貝葉斯統計學對此的解決方案有兩個:

(1)使用盡量客觀的方法設定先驗概率,包括利用薈萃分析綜合大量數據,以及某些專門的行為學、心理學手段從相關領域專家獲得盡可能準確的先驗信息;

(2)使用“弱信息”或“無信息”先驗,也就是不對假設成立的先驗概率做出預先判斷,類似於認為不同的參數取值可能性差不多是一樣的。

寫到這裏,相信大家都已經對貝葉斯頻率主義統計學各自的思想都有所了解了。在以後的討論中,我們將不拘泥於派別,為大家呈現不同的分析角度。

運用之妙,存乎一心,正所謂“無招勝有招”才是最高境界,你說是嗎?

轉自:https://mp.weixin.qq.com/s?__biz=MzAxMDA4NjU3OA==&mid=208453473&idx=1&sn=8d16e540580c3aced266a6c9041f996c&scene=21#wechat_redirect

貝葉斯vs頻率派:武功到底哪家強?| 說人話的統計學·協和八(轉)