1. 程式人生 > >(statistic)你所不知道的P值--對統計學的批判

(statistic)你所不知道的P值--對統計學的批判

//2014年11月17日

(文/Regina Nuzzo)衡量統計真實性的“黃金標準”——P值,並非眾多科學家想象的那樣可靠。

2010年某個瞬間,馬特·莫德爾(Matt Motyl)離享受科學榮譽僅有一步之遙。那時,他發現政治極端主義者看到的世界是確實是非黑即白的。

實驗結果“非常清楚”。莫德爾這樣回憶道。他是夏洛茨維爾市弗吉尼亞大學的心理學博士生。他所做的一項涉及近2000人的研究中的資料似乎表明,與左翼或右翼人士相比,政治中立派能更準確地辨別不同色度的灰色。他說:“實驗的假設很有趣,而且資料也能夠有力支援實驗假設。”用來衡量統計顯著性的常用指標是P值。該實驗中的P值為0.01,通常人們會認為這說明實驗結果“非常顯著”。莫德爾十分有把握能把自己的論文發表在高影響因子的刊物上。

但是,現實無情地粉碎了幻想。由於擔心實驗結果陷入再現性爭論,莫德爾和他的導師布萊恩•諾塞克(Brian Nosek)決定重複實驗。添加了新的資料之後,P值變成了0.59,這個數字遠未達到學界一般能接受的顯著性水平0.05。莫德爾觀察到的心理學效應沒有了,他年少成名的夢也被打碎了。

其實,不是莫德爾的資料或分析出了什麼問題,而是P值這個指標出了問題。從本質上講,這個指標出人意料的不穩定,它並不是大多數科學家想象的那樣可靠和客觀。“P值沒有起到人們期望的作用,因為它壓根就不可能起到這個作用。”伊利諾伊州芝加哥市羅斯福大學的經濟學家斯蒂芬•茲利亞克(Stephen Ziliak)這樣說,他經常批評統計學的應用方式。

出於對實驗可重複性的擔憂,P值的問題讓很多科學家特別發愁。2005年,加州斯坦福大學的流行病學家約翰•埃迪尼斯(John Ioanniadis)指出,大多數公開發表的科學發現都是有問題的。此後,一連串備受矚目的、有可重複性問題的研究迫使科學家重新思考該如何評估研究結果。

與此同時,統計學家也在尋找更好的分析資料的方法,以避免科學家錯失重要資訊,或在假陽性結果上浪費精力。“當你的統計思想發生改變之後,突然,重要的東西也完全變了。”斯坦福大學物理學家、統計學家史蒂文·古德曼(Steven Goodman)說:“規則並不是天註定的,它是由我們所採用的統計方法決定的。”

對P值的誤用

人們一直都對P值批評不斷。90年前P值誕生以來,被比作過蚊子(因為這東西煩人又揮之不去)、皇帝的新衣(因為P值的方法中到處都是顯而易見卻被所有人無視的問題)以及“不育的風流才子”手中的工具——這位“才子”強搶了科學佳人,卻讓科學佳人後繼無人。一位研究人員表示,應該把“統計推論和假設檢驗”這個方法改個名字,叫做“統計假設和推論檢驗”(statistical hypothesis inference testing),大概因為這個名字的首字母縮寫更符合它的氣質。

諷刺之處在於,20世紀20年代,英國統計學家羅納德·費希爾(Ronald Fisher)首次採用P值方法時,並沒有打算把它作為決定性的檢驗方法。他本來只是用P值作為一種判斷資料在傳統意義上是否顯著的非正式方法,也就是說,用來判斷資料證據是否值得進行深入研究。P值方法的思路是先進行一項實驗,然後觀察實驗結果是否符合隨機結果的特徵。研究人員首先提出一個他們想要推翻的“零假設”(null hypothesis),比如,兩組資料沒有相關性或兩組資料沒有顯著差別。接下來,他們會故意唱反調,假設零假設是成立的,然後計算實際觀察結果與零假設相吻合的概率。這個概率就是P值。費希爾說,P值越小,研究人員成功證明這個零假設不成立的可能性就越大。

將資料和背景知識相結合得出科學結論的過程是流動的、非數值化的。儘管P值的精確性顯而易見,費希爾還是希望它只是這個過程的一部分。但是,科學家很快就開始利用P值來保證循證決策的嚴謹與客觀。這一運動是20世紀20年代末,由費希爾的死對頭、波蘭數學家耶日·內曼(Jerzy Neyman)和英國統計學家埃貢·皮爾森(Egon Pearson)一手推動的。他們採用了一種新的資料分析框架,該框架中包括統計效力、假陽性、假陰性和很多其他如今在統計學概論課上耳熟能詳的概念。他倆直接無視了P值這個指標。

雙方爭執不斷,內曼批評費希爾的某些工作從數學上講比“毫無用處”還糟糕,而費希爾對內曼的方法給出的評價是“無比幼稚”、“在西方學界中簡直駭人聽聞”。但是,就在雙方爭執不下時,其他研究人員的耐心漸漸耗盡了。他們開始給進行研究的科學家們編寫統計學指南。但是其中很多作者並非統計學家,他們對兩種方法都缺乏透徹的理解。結果就是他們把費希爾粗略的P值計演算法硬塞進了內曼和皮爾森二人建立的規則嚴密的統計系統中,創造出了一種混合的方法,然後就出現了像“P值為0.05,即可將統計結果視為顯著”這樣的規則。古德曼說:“統計學家從沒打算以現在的方式使用P值。”

“P值至上”帶來的惡果

這樣做的後果之一就是人們對P值的意義充滿困惑。我們回過頭來看一下莫德爾關於政治激進者的研究。大多數科學家看到實驗最初統計結果的P值為0.01,就會認為莫德爾的結論不成立的概率只有1%。但他們錯了。P值無法告訴研究人員這樣的資訊。P值能做的,就是在特定的零假設條件下對資料特徵進行總結分析。研究人員不能利用P值通過反向推導對事實作出判斷。要對事實作出判斷,還需要更多資訊,也就是現實世界中該效應客觀存在的概率。忽視了這一點,就好像一個人清晨醒來覺得有點頭痛,然後就斷定自己得了某種罕見的腦瘤。這當然不是不可能,只是這事兒攤到你頭上的概率太小,所以你得先拿出更多證據推翻例如過敏反應這樣更為常見的原因。結論越是令人難以置信(比如心靈感應、外星人、順勢療法),這種驚人的發現是假陽性的可能性就越大,不管你的P值有多小。

這些都是比較難懂的概念,但是一些統計學家試圖用它們來解釋經驗法則的失靈(見下圖)。根據應用最廣泛的一種計算方法,如果假設為該現象存在,那麼當P值為0.01時,該現象實際並不存在的概率至少為11%;而當P值為0.05時,這一概率則會上升到29%。因此,莫德爾的發現是假陽性的概率超過10%。同樣,結果可重複的概率也不是大多數人所想的99%,而是73%左右。而再得到一個極為顯著的結果的概率只有50%。換言之,莫德爾的實驗結果不可重複的概率高得驚人,就跟拋硬幣猜正面向上,而落下來是反面朝上的概率差不多。

圖中的三個例子證明,即使計算得出的P值非常小(具有統計顯著性),實驗結果也可能具有極高的不可重複率。圖片來源:Nature

批評者也感慨P值會讓研究人員思維混亂。最重要的一個例子是,P值容易使研究者錯誤的估計現象的真實影響。比如去年,一項覆蓋超過19000人的研究顯示,在網上結識的夫妻比在現實生活中結識的夫妻離婚的可能性更低(P<0.002),而獲得婚姻滿足感的可能性則更高(P<0.001)。(點選這裡看詳情)。這一現象也許挺讓人印象深刻,但這種現象其實非常不明顯。網上結識的夫婦離婚率為5.96%,而現實生活中結識的夫妻離婚率為7.67%,根據7分幸福感評分表測試中,網上結識的夫妻幸福感為5.64分,而現實生活中結石的夫妻幸福感為5.48分。澳大利亞墨爾本市拉籌伯大學的榮譽心理學家傑夫·卡明(Geoff Cumming)認為:“為了追求很小的P值而忽略背後更大的問題這一現象是“誘人的顯著性”的犧牲品。”但是,顯著性並不意味著實際中確實存在相關性。他說:“我們應該問的是,‘某種現象出現的概率有多大?’而不是‘有沒有某種現象?’”

大概,最糟糕的錯誤是某種自欺欺人的行為,賓夕法尼亞大學的心理學家尤里·西蒙遜(Uri Simonsohn)及其同事給這種行為起名為“P值操縱”(P-hacking)。這種行為也被稱為資料探勘、資料窺探、資料釣魚、追逐顯著性或者雙重計算。西蒙遜解釋道:“P值操縱就是不斷地把資料量加倍,直到獲得自己想要的結果。”這種行為甚至是下意識的。這可能是線上城市詞典中收錄的第一個統計學詞條,該詞條的例句是:“這一發現似乎是通過P值操縱做出來的。作者去掉了其中一種條件下的資料,使總體的P值小於0.05。”或者“她是個P值操縱者,總是一邊收集資料一邊看資料好不好。”

這種行為的結果是,把本應帶著質疑眼光審視的探索性研究的結果變得看似確定無疑實際上卻難以重複。西蒙遜的計算機模擬實驗表明,只需改變研究中的若干資料分析方法,就能使假陽性的概率提高到60%。如今的研究都希望能從雜亂的資料中發現並不十分明顯的現象。在這種背景下,尤其容易出現P值操縱。儘管難以估計這種做法有多普遍,但西蒙遜認為這一問題應該已經很嚴重了。在一項分析研究中,他發現有跡象表明,很多公開發表的心理學論文中,P值都出人意料地分佈在0.05左右——就像研究人員通過P值操縱不斷嘗試,直到得到理想的P值

解決之道

儘管對P值提出批評的大有人在,但統計方法的變革仍然進展緩慢。“費希爾、內曼和皮爾森提出他們的理論後,統計學的基本框架實質上沒有發生任何改變。”古德曼說。1982年,明尼阿波利斯市明尼蘇達大學心理學家約翰·坎貝爾(John Campell)曾經抱怨過這個問題,當時他還是《應用心理學雜誌》的編輯。他說:“要把作者的注意力從P值上轉移走幾乎是不可能的,P值小數點後面的零越多,人們就越抓著P值不願放手。”1989年,馬薩諸塞州波士頓大學的肯尼斯·羅斯曼(Kenneth Rothman)創辦了《流行病學》這本雜誌,當時他盡力勸阻作者不要使用P值。但是在2001年他離開了雜誌社後,這本雜誌中又經常出現P值了。

埃尼迪斯最近正在PubMed資料庫中搜尋資料,用來研究不同領域的學者是如何使用P值和其他統計學證據的。“只需要粗略瀏覽幾篇最近發表的論文,你就會發現P值仍然是非常非常流行的方法。”

古德曼認為,這種根深蒂固的研究文化需要徹底的改革——人們必須改變統計學的教授方式、資料分析方式以及結果呈現和解釋的方式;而好在研究人員已經開始意識到自己的問題了。“已公開發表的眾多科學發現都不成立,這給人們敲了個警鐘。”埃尼迪斯等研究者的研究揭示了理論統計學的批評觀點與統計學應用上的難題之間的聯絡。古德曼說:“統計學家預言會出現的問題正是我們當前遇到的問題,只是我們還沒有找到全部的解決辦法。”

統計學家提出了幾個或許可行的方法。比如卡明認為,為了避免掉進思考結果是否顯著這個陷阱,研究人員應該在文章中提供效應量和置信區間的相關資料。這些資料可以反映P值無法反映的資訊,也就是效應的規模及其相對重要性。

很多統計學家還呼籲用基於貝葉斯法則的方法替代P值。這一法則誕生於18世紀,其思想是把概率視為某種結果的似然性而非出現的頻率。這其中蘊含了某種主觀因素,而這也是統計學前沿學者想極力避免的。但是,貝葉斯分析框架能夠使觀察者相對容易地將自己所知道的內容融入結論,以及計算出現新資料後概率如何變化。

其他人則贊成一種更普遍的方法,即鼓勵研究人員對同一套資料用多種方法進行分析。 盧森堡市公共衛生研究中心的統計學家史蒂芬·森(Stephen Senn)把這個方法比作沒法從牆角里繞出來的掃地機器人。任何資料分析方法最終都會有行不通的時候,這時就需要用常識將分析拖回正軌。他認為倘若用不同的方法得到了不同的結論,“就表明研究者應該繼續開動腦筋,努力找到原因”,而這能讓我們更好地理解背後的真相。

西蒙遜認為科學家為自己辯解最有利的武器就是承認一切。他鼓勵作者在論文中寫上這樣一段話:“論文中列出了研究中我們確定樣本大小的方法、所有捨棄的資料(如果有的話)以及研究中用到的所有操作和測量方法。”通過這種方式表明文章沒有進行“P值操縱”。他希望通過披露這些資訊,能夠阻止P值操縱行為,或者至少能提醒讀者注意論文中的疑點,並自行做出判斷。

紐約市哥倫比亞大學政治學家、統計學家安德魯·格爾曼(Andrew Gelman)表示,目前另一個受到關注的類似方法是兩階段分析法,也叫做“先預定後重復法”(preregistered replication)。這種方法中,探索與驗證分析通過不同的方式進行,而且要在論文中清楚地標示出來。例如,研究人員首先做兩個探索性的小研究,用來發現可能比較有趣的現象,而又不需要太擔心假陽性結論;而不是一下做4個單獨的小研究,然後在同一篇論文中寫出所有的結果。然後,在上述研究結果的基礎上,作者再決定用什麼方法來驗證他的發現,並在Open Science Framework這樣的資料庫中向公眾提前披露自己的研究意向。然後,他們再進行重複實驗,並將結果之前與探索性研究的結果一同發表。格爾曼表示這種方法使研究分析更加自由和靈活,同時也能使研究者保持嚴謹,並降低公開發表的假陽性結果的數量。

古德曼還表示,進一步來說,研究人員需要意識到傳統統計學方法的侷限性。他們應該在研究中融入對假設似然性和研究侷限性的科學判斷,而這些內容通常情況下會被放到討論部分——包括相同或類似實驗的結果、研究人員提出的可能的機制以及臨床認識等等。馬里蘭州巴爾的摩市約翰霍普金斯大學布隆伯格公共衛生學院的統計學家理查德·羅耶兒(Richard Royall)認為,科學家應該在實驗結束之後思考三個問題:“支援資料是什麼?”、“我應該相信什麼樣的資料?”以及“下一步應該怎麼做?” 單一方法無法回答上述全部問題。古德曼說:“數字僅僅是科學討論的開始,而不是結束。”