1. 程式人生 > >假設檢驗(hypothesis testing)及P值(p-value)

假設檢驗(hypothesis testing)及P值(p-value)

前一篇t檢驗的文末提到了P值的概念,P值實際上是醫學統計中很常用的一個概念,那麼這篇文章繼續講解什麼是P值。說到P值,就得先從假設檢驗說起。

首先宣告,此篇的內容是來自"馬同學高等數學"微信公眾號的內容。

目錄

2、P值

參考文獻:

1、什麼是假設檢驗

拋硬幣是概率統計學中很經典的一種實驗方法,也是我們生活中一種常見的決策手段。通常意義下拋硬幣和抽籤是一樣的,都是公平的。所謂的硬幣是公平的,也就是“花”和“字”出現的概率是差不多的。然後,你想和我打賭,作為一個資深的理智賭徒,我怎能聽信你的一面之詞,我提出要檢查下你的硬幣到底是不是公平的,萬一是兩面“花”怎麼辦?電影裡面不是經常出現這樣的橋段?

                             

你神色緊張,死活不讓我檢查,後來我們提出了折衷的方案,拋幾次硬幣,看看結果是不是公平的。總共扔了兩次,都是“花”朝上,雖然機率是 0.5 \times 0.5 = 0.25 ,但是也正常,繼續扔。總共扔了四次,也都是“花”朝上,機率是  0.5^{4} = 0.0625,感覺有點不正常,但是萬一是運氣呢?繼續扔。總共扔了十次,也都是“花”朝上,那我就認為很可能你這枚硬幣不是公平的。

這就是假設檢驗

  • 你提出假設:說你的硬幣是公平的

  • 我提出要檢驗你的假設:扔十次,看實驗的結果是不是和你的假設相符

2、P值

為了完成假設檢驗,需要先定義一個概念:P值。我們這裡就來解釋什麼是P值?

根據上面的描述,這裡假設檢驗的思路就是:

  • 假設:硬幣是公平的

  • 檢驗:認為假設是成立的,然後扔十次,看結果與假設是否相符

反覆扔硬幣應該符合二項分佈(這就不解釋了),也就是:    X \sim B(n,\mu),其中n代表拋擲硬幣次數,\mu代表“花”朝上的概率

在我們認為硬幣是公平的前提下,扔10次硬幣應該符合分佈:X \sim B(10,0.5),下圖表示的就是,假如硬幣是公平的情況下的分佈圖:

                              

我扔了十次之後得到的結果是,有八次正面:

                               

這個時候有個數學大佬就出來定義了一個稱為 P值(p-value)的概念:

                                                           

羅納德·艾爾默·費希爾爵士(1890-1962)。

把八次正面的概率,與更極端的九次正面、十次正面的概率加起來:

                           

得到的就是(單側P值):         

其實,出現兩次正面、一次正面、零次正面的概率也是很極端的:

                        

所以(雙側P值):     

2.1     為什麼要把更極端的情況加起來?

根據扔硬幣這個例子,可能你會覺得,我知道八次正面出現不正常就行了,幹嘛要把九次、十次加起來?我覺得有這麼一個現實原因,比如我要扔1000次硬幣來測試假設是否正確。扔1000次硬幣用二項分佈來計算很麻煩,根據中心極限定理,我們知道,可以用正態分佈來近似:

                                     

比如,我扔了1000次,得到了530次正面,用正態分佈來計算就比較簡單。但是,對於正態分佈,我沒有辦法算單點的概率(連續分佈單點概率為0),我只能取一個區間來算極限,所以就取530、以及更極端的點組成的區間:

                                      

我上面只取了單側P值,說明下:

  • 取單側還是雙側,取決於你的應用

  • 什麼叫做更極端的點,也取決於你的應用

3、顯著水平

總共扔10次硬幣,那麼是出現7次正面之後,可以認為“硬幣是不公平的”,還是9次正面之後我才能確認“硬幣是不公平的”,這是一個較為主觀的標準。我們一般認為:

                                                                  

就可以認為假設是不正確的。

0.05這個標準就是顯著水平,當然選擇多少作為顯著水平也是主觀的。比如,上面的扔硬幣的例子,如果取單側P值,那麼根據我們的計算,如果扔10次出現9次正面:

                                           

表示出來如下圖所示:

                 

我們可以認為剛開始的假設錯的很“顯著”,也就是“硬幣是不公平的”。如果扔10次出現出現8次正面:

                                                      

呃,這個和我們的顯著水平是一樣的啊,我們也可以拒絕假設,只是沒有那麼“顯著”了。

4、與置信區間的關係

置信區間,目的是根據樣本構造一個區間,然後希望這個區間可以把真值包含進去,但是並不知道這個真值是多少?具體可以參考如何理解 95% 置信區間?而假設檢驗,則是假設真值是多少,然後檢驗這個假設是否可能為真。之所以覺得它們有關係,大概是因為它們都提到了0.05。它們之間的關係也簡單,如果我們提出來的假設 \mu_{0} 在樣本 \bar{x} 的置信區間內,就可以通過測試:

                       

反之,就不能通過:

                            

參考文獻: