假設檢驗(hypothesis testing)及P值(p-value)
前一篇t檢驗的文末提到了P值的概念,P值實際上是醫學統計中很常用的一個概念,那麼這篇文章繼續講解什麼是P值。說到P值,就得先從假設檢驗說起。
首先宣告,此篇的內容是來自"馬同學高等數學"微信公眾號的內容。
目錄
1、什麼是假設檢驗
拋硬幣是概率統計學中很經典的一種實驗方法,也是我們生活中一種常見的決策手段。通常意義下拋硬幣和抽籤是一樣的,都是公平的。所謂的硬幣是公平的,也就是“花”和“字”出現的概率是差不多的。然後,你想和我打賭,作為一個資深的理智賭徒,我怎能聽信你的一面之詞,我提出要檢查下你的硬幣到底是不是公平的,萬一是兩面“花”怎麼辦?電影裡面不是經常出現這樣的橋段?
你神色緊張,死活不讓我檢查,後來我們提出了折衷的方案,拋幾次硬幣,看看結果是不是公平的。總共扔了兩次,都是“花”朝上,雖然機率是 ,但是也正常,繼續扔。總共扔了四次,也都是“花”朝上,機率是 ,感覺有點不正常,但是萬一是運氣呢?繼續扔。總共扔了十次,也都是“花”朝上,那我就認為很可能你這枚硬幣不是公平的。
這就是假設檢驗:
-
你提出假設:說你的硬幣是公平的
-
我提出要檢驗你的假設:扔十次,看實驗的結果是不是和你的假設相符
2、P值
為了完成假設檢驗,需要先定義一個概念:P值。我們這裡就來解釋什麼是P值?
根據上面的描述,這裡假設檢驗的思路就是:
-
假設:硬幣是公平的
-
檢驗:認為假設是成立的,然後扔十次,看結果與假設是否相符
反覆扔硬幣應該符合二項分佈(這就不解釋了),也就是: ,其中n代表拋擲硬幣次數,代表“花”朝上的概率
在我們認為硬幣是公平的前提下,扔10次硬幣應該符合分佈:,下圖表示的就是,假如硬幣是公平的情況下的分佈圖:
我扔了十次之後得到的結果是,有八次正面:
這個時候有個數學大佬就出來定義了一個稱為 P值(p-value)的概念:
羅納德·艾爾默·費希爾爵士(1890-1962)。
把八次正面的概率,與更極端的九次正面、十次正面的概率加起來:
得到的就是(單側P值):
其實,出現兩次正面、一次正面、零次正面的概率也是很極端的:
所以(雙側P值):
2.1 為什麼要把更極端的情況加起來?
根據扔硬幣這個例子,可能你會覺得,我知道八次正面出現不正常就行了,幹嘛要把九次、十次加起來?我覺得有這麼一個現實原因,比如我要扔1000次硬幣來測試假設是否正確。扔1000次硬幣用二項分佈來計算很麻煩,根據中心極限定理,我們知道,可以用正態分佈來近似:
比如,我扔了1000次,得到了530次正面,用正態分佈來計算就比較簡單。但是,對於正態分佈,我沒有辦法算單點的概率(連續分佈單點概率為0),我只能取一個區間來算極限,所以就取530、以及更極端的點組成的區間:
我上面只取了單側P值,說明下:
-
取單側還是雙側,取決於你的應用
-
什麼叫做更極端的點,也取決於你的應用
3、顯著水平
總共扔10次硬幣,那麼是出現7次正面之後,可以認為“硬幣是不公平的”,還是9次正面之後我才能確認“硬幣是不公平的”,這是一個較為主觀的標準。我們一般認為:
就可以認為假設是不正確的。
0.05這個標準就是顯著水平,當然選擇多少作為顯著水平也是主觀的。比如,上面的扔硬幣的例子,如果取單側P值,那麼根據我們的計算,如果扔10次出現9次正面:
表示出來如下圖所示:
我們可以認為剛開始的假設錯的很“顯著”,也就是“硬幣是不公平的”。如果扔10次出現出現8次正面:
呃,這個和我們的顯著水平是一樣的啊,我們也可以拒絕假設,只是沒有那麼“顯著”了。
4、與置信區間的關係
置信區間,目的是根據樣本構造一個區間,然後希望這個區間可以把真值包含進去,但是並不知道這個真值是多少?具體可以參考如何理解 95% 置信區間?而假設檢驗,則是假設真值是多少,然後檢驗這個假設是否可能為真。之所以覺得它們有關係,大概是因為它們都提到了0.05。它們之間的關係也簡單,如果我們提出來的假設 在樣本 的置信區間內,就可以通過測試:
反之,就不能通過: