假設檢驗和P值那些事
文章目錄
假設檢驗和P值那些事
記得大學時候學習概率論與數理統計的時候,學習過假設檢驗,但我不記得課本上有提到過P值。後來翻閱了一些資料,大概弄明白了它們之間的關係,本文旨在以淺顯易懂的語言描述嚴密的數學知識。
假設檢驗
在《Head First Statistics》一書中,作者給假設檢驗的定義是“Hypothesis tests give you a way of using samples to test whether or not statistical claims are likely to be true”。其實定義不重要,重要的是我們需要知道假設檢驗能做什麼:以概率統計的視角判別一個統計假說是否成立。
下面舉一個爛大街的例子:我有一枚專門用於玩拋硬幣猜正反面的遊戲的硬幣,我需要判斷這枚硬幣是否是正常的(拋硬幣遊戲中出現正反面的概率相等)。所以我做了一個假說:該枚硬幣是正常的,即拋硬幣遊戲中出現正面的概率為0.5。
那我現在需要做實驗去驗證我說的對不對。我拋了20次,正面朝上11次,背面朝上9次(設正面朝上記為1,反面朝上記為0)。基於這個實驗結果,我應該做怎樣的判斷呢?
根據假設檢驗的一般步驟:
-
建立假設
-
尋找檢驗統計量
-
確定顯著性水平和拒絕域
-
做出判斷
第一步中我們的原假設 (null hypothesis)為該枚硬幣是正常的,備擇假設 (alternate hypothesis)為該硬幣不正常。
注:當原假設正確,而由於樣本的隨機性使得樣本觀測值落在拒絕域(critical region或rejection region)而拒絕原假設產生的錯誤稱為第一類錯誤;當原假設錯誤,而樣本觀測值落在接受域而接受原假設產生的錯誤稱為第二類錯誤。
第二步中根據中心極限定理可知隨機變數 服從正態分佈。這裡我們的檢驗統計量選擇 (這裡的 服從自由度為 的 分佈),所以我們使用 分佈來估計投擲的均值(這裡 為樣本均值, 為原假設中的均值(期望), 為樣本標準差, 為樣本個數)。
注: 分佈用於根據小樣本來估計呈正態分佈且方差未知的總體的均值,稱為 檢驗。如果總體方差已知(例如在樣本數量足夠多時),則應該用正態分佈來估計總體均值,稱為 檢驗。
第三步中顯著性水平 (significance level,拒絕原假設時概率閾值)我們一般採用0.05(當然,你也可以使用0.1或者其它)。這個0.05的意思是觀測值落在拒絕域的概率為0.05,概率為0.05說明這是小概率事件,而在一次測試中發生了小概率事件,所以我們有足夠的理由拒絕原假設。
接下來我們應該計算拒絕域了。對於 分佈求0.025和0.975的分位數分別為-2.093024和2.093024(即 的上下界,左右兩邊各是0.025,合起來就是0.05的拒絕域),我們可以反推出 的上下界為0.3111171和0.7888829(這個區間就是接受域)。
注:對於拒絕域來說,有單邊和雙邊情況,我們這裡顯然是雙邊的情況。
第四步做出判斷,我們實驗的結果的均值是0.4380858,我們在0.05的顯著性水平下得到的接受域是 ,實驗結果落在接受域,所以我們不能拒絕原假設 。這裡的不能拒絕指的是我們沒有足夠的理由推翻原假設,但是這並不代表原假設一定正確。
P值
上面講了檢驗假設的一般過程,好像跟P值沒什麼關係?但是P值其實和檢驗假設息息相關的。上面的求解過程是通過判斷樣本觀測值是否落在拒絕域而做出判斷的,其實我們還可以通過計算P值直接進行判斷。
那麼什麼是 值呢?《Head First Statistics》給出的定義是“A p-value is the probability of getting the results in the sample, or something more extreme, in the direction of the critical region.”。我的理解就是P值是在原假設成立的情況下,出現比當前樣本觀測值更極端(包括當前樣本觀測值)情況的概率。
其實這樣說還是挺抽象的,我們通過計算來進行說明。
我們把檢驗假設步驟中的第三步修改為:確定顯著性水平和計算P值
在我們的實驗中
然後我們通過查表可以得到0.4380858對應的上側分位數為 0.3331321(和-0.4380858對應的下側分位數相同),因為我們的實驗中是雙邊情況,所以
在確定了顯著性水平 的情況下( ),如果計算出的 ,說明觀察值不合理,也就是樣本均值離假設均值太遠了,因此拒絕原假如果計算計算出的 ,則我們不能拒絕原假設。
注:設連續型隨機變數 的分佈函式為 ,密度函式為 ,對於任意 ,假如 滿足條件
則 稱為 分佈的 分位數,或稱為 下側分位數。假如 滿足