假設檢驗(hypothesis testing)及P值(p-value)

阿新 • • 發佈：2018-12-20

前一篇t檢驗的文末提到了P值的概念，P值實際上是醫學統計中很常用的一個概念，那麼這篇文章繼續講解什麼是P值。說到P值，就得先從假設檢驗說起。

首先宣告，此篇的內容是來自"馬同學高等數學"微信公眾號的內容。

1、什麼是假設檢驗

拋硬幣是概率統計學中很經典的一種實驗方法，也是我們生活中一種常見的決策手段。通常意義下拋硬幣和抽籤是一樣的，都是公平的。所謂的硬幣是公平的，也就是“花”和“字”出現的概率是差不多的。然後，你想和我打賭，作為一個資深的理智賭徒，我怎能聽信你的一面之詞，我提出要檢查下你的硬幣到底是不是公平的，萬一是兩面“花”怎麼辦？電影裡面不是經常出現這樣的橋段？

你神色緊張，死活不讓我檢查，後來我們提出了折衷的方案，拋幾次硬幣，看看結果是不是公平的。總共扔了兩次，都是“花”朝上，雖然機率是 $0.5 \times 0.5 = 0.25$ ，但是也正常，繼續扔。總共扔了四次，也都是“花”朝上，機率是 $0.5^{4} = 0.0625$ ，感覺有點不正常，但是萬一是運氣呢？繼續扔。總共扔了十次，也都是“花”朝上，那我就認為很可能你這枚硬幣不是公平的。

這就是假設檢驗：

你提出假設：說你的硬幣是公平的
我提出要檢驗你的假設：扔十次，看實驗的結果是不是和你的假設相符

2、P值

為了完成假設檢驗，需要先定義一個概念：P值。我們這裡就來解釋什麼是P值？

根據上面的描述，這裡假設檢驗的思路就是：

假設：硬幣是公平的
檢驗：認為假設是成立的，然後扔十次，看結果與假設是否相符

反覆扔硬幣應該符合二項分佈（這就不解釋了），也就是： $X \sim B(n,\mu)$ ,其中n代表拋擲硬幣次數， $\mu$ 代表“花”朝上的概率

在我們認為硬幣是公平的前提下，扔10次硬幣應該符合分佈： $X \sim B(10,0.5)$ ，下圖表示的就是，假如硬幣是公平的情況下的分佈圖：

我扔了十次之後得到的結果是，有八次正面：

這個時候有個數學大佬就出來定義了一個稱為 P值（p-value)的概念：

羅納德·艾爾默·費希爾爵士（1890－1962）。

把八次正面的概率，與更極端的九次正面、十次正面的概率加起來：

得到的就是（單側P值）：

其實，出現兩次正面、一次正面、零次正面的概率也是很極端的：

所以（雙側P值）：

2.1 為什麼要把更極端的情況加起來？

根據扔硬幣這個例子，可能你會覺得，我知道八次正面出現不正常就行了，幹嘛要把九次、十次加起來？我覺得有這麼一個現實原因，比如我要扔1000次硬幣來測試假設是否正確。扔1000次硬幣用二項分佈來計算很麻煩，根據中心極限定理，我們知道，可以用正態分佈來近似：

比如，我扔了1000次，得到了530次正面，用正態分佈來計算就比較簡單。但是，對於正態分佈，我沒有辦法算單點的概率（連續分佈單點概率為0），我只能取一個區間來算極限，所以就取530、以及更極端的點組成的區間：

我上面只取了單側P值，說明下：

取單側還是雙側，取決於你的應用
什麼叫做更極端的點，也取決於你的應用

3、顯著水平

總共扔10次硬幣，那麼是出現7次正面之後，可以認為“硬幣是不公平的”，還是9次正面之後我才能確認“硬幣是不公平的”，這是一個較為主觀的標準。我們一般認為：

就可以認為假設是不正確的。

0.05這個標準就是顯著水平，當然選擇多少作為顯著水平也是主觀的。比如，上面的扔硬幣的例子，如果取單側P值，那麼根據我們的計算，如果扔10次出現9次正面：

表示出來如下圖所示：

我們可以認為剛開始的假設錯的很“顯著”，也就是“硬幣是不公平的”。如果扔10次出現出現8次正面：

呃，這個和我們的顯著水平是一樣的啊，我們也可以拒絕假設，只是沒有那麼“顯著”了。

4、與置信區間的關係

置信區間，目的是根據樣本構造一個區間，然後希望這個區間可以把真值包含進去，但是並不知道這個真值是多少？具體可以參考如何理解 95% 置信區間？而假設檢驗，則是假設真值是多少，然後檢驗這個假設是否可能為真。之所以覺得它們有關係，大概是因為它們都提到了0.05。它們之間的關係也簡單，如果我們提出來的假設 $\mu_{0}$ 在樣本 $\bar{x}$ 的置信區間內，就可以通過測試：

反之，就不能通過：

假設檢驗(hypothesis testing)及P值(p-value)

1、什麼是假設檢驗

2、P值

2.1 為什麼要把更極端的情況加起來？

3、顯著水平

4、與置信區間的關係

參考文獻：

假設檢驗(hypothesis testing)及P值(p-value)

統計學假設檢驗(Hypothesis Testing)

【數學】假設檢驗求p值

假設檢驗和P值那些事

假設檢驗中的P值與顯著性水平的聯絡

假設檢驗中的p值

統計學假設檢驗中 p 值的含義具體是什麼？

假設檢驗（Hypothesis Testing）

python相關性分析與p值檢驗

卡方檢驗值轉換為P值

統計學常用概念：T檢驗、F檢驗、卡方檢驗、P值、自由度

p值還是 FDR ?

查T結果與Z結果的P值[轉載]

用python獲取複雜度的P值

scipy求一些統計量的p值和分位數

理解P值

（statistic）你所不知道的P值--對統計學的批判

[線性相關] 皮爾森相關係數的計算及假設檢驗

[秩相關] Spearman秩相關係數計算及假設檢驗

我對於準確率---p值，召回率R值以及F值的理解

假設檢驗(hypothesis testing)及P值(p-value)

1、什麼是假設檢驗

2、P值

2.1 為什麼要把更極端的情況加起來？

3、顯著水平

4、與置信區間的關係

參考文獻：

相關推薦