實用統計學 : 假設檢驗原理
提到假設檢驗,95%的人心裡微微一笑:這個簡單,不就是比較 p-value 和顯著性水平 嘛!結論的確如此,但是原理你能說出來麼?
想要徹底弄清楚假設檢驗的原理,還得從抽樣分佈講起。
什麼是抽樣分佈?
假設某微信公眾號累積釋出了5千篇文章,這5千篇文章裡有些寫了7百個字,有些寫了6千個字。這個微信公眾號的所有文章字數分佈有能是
隨機從這5千篇文章中抽取100篇計算文章的平均字數 。重複,隨機再抽取100篇計算文章的平均字數 ...在這個隨機抽取過程中 是一個隨機變數,它本身也會有期望、標準差和概率分佈。
在簡單隨機抽樣中:
- (總體 有限)
- (總體 無限)
簡單隨機樣本 的分佈分為兩種情況:
- 總體為正態分佈時, 的分佈為正態分佈
- 總體不是正態分佈時, 的分佈近似正態分佈
中心極限定理:從總體中抽取容量為 n 的簡單隨機樣本,當樣本容量很大時,樣本均值 的抽樣分佈近似服從正態分佈。
上圖的抽樣分佈:樣本容量 n = 1000,簡單隨機抽樣1000次
因此,抽樣分佈實際是樣本中某一個統計量(上文中是 的分佈)的分佈,而不是部分人以為的抽取出來的樣本的分佈。
抽樣分佈搞清楚了,才能更好的理解假設檢驗
什麼是假設檢驗
假設檢驗就是提出假設,並檢驗假設是否正確。

仍然用上面的例子:假如我們知道這個公眾號(資料科學與技術 read_csv) 累積發表的5千篇文章,平均每篇文章的字數是 4000,既 。後來寫公眾號的飛天麵條:ramen:覺得插圖片會更容易說明內容,於是開始往文章內插圖,但是懷疑插入圖片間接減少了每篇文章的字數。
那到底插入圖片是否會影響每篇文章字數呢?我們可以先提出假設:
- 插入圖片不減少每篇文章字數
- 插入圖片減少了每篇文章字數
然後從插入圖片的文章內抽取一部分作為樣本,比如隨機挑選50篇插入了圖片的文章統計字數的平均值 。
從前面抽樣分佈的概念裡我們知道 是一件非常正常的事情,所以抽出來的 50 篇文章平均字數小於 4000 還不足以說明插入圖片會減少每篇文章的字數。
但是,如果我們知道最開始累積釋出的5千篇文章 的話,則在假設 成立的條件下,抽取的50篇文章的樣本應該滿足 , 的近似正態分佈。(因為50的樣本量足夠大,所以可以考慮直接用正態分佈來表示抽樣分佈)
均值 4000,標準差 28.3 的正態分佈
在上面的抽樣分佈中,我們隨機選擇一個樣本,樣本均值小於 3960 的概率約為 0.078(p-value)。也就是說約有8%的概率我們在 成立的條件下,隨機選擇的一個樣本,它的平均值小於 3960。
在這樣一個概率的前提下,我們是否應該選擇相信假設 呢?這就是仁者見仁,智者見智的問題了,也既開頭提到的顯著性水平 。
如果決策要求拒絕接受 但 的確正確(犯錯)這一事件發生的概率為5%,既 。也就是說如果我們依據抽取的樣本平均值為3960這個結果去選擇拒絕接受 。在 成立時,我們計算的抽到低於這個樣本平均值的概率應該要小於5%才可以。
但是簡單的依靠 p-value < 就拒絕一個假設成立,實際應用中過於武斷了,最近也有很多統計學家聯名反對這種做法。