資源 | 一文學會統計學中的顯著性概念
這年頭,你不會點兒統計學,你都不好意思出去闖蕩江湖。
α值、P值、假設檢驗這都是些啥?一個小案例帶你瞭解的透透的。
假設你是一所大學的院長,你收到一份相關報告顯示你的學生每晚平均睡眠時間為6.80小時,而全國大學學生的平均睡眠時間為7.02小時。
此時,學生會主席出於對學生健康的考慮,宣稱這項研究的結果證明了減少家庭作業是必須的。另一方面,校長認為這項研究是無稽之談:“在過去,我們能夠每晚睡4個小時就很好了。”
但是,你必須決定這是否應該引起重視,這個問題就可以使用統計學的知識來解決。

我們經常聽到統計顯著性,但其實並沒有真正理解其含義。如果有人聲稱資料可以證明他們的觀點,我們往往會不假思索的接受,因為我們預設統計分析員經過了一系列複雜的資料分析後得出了不可置疑的結果。
事實上,統計顯著性並不複雜,也不需要經過多年的學習才能掌握,它是非常直截了當的思路,每個人都可以並且應該理解。與大多數技術概念一樣,統計顯著性建立在一些簡單的概念基礎上:假設檢驗,正態分佈和p值。本文將闡述這些概念,並逐步解決上述例子中的問題。
假設檢驗
我們要討論的第一個概念是假設檢驗(hypothesis testing),這是一種使用資料評估理論的方法。“假設”是指研究人員在進行研究之前對情況的初始信念。這個初始信念被稱為備擇假設(alternative hypothesis),而相反的被稱為零假設(null hypothesis)(也叫原假設)。具體到例子中就是:
備擇假設:本校學生的平均睡眠時間低於大學生的全國平均水平。
零假設:本校學生的平均睡眠事件不低於大學生的全國平均水平。
需要注意的是,我們必須要謹慎用語:因為我們要檢驗一個非常具體的效應,所以需要在假設中規範用語,才能在事後說明我們確實驗證了假設而非其他。
假設檢驗是統計學的基礎之一,用於評估大多數研究的結果。適用範圍覆蓋了從評估藥物有效性的醫學試驗到評估運動計劃的觀察性研究等各種研究。
這些研究的共同點是,他們關注兩組之間或樣本與整體之間進行比較。例如,在醫學中,我們可以比較服用兩種不同藥物的群體之間得以恢復的平均時間。而在我們的問題中,需要比較本校學生和本國所有大學生之間的睡眠時間。
有了假設檢驗,我們就可以使用證據來決定是零假設還是備擇假設。假設檢驗有很多種,這裡我們將使用z檢驗。但是,在我們開始測試資料之前,還需要解釋另外兩個更重要的概念。
正態分佈
第二個概念是正態分佈(normal distribution),也稱為高斯(Gaussian)或鐘形曲線(Bell curve)。正態分佈是利用平均數和標準差來定義的資料分佈形態,其中平均數用希臘字母μ (mu)表示,決定了分佈的位置,標準差用σ (sigma)表示,決定了分佈的幅度。
正態分佈,平均數μ和標準差σ
正態分佈的應用原理是根據標準差來評估觀測值。我們可以根據與平均值的標準偏差數來確定觀測值的異常程度。正態分佈具有以下屬性:
● 68%的資料與平均值相差±1標準差
● 95%的資料與平均值相差±2標準差
● 99.7%的資料與平均值相差±3個標準差
如果我們統計量呈正態分佈,我們就可以根據與均值的標準偏差來表徵任意觀測點。例如,美國女性的平均身高是65英寸(5英尺5英寸),標準差為4英寸。如果我們新認識了73英寸高的女性,那麼我們可以說她比平均身高高出兩個標準差,屬於2.5%的最高身高的女性(其中有2.5%的女性要矮於μ-2σ(57英寸),2.5%要高於μ+2σ)。
在統計學中,我們不直接說我們的資料與平均值相差兩個標準差,而是用z分數來評估,z分數表示觀測值與平均值之間的標準差的數量。我們需要利用公式將資料轉化為z分數:觀測值減去平均值,除以標準差(見下圖)。在身高的示例中,我們可以得到朋友的身高的z分數為2。如果我們對所有觀測值進行z分數轉化,就會得到一個新的分佈——標準正態分佈,其平均值為0,標準差為1,如圖所示:
從正態分佈(右)到標準正態分佈(左)的轉換。
每次我們進行假設檢驗時,都需要假定一個檢驗統計量,在我們的例子中是學生的平均睡眠時間。在z檢驗中,我們通常假定統計檢驗量的分佈近似正態分佈。因為,根據中心極限定理(central limit theorem),從總體資料中獲得越多的資料值,這些資料值的平均數則越接近於正態分佈。
然而,這始終是一個估計,因為真實世界的資料永遠不會完全遵循正態分佈。假設正態分佈能夠讓我們確定在研究中觀察到的結果有多少意義,我們可以觀察z分數,z分數越高或越低,結果越不可能是偶然發生,也就越具有意義。為了量化結果的意義,我們需要使用另一個概念。
P值和α是個啥!
最後的核心概念是p值。p值是當零假設為真時所得觀察到的結果,或是更為極端的結果出現的概念。這有點令人費解,所以讓我們來看一個例子。
假設我們要比較美國佛羅里達州和華盛頓州人民的平均智商。我們的零假設是華盛頓的平均智商不高於佛羅里達的平均智商。
通過研究發現,華盛頓州的人民智商比佛羅里達州人民智商高2.2,其p值為0.346(大於顯著性水平)。這意味著,零假設“華盛頓的平均智商不高於佛羅里達的平均智商”為真,也就是說,華盛頓的智商實際上並沒有更高,但是由於隨機噪聲的影響,仍然有34.6%的概率我們會測量到其智商分數會高出2.2分。之後隨著p值降低,結果就更有意義,因為噪聲的影響也會越來越小。
這個結果是否具有統計意義取決於我們在實驗開始之前設定的顯著性水平——alpha。如果觀察到的p值小於α,則結果在統計學上具有意義。我們需要在實驗前選擇alpha,因為如果等到實驗結束再選擇的話,我們就可以根據我們的結果選一個數字來證明結果是顯著的,卻不管資料真正顯示了什麼,這是一種資料欺騙的行為。
α的選擇取決於實際情況和研究領域,但最常用的值是0.05,相當於有5%的可能性結果是隨機發生的。在我的實驗中,從0.1到0.001之間都是比較常用的數值。也有較為極端的例子,發現希格斯玻色子(Higgs Boson particle)的物理學家使用的p值為0.0000003,即350萬分之一的概率結果由偶然因素造成。(現代統計學之父R.A.Fischer不知為什麼,隨便選擇了0.05為p值,很多統計學家極其不想承認這一點,並且這個值現在讓許多統計學家非常困擾與擔憂)!
要從z值得到p值,我們需要使用像R這樣的表格統計軟體,它們會在結果中將顯示z值低於計算值的概率。例如,z值為2,p值為0.977,這意味著我們隨機觀察到z值高於2的概率只有2.3%。
正態分佈下z值低於2的概率為97.7%
總結應用
我們做個總結,截止到目前提到了三個概念
1.假設檢驗:用來檢驗理論的方法。
2.正態分佈:假設檢驗中對資料分佈形態的近似表示。
3.P值:當零假設為真時觀察到的或是出現更為極端結果的概率。
現在讓我們把這些概念帶入到我們的例子中:
根據國家睡眠基金會(the National Sleep Foundation)的資料,全國學生平均每晚睡眠時間為7.02小時。
針對本校202名學生進行的一項調查發現,本校學生的平均每晚睡眠時間為6.90小時,標準差為0.84小時。
我們的備擇假設是,本校學生的平均睡眠時間少於全國大學生的平均睡眠時間。
我們將選取0.05為α值,這意味著當p值低於0.05時,結果是顯著的。
首先,我們需要把測量值轉換成z分數,用測量值減去平均值(全國大學生平均睡眠時間),除以標準差與樣本量平方根的商(如下圖)。另外,隨樣本量的增加,標準差亦隨之減少,這一點可以用標準差除以樣本量的平方根來解釋。

轉換為Z值
Z分數就是我們的檢驗統計量。一旦我們有了檢驗統計量,我們就可以使用像R這樣的程式語言來計算p值。這裡展示程式碼只是為了說明使用這些免費的分析工具來進行操作是多麼的容易!(#號是表示備註,加粗字型是輸出值)
# Calculate the results
z_score = ( 6.90 - 7.02 ) / ( 0.84 / sqrt ( 202 ))
p_value = pnorm(z_score)
# Print our results
sprintf ( 'The p-value is %0:5f for a z-score of %0.5f.' , p_value, z_score)
"The p-value is 0.02116 for a z-score of -2.03038."
因為p值為0.02116,所以我們可以拒絕零假設(統計學家喜歡說拒絕零假設,而不是接受備擇假設。) 。也就是說,雖然我們的結果有2.12%的概率由隨機噪聲引起,但在顯著性水平為0.05的情況下,本校學生平均睡眠時間比美國大學生平均睡眠時間少,這一假設在統計學上顯著。因此,在這場辯論中,學生會主席的觀點得到了支援。
但是,我們不能太過相信這一結果,而立即叫停所有的家庭作業。因為,如果我們選用0.01為臨界值,則p值(0.02116)未達到顯著。所以,如果有人想要證明相反的觀點,可以簡單地通過操縱p值來實現。因此,無論何時,當我們審查一項研究時,除了結論外,我們還應該考慮p值和樣本大小。
本例中,因為202是個相對較小的樣本數量,所以我們的研究結果不僅有統計意義,同時具有實際意義。需要說明的是,這是一項觀察性研究,只有相關性,而不能得出因果關係。我們的結果表明了本校學生和平均睡眠不足是有之間的相關關係,但並不是意味著來我們學校會導致睡眠減少,這其中可能還存在其他因素影響睡眠,只有通過隨機對照研究才能證明其因果關係。
與大多數技術概念一樣,統計顯著性並不那麼複雜,只是許多小概念的整合體,最主要的麻煩來自於學習那些術語!但是一旦你掌握了這些小概念,並將其結合起來,就可以開始應用這些統計概念了。
你會發現,當掌握了統計學的基本知識後,你就能夠以一種健康的懷疑態度來更好的審視一些研究和資訊,你可以看到資料實際上表達了什麼,而不是別人告訴你資料意味著什麼。或許這就是對付狡猾的政客和公司的最佳策略——通過統計知識的普及與訓練來提高公眾的質疑能力。
原文釋出時間為:2018-10-12