one-way ANOVA(analysis of variance) 單向方差分析
問題描述:在比較兩組獨立正態分佈樣本的均值時用t test,那麼比較多組樣本的均值呢?要用one-way ANOVA。
Note: 使用ANOVA時,要假定k個組的方差相同。如果k個組的方差並不相同,就不應該使用ANOVA,要分別對兩組間用t檢驗。
當我們看到這種要同時比較多組樣本的均值時,首先就要想到one-way ANOVA,然後再想想用此檢驗方法是否真的合適。比如下面的例子:
研究肺功能與吸菸的關係,以“用力中期撥出量(FEF)”作為指標,統計結果如下,
組號 | 組名 | mean(FEF) | SD(FEF) | n |
---|---|---|---|---|
1 | NS(非吸菸者) | 3.78 | 0.79 | 200 |
2 | PS(被動吸菸者) | 3.30 | 0.77 | 200 |
3 | NI(非吸入吸菸者) | 3.32 | 0.86 | 50 |
4 | LS(輕度吸菸者) | 3.23 | 0.78 | 200 |
5 | MS(中度吸菸者) | 2.73 | 0.81 | 200 |
6 | HS(重度吸菸者) | 2.59 | 0.82 | 200 |
思考過程:
1,首先,6組的方差接近,沒有理由認為6組方差不等,可以使用one-way ANOVA;
2,建立零假設:6組的平均值都相同;
備擇假設:6組中至少有兩組均值不等。
3,計算組間平方和(組間波動)、組內平方和(組內波動)。組間平方和越大,預示著不同組的差別越大,越傾向於備擇假設成立;反之,p-value就越大,傾向於零假設成立。
Within SS =
;
容易計算Within SS =
。
Between SS =
;
容易計算Between SS =
。
4,構建檢驗統計量,書上說Between MS/Within MS服從F分佈(Between MS = Between SS/(k-1),即Between SS除以對應自由度;Within MS = Within SS/(n-k),即Within SS除以剩下的自由度,總自由度為n-1)。
F統計量 = Between MS/Within MS(服從
分佈)
5,進行統計推斷。
精確p值為p = Pr(
)
對上述例子進行計算:
Within MS = 184.38/5 = 36.875
Between MS = 663.87/1044 = 0.636
F = Between MS/Within MS = 58 ~
結論:p < 0.001,所以應該要拒絕原假設,即至少有兩組的平均肺功能不同。
上面的例子到這裡還沒有完,很多情況下會關注到底哪些組之間有顯著差別,有以下幾種方式:
1,指定兩組間比較的t檢驗(least significant difference, 即LSD法),此方法跟分別對兩組間用t檢驗的區別是要用總體的標準差(即Within MS)代替兩組的標準差進行t統計量的計算。
2,預先選取 個組和 個組進行比較。例如要比較吸入抽菸者和非抽菸者的肺功能,將上表三組抽菸者合併成一組去與非抽菸者比較。遇到的問題是在人群中輕度、中度和重度抽菸者的比例不是表中的1:1:1,而是1:7:2,此時要用到線性約束的估計和檢驗。
一個線性約束是值對某些組的均值做線性組合,而線性組合中的係數之和為0:
2.1 用線性約束表示非抽菸者和吸入式抽菸者為:
2.2 設