1. 程式人生 > >列聯表篇之二:四格表的分析

列聯表篇之二:四格表的分析

轉載出處:https://zhuanlan.zhihu.com/p/27312651

在列聯表中,二維表是最基礎的一類表,在二維表中,四格表是最基礎的一類表。

下面針對表格資料的各種不同形式來介紹相應的分析方法。

基本四格表的分析方法

1.正態近似

基本四格表其實是兩個比率(就是上表的最後一列)的比較,當比率滿足條件npn(1-p)均大於5時,可以採用正態近似來分析。這個大家都很熟悉了,本文不再涉及。

2.卡方檢驗

卡方檢驗的原理上一篇已經介紹過了,見《列聯表篇之一:雙向無序列聯表的分析》。對於四格表來說,有一個專用的公式計算卡方值:

這個公式不再需要計算期望頻數了,也不難記,放在這裡大家參考著用。

3.卡方檢驗的校正公式

四格表中的資料不是連續的,因此計算出的卡方值也不是連續的,但\chi ^{2}分佈是連續的。當自由度特別小,尤其是四格表這樣只有1的時候,計算出的卡方值偏小,假陽性的概率增大。為此,美國統計學家F.Yates1934年提出了一個計算卡方值的連續性校正公式:

特別的,對於四格表

4.Fisher精確檢驗

這是一種在小樣本情況下的檢驗方法,對於四格表來說,它運用超幾何分佈做檢驗,具體方法和步驟見《經典比較篇之十一:小樣本的比率比較怎麼做?》。對於大於四格表的列聯表,當樣本量比較小時,尤其是期望頻數小於5的格子超過20%時,也需要採用Fisher精確檢驗,不過其方法比較複雜,需要藉助軟體來計算。

5.方法的選擇

在孫振球教授的《醫學統計學》p.114,介紹了四格表的卡方檢驗的三個選擇原則:

(1)當n≥40且所有的E≥5(也就是abcd對應的卡方分佈的理論頻數),可以用卡方檢驗的基本公式,但當pα時,改用Fisher精確檢驗。

(2)當n≥40但有1≤E<5時,用卡方檢驗的校正公式,或改用Fisher精確檢驗。

(3)當n<40,或E<1時,用四格表的Fisher精確檢驗。

當然,現在統計軟體已經功能非常完善了,我認為不管表格中的資料屬於哪種情況,直接用Fisher精確檢驗總會相對準確一些。個人之見,僅供參考。

配對四格表的卡方檢驗

熟悉經典比較的都知道有配對t

檢驗,在列聯表中也有配對的列聯表。與配對t檢驗類似,配對列聯表也要求樣本保持不變,如可以是部件加工前和加工後的比較,也可以是兩種不同的評價方法的對比。表格可以進一步寫成這樣:

針對配對的四格表,有兩種分析方法可以選擇,即Mcnemar檢驗和Kappa檢驗。前者關注的是差異,後者關注的是一致性。

1.Mcnemar檢驗

ad代表結果的一致性,bc代表結果產生的變化。在Mcnemar檢驗中,原假設是對樣本所施加的處理沒有顯著效應,也就是發生不同方向變化的可能性是一樣的,有多少“-+”,就應該有多少“+-”,即b=c,如果兩者差異很大,則說明兩種不同的處理有顯著的差異,或一種處理的前後狀態存在顯著差異。

從另一個角度來說,Mcnemar的原假設是邊緣概率相等,即

因此Mcnemar檢驗的假設就可以寫成

以此建立的檢驗統計量為:

從統計量服從自由度為1的\chi ^{2}分佈。

例1:某公司計劃引入六西格瑪管理,為此選取100員工,在實施六西格瑪戰略宣講前後,就引入六西格瑪的必要性進行調查,調查結果如下表。問宣講前後員工的態度有變化嗎?

假設就不寫了,大家都知道怎麼寫。計算出的卡方值為:

α=0.05時,自由度為1的卡方檢驗臨界值為3.84,因此我們拒絕原假設,認為宣講前後員工的態度有顯著變化。

根據孫振球教授的說法,當b+c<40時,檢驗統計量需要加以校正,即

有的資料中指出當b+c<25時,採用卡方檢驗會出現較大的偏差,此時需要採用二項分佈的精確檢驗。Mcnemar檢驗就變成了單比率檢驗,假設變成

其中n=b+c。單比率檢驗在《經典比較篇之十一:小樣本的比率比較怎麼做?》中有介紹,這裡不再贅述。

Mcnemar檢驗與ad兩個格子的值無關,當這兩個值很大時,即使檢驗結果顯著,其實際意義也不是很大。因此我們需要考慮一致性的問題,這就需要Kappa檢驗。

2. Kappa檢驗

看到Kappa檢驗,熟悉測量系統分析的人馬上就會想起來,在屬性資料測量系統分析中,大量採用Kappa值來度量測量結果的一致性。在馬逢時教授《六西格瑪管理統計指南》p.399-402對此有詳細介紹。

Kappa檢驗由Cohen於1960年提出,因此又稱為Cohen'sKappa。它考慮的是實際的結果是不是瞎猜的結果,比如一個新員工對檢驗標準不瞭解,但也能蒙對一部分。而Kappa值就是對此的衡量,其公式為:

其中

為實際一致的比率,而

為期望的一致率,即蒙對的比率。

Kappa取值從-1~+1。-1代表完全不一致(a=d=0且b=c);+1代表完全一致(b=c=0);0表示結果純粹是瞎蒙的;負值代表結果比瞎蒙還差(當然也沒有什麼實際意義,實際上出現得很少);正值越接近1代表一致性越好。通常0.75以上表示一致性較滿意,0.4以下一致性不好。但是對於測量系統來說,需要在0.9以上才能說是好的測量系統。

例2:某工廠針對注塑產品表面質量一般採用人工和裝置兩種方式進行檢驗。為了瞭解兩種檢驗方式的一致性,隨機選擇35件樣品,採用兩種方式分別進行檢驗,結果如下表。

根據上面的公式計算出Kappa值為0.2,說明兩種檢驗的結果一致性很差。

可能有人會問,這個分析並沒有告訴我們哪一種更好。為了確認哪一種方法更好,可以加入標準這個因素,即由專家對樣品進行仔細鑑別,確定標準的結果,然後再將兩種檢驗方法的結果分別與此對比。其中的一張表是這樣的:

根據此表計算出的Kappa值是0.906,說明人工檢驗的準確率是很高的。

Kappa值很少做顯著性檢驗,因此本文也不考慮提及其分佈和檢驗的問題。

Kappa值也可以分析多於四格表的列聯表,其P0就是自左上至右下的對角線上的格子中頻數之和除以總樣本量;Pe是此對角線上格子對應的行和乘以列和,然後相加再除以總樣本量的平方。這樣說有點難懂,我不希望再列太多的公式,用一個例子來說明一下。

例3:某個考試共有80道單選題,每題的有A、B、C、D四個答案,為考察某個考生的成績是不是隨便猜的,可以用Kappa分析做一個較確切的判斷。資料表如下:

完全一致的有19+18+18+17=72,計算得P0=72/80=0.9。

Pe=(21×20+21×20+20×20+18×20)/80^2=0.25。

由此計算出Kappa=(0.9-0.25)/(1-0.25)=0.867。這個值比較大,說明學生的答案不是瞎蒙的,是真的學會了。