1. 程式人生 > >統計分析之引數檢驗與非引數檢驗、匹配樣本與獨立樣本、2樣本與K樣本介紹----附SPSS操作指南

統計分析之引數檢驗與非引數檢驗、匹配樣本與獨立樣本、2樣本與K樣本介紹----附SPSS操作指南

       最近幾天博主需要做一些計算生物學分析,重新溫習了一遍統計學的知識。由於博主此次使用的是非引數檢驗,將重點介紹非引數檢驗相關內容,仍然是深入淺出的風格,先放一些概念,再總結實際使用的技巧。寫在這裡,供大家參考學習。

       為了方便描述公式和定義,部分內容摘自網路,鑑於是公開的知識,只是以某種形式呈現,將不再註明出處,如有侵權,請私信或留言!

Q1:引數檢驗和非引數檢驗的聯絡和區別?

       引數檢驗(parameter test)全稱引數假設檢驗,是指對引數

平均值方差進行的統計檢驗。先由測得的樣本資料計算檢驗統計量,若計算的統計量值落入約定顯著性水平a 時的拒絕域內,說明被檢引數之間在所約定的顯著性水平a 下在統計上有顯著性差異;反之, 若計算的統計量值落入約定顯著性水平a 時的接受域內,說明被檢引數之間在統計上沒有顯著性差異,是同一總體的引數估計值。

       非引數檢驗是在總體方差未知或知道甚少的情況下,利用樣本資料對總體分佈形態等進行推斷的方法。由於非引數檢驗方法在推斷過程中不涉及有關總體分佈的引數,因而得名為“非引數檢驗。

       在實際使用中,對於已知總體分佈情況的資料(如身高),可以使用引數檢驗。對於不知道總體分佈情況的資料,可以使用非引數檢驗(如某時間的發生數,也稱為計數資料),可以使用非引數檢驗。

       值得注意的是:在某些情況下,我們不清楚一組資料的總體是否符合某種分佈,可能會用SPSS的正態性檢驗藉助已有樣本對總體進行判斷。這種檢驗方法見:https://blog.csdn.net/tuanzide5233/article/details/83212032。博主也曾對要分析的資料進行正態性檢驗,然而,第一次使用第一批A組的資料進行檢驗得到單峰正態分佈,P值有意義;第二次使用第二批A組的資料進行檢驗得到雙峰正態分佈,P值有意義。可是雙峰正態分佈不能使用T檢驗,而應該使用非引數檢驗。因此博主認為,在選擇檢驗方法時,如不能肯定總體分佈情況,則應該優先考慮非引數檢驗,尤其是對於計數資料而言!

Q2:什麼是匹配樣本和獨立樣本?

       匹配樣本(matched sample)是指一個樣本中的資料與另一個樣本中的資料相對應。比如,先指定12個工人用第一種方法組裝產品,然後再讓這12個工人用第二種方法組裝產品,這樣得到的兩種方法組裝產品的資料就是匹配資料。匹配樣本可以消除由於樣本指定的不公平造成的兩種方法組裝時間上的差異。

       獨立樣本(independent sample)是指如果兩個樣本是從兩個總體中獨立抽取的, 即一個樣本中的元素與另一個樣本中的元素相互獨立的樣本。

       在實際使用中,如果兩組資料的來源可以對映到同一個體或同一群體,則為匹配樣本,如學生A1,A2,A3…在第一次和第二次考試中的成績。如果來自兩個群體,或者想判斷是否來自兩個群體(即採用假設檢驗),應當做獨立樣本。在SPSS中,匹配樣本被稱為相關樣本。

Q3:什麼是兩樣本和K樣本?

       在實際使用SPSS中,會遇到兩樣本與K樣本的選擇。

       由於人們可能會把資料的數量等同於樣本的數量,即2個獨立樣本是說,每組有兩個資料,K個獨立樣本是說,每組有K(大於2)個數據。其實這是不正確的。兩樣本與K樣本不是說資料的數量,而是說分組的數量。兩樣本是說分為了兩組,如cancer組和normal組,每組包括任意多個數據。K樣本是說分成了K組,如A組B組C組,每組包含任意多個數據。

       之所以需要鑑別,是因為2樣本涉及到二項分佈問題。即非此即彼,如性別。而K樣本在計算時會將用於分組的數字進行運算,如我們使用1表示男,2表示女,如果把這種2樣本當做K=2的K樣本分析,資料描述則會出現對1和2進行運算的結果,這顯然不是我們想要的。

Q4:如何區分SPSS中常見的非引數檢驗方法:Mann-Whitney U檢驗、Wilcoxon檢驗和kruskal wallis檢驗?

       首先來看定義和計算方法。

       Mann-Whitney U檢驗:-惠特尼U檢驗(Mann-Whitney U test),又稱曼-惠特尼秩和檢驗,可以看作是對兩均值之差的引數檢驗方式的T檢驗或相應的大樣本正態檢驗的代用品。由於曼-惠特尼秩和檢驗明確地考慮了每一個樣本中各測定值所排的秩,它比符號檢驗法使用了更多的資訊。

       Wilcoxon檢驗:Wilcoxon符號秩檢驗中,它把觀測值和零假設的中心位置之差的絕對值的秩分別按照不同的符號相加作為其檢驗統計量。它適用於T檢驗中的成對比較,但並不要求成對資料之差di服從正態分佈,只要求對稱分佈即可。檢驗成對觀測資料之差是否來自均值0的總體(產生資料的總體是否具有相同的均值)。

       kruskal wallis檢驗:克魯斯卡爾-沃利斯檢驗是一種秩檢驗,是威爾科克遜檢驗的推廣, 用於多個連續型獨立樣本的比較。方差分析(ANOVA)程式關注的是,幾個總體的均值是否相等。資料是間隔測量尺度或比率測量尺度的資料。另外還要假定這些總體服從正態概率分佈,並且有相等的標準差。如果資料是順序測量尺度的和()總體不服從正態分佈會怎樣呢?W.H.克魯斯卡爾(Kruskal)W.A.沃利斯(Wallis)1952年提出了僅僅要求順序(排序)測量尺度資料的非引數檢驗。不需要對總體分佈形態做任何假定。該檢驗被稱為克魯斯卡爾-沃利斯單因素秩方差分析(Kruskal-Wallis one-way analysis of variance by ranks)

       看完眼花繚亂的定義和計算步驟,下面總結一下使用中如何選擇這三種非引數檢驗方法:

  1. Wilcoxon檢驗適用於2匹配樣本(related samples
  2. Mann–Whitney U 檢驗適用於2獨立樣本
  3. kruskal wallis檢驗用於K獨立樣本