統計分析之引數檢驗與非引數檢驗、匹配樣本與獨立樣本、2樣本與K樣本介紹----附SPSS操作指南

阿新 • • 發佈：2018-11-07

最近幾天博主需要做一些計算生物學分析，重新溫習了一遍統計學的知識。由於博主此次使用的是非引數檢驗，將重點介紹非引數檢驗相關內容，仍然是深入淺出的風格，先放一些概念，再總結實際使用的技巧。寫在這裡，供大家參考學習。

為了方便描述公式和定義，部分內容摘自網路，鑑於是公開的知識，只是以某種形式呈現，將不再註明出處，如有侵權，請私信或留言！

Q1：引數檢驗和非引數檢驗的聯絡和區別？

引數檢驗（parameter test）全稱引數假設檢驗，是指對引數

平均值、方差進行的統計檢驗。先由測得的樣本資料計算檢驗統計量，若計算的統計量值落入約定顯著性水平a 時的拒絕域內，說明被檢引數之間在所約定的顯著性水平a 下在統計上有顯著性差異；反之, 若計算的統計量值落入約定顯著性水平a 時的接受域內，說明被檢引數之間在統計上沒有顯著性差異，是同一總體的引數估計值。

非引數檢驗是在總體方差未知或知道甚少的情況下，利用樣本資料對總體分佈形態等進行推斷的方法。由於非引數檢驗方法在推斷過程中不涉及有關總體分佈的引數，因而得名為“非引數”檢驗。

在實際使用中，對於已知總體分佈情況的資料（如身高），可以使用引數檢驗。對於不知道總體分佈情況的資料，可以使用非引數檢驗（如某時間的發生數，也稱為計數資料），可以使用非引數檢驗。

值得注意的是：在某些情況下，我們不清楚一組資料的總體是否符合某種分佈，可能會用SPSS的正態性檢驗藉助已有樣本對總體進行判斷。這種檢驗方法見：https://blog.csdn.net/tuanzide5233/article/details/83212032。博主也曾對要分析的資料進行正態性檢驗，然而，第一次使用第一批A組的資料進行檢驗得到單峰正態分佈，P值有意義；第二次使用第二批A組的資料進行檢驗得到雙峰正態分佈，P值有意義。可是雙峰正態分佈不能使用T檢驗，而應該使用非引數檢驗。因此博主認為，在選擇檢驗方法時，如不能肯定總體分佈情況，則應該優先考慮非引數檢驗，尤其是對於計數資料而言！

Q2：什麼是匹配樣本和獨立樣本？

匹配樣本（matched sample）是指一個樣本中的資料與另一個樣本中的資料相對應。比如，先指定12個工人用第一種方法組裝產品，然後再讓這12個工人用第二種方法組裝產品，這樣得到的兩種方法組裝產品的資料就是匹配資料。匹配樣本可以消除由於樣本指定的不公平造成的兩種方法組裝時間上的差異。

獨立樣本（independent sample）是指如果兩個樣本是從兩個總體中獨立抽取的，即一個樣本中的元素與另一個樣本中的元素相互獨立的樣本。

在實際使用中，如果兩組資料的來源可以對映到同一個體或同一群體，則為匹配樣本，如學生A1,A2,A3…在第一次和第二次考試中的成績。如果來自兩個群體，或者想判斷是否來自兩個群體（即採用假設檢驗），應當做獨立樣本。在SPSS中，匹配樣本被稱為相關樣本。

Q3：什麼是兩樣本和K樣本？

在實際使用SPSS中，會遇到兩樣本與K樣本的選擇。

由於人們可能會把資料的數量等同於樣本的數量，即2個獨立樣本是說，每組有兩個資料，K個獨立樣本是說，每組有K（大於2）個數據。其實這是不正確的。兩樣本與K樣本不是說資料的數量，而是說分組的數量。兩樣本是說分為了兩組，如cancer組和normal組，每組包括任意多個數據。K樣本是說分成了K組，如A組B組C組，每組包含任意多個數據。

之所以需要鑑別，是因為2樣本涉及到二項分佈問題。即非此即彼，如性別。而K樣本在計算時會將用於分組的數字進行運算，如我們使用1表示男，2表示女，如果把這種2樣本當做K=2的K樣本分析，資料描述則會出現對1和2進行運算的結果，這顯然不是我們想要的。

Q4：如何區分SPSS中常見的非引數檢驗方法：Mann-Whitney U檢驗、Wilcoxon檢驗和kruskal wallis檢驗？

首先來看定義和計算方法。

Mann-Whitney U檢驗：曼-惠特尼U檢驗（Mann-Whitney U test），又稱曼-惠特尼秩和檢驗，可以看作是對兩均值之差的引數檢驗方式的T檢驗或相應的大樣本正態檢驗的代用品。由於曼-惠特尼秩和檢驗明確地考慮了每一個樣本中各測定值所排的秩，它比符號檢驗法使用了更多的資訊。

Wilcoxon檢驗：在Wilcoxon符號秩檢驗中，它把觀測值和零假設的中心位置之差的絕對值的秩分別按照不同的符號相加作為其檢驗統計量。它適用於T檢驗中的成對比較，但並不要求成對資料之差di服從正態分佈，只要求對稱分佈即可。檢驗成對觀測資料之差是否來自均值為0的總體（產生資料的總體是否具有相同的均值）。

kruskal wallis檢驗：克魯斯卡爾-沃利斯檢驗是一種秩檢驗，是威爾科克遜檢驗的推廣，用於多個連續型獨立樣本的比較。方差分析(ANOVA)程式關注的是，幾個總體的均值是否相等。資料是間隔測量尺度或比率測量尺度的資料。另外還要假定這些總體服從正態概率分佈，並且有相等的標準差。如果資料是順序測量尺度的和(或)總體不服從正態分佈會怎樣呢?W.H.克魯斯卡爾(Kruskal)和W.A.沃利斯(Wallis)於1952年提出了僅僅要求順序(排序)測量尺度資料的非引數檢驗。不需要對總體分佈形態做任何假定。該檢驗被稱為克魯斯卡爾-沃利斯單因素秩方差分析(Kruskal-Wallis one-way analysis of variance by ranks)。

看完眼花繚亂的定義和計算步驟，下面總結一下使用中如何選擇這三種非引數檢驗方法：

Wilcoxon檢驗適用於2匹配樣本（related samples）
Mann–Whitney U 檢驗適用於2獨立樣本
kruskal wallis檢驗用於K獨立樣本

統計分析之引數檢驗與非引數檢驗、匹配樣本與獨立樣本、2樣本與K樣本介紹----附SPSS操作指南

Q1：引數檢驗和非引數檢驗的聯絡和區別？

Q2：什麼是匹配樣本和獨立樣本？

Q3：什麼是兩樣本和K樣本？

Q4：如何區分SPSS中常見的非引數檢驗方法：Mann-Whitney U檢驗、Wilcoxon檢驗和kruskal wallis檢驗？

統計分析之引數檢驗與非引數檢驗、匹配樣本與獨立樣本、2樣本與K樣本介紹----附SPSS操作指南

統計分析之單因素分析、多因素分析（多指標聯合分析）與ROC曲線的繪製——附SPSS操作指南

統計分析之ROC曲線與多指標聯合分析——附SPSS繪製ROC曲線指南

統計分析之：正態性檢驗——SPSS操作指南

電腦科學採用訓練資料集，驗證資料集，測試資料集的方法為什麼不採用統計學中常用的假設檢驗呢？（引數檢驗和非引數檢驗）

引數估計與非引數估計

機器學習引數模型與非引數模型/生成模型與判別模型

機器學習筆記第3課：引數演算法和非引數演算法

Excel在統計分析中的應用—第九章—非引數檢驗-Mann-Whitney U檢驗

Excel在統計分析中的應用—第九章—非引數檢驗-簡單符號檢驗

Excel在統計分析中的應用—第九章—非引數檢驗-Wilcoxon帶符號等級檢驗

概率論與數理統計中基於有限樣本推斷總體分佈的方法，基於總體未知引數區間估計的假設檢驗方法之討論，以及從數理統計視角重新審視線性迴歸函式本質

SPSS中八類常用非引數檢驗之二二項分佈（Binomial）檢驗

SPSS中八類常用非引數檢驗之三遊程檢驗

SPSS中八類常用非引數檢驗之四單樣本K-S檢驗

非引數統計檢驗

Vue之元件引數校驗與非props特性

[R語言統計]秩轉換的非引數檢驗

Vue 元件引數校驗與非 props 特性

SPSS-非引數檢驗

統計分析之引數檢驗與非引數檢驗、匹配樣本與獨立樣本、2樣本與K樣本介紹----附SPSS操作指南

Q1：引數檢驗和非引數檢驗的聯絡和區別？

Q2：什麼是匹配樣本和獨立樣本？

Q3：什麼是兩樣本和K樣本？

Q4：如何區分SPSS中常見的非引數檢驗方法：Mann-Whitney U檢驗、Wilcoxon檢驗和kruskal wallis檢驗？

相關推薦