1. 程式人生 > >非引數正態性檢驗

非引數正態性檢驗

前面兩節介紹了採用Q-Q圖和偏度與峰度來對採集樣本進行正態性檢驗,本節介紹非引數性的正態性檢驗,非引數性的正態性檢驗演算法思想大致相同,演算法思想步驟為:首先假設條件H0成立,然後計算採集樣本的統計量,最後在已知統計量分佈的情況下比較統計量與顯著性水平α的大小,根據比較結果判斷是否拒絕檢驗假設H0(如下圖)。

                                      

本文首先介紹了非引數正態性檢驗演算法如

擬合優度檢驗,K-S檢驗,S-W檢驗等,最後比較各非引數性正態檢驗的適用條件。

                                                                             1、

擬合優度檢驗 


是在總體X的分佈未知時,根據來自總體的樣本,檢驗關於總體分佈的假設的一種檢驗方法,比較樣本的經驗分佈和所假設的理論分佈之間的吻合程度來決定是否接受總體分佈的原假設。比如,記錄小明最近一年每天花在學習英語的時間,判斷小明是否是英語愛好者。運用檢驗法來判斷的步驟是:


(1)假設小明是英語愛好者。

(2)統計英語愛好者最近一年內每天學習英語的時間。

(3)計算英語愛好者每天學習英語的時間與小明每天學習英語的時間的差異,再計算這一年內學習英語時間的總差異,若總差異結果超過某一閾值,拒絕假設,即小明不是英語愛好者;反之,不拒絕假設,即小明是英語愛好者。


在用

檢驗法檢驗假設H0時,需要用極大似然估計計算檢驗假設H0的引數,比如,若H0是正態分佈,則需要用極大似然估計計算均值和方差;若H0是指數分佈,則需要用極大似然估計計算均值;

驗統計量為

其中r是檢驗假設H0模型的被估引數,n為樣本容量,離散化樣本容量成k段,Pi為假設檢驗H0成立時第i個分段的頻率,n*Pi,fi分別為第i段的理論頻數和實際頻數。


皮爾遜證明了統計量的分佈服從(k-r-1)個自由度的分佈的前提是樣本容量n足夠大。使用擬合優度檢驗正態分佈需要注意大樣本容量和n*Pi不能太小(≥5)這兩個條件,若某一段出現的頻數太小,則與其他的分段合併,達到頻數≥5的條件。

最後比較樣本檢驗統計量數值與顯著性水平α的大小,來判斷假設是否成功。

【例】

 

解:H0:IQ得分服從正態分佈,H1:不服從正態分佈,α=0.05,X = 101.294,S =15.585

其中Oi為第i段的實際觀測頻數,Ei為第i段的理論頻數。因為最後兩組的觀測頻數過小,則合併最後三組成一組,該組頻數為8。

       自由度 v = 7-1-2 = 4,,統計量=1.63832  < 9.49,所以不拒絕零假設H0,即IQ得分服從正態分佈。

                                                                         2、K-S正態性檢驗


S檢驗是通過比較樣本經驗分佈函式與給定分佈函式來推斷該樣本是否來自給定分佈函式的總體。比較容量n的經驗分佈函式Fn(x)與給定分佈函式F0(x)的間隔,構造統計量D為兩個分佈函式的間隔最大值,如下圖。

                                                                 

                                                                   


步驟

(1)提出假設:H0:Fn(x)= F0(x),H1:Fn(x)≠F0(x)。

(2)計算統計量D。

(3)根據給定的顯著性水平α和樣本資料個數n,確定單樣本K-S檢驗的臨界值Dα(n)。

(4)若,則不拒絕假設H0;反之,拒絕假設H0。


 這個檢驗需要給定F0(x),因此非引數檢驗的K-S正態性檢驗只能做標準正態檢驗。

【例】驗證一組39例抽樣資料是否符合標準正態分佈

(1)假設抽樣資料符合標準正態分佈;

(2)畫出經驗分佈函式和標準正態分佈函式的曲線圖;

                                                       

(3)確定統計量D;

                                                       

(4)顯著性水平α=0.05,樣本容量n = 39,確定統計量的拒絕域最小值可通過查表可得。(5)比較統計量D與的大小,若大於,則拒絕假設,反之,則不拒絕;

           

                                                                           3、Lilliefor正態性檢驗


Lilliefor正態性檢驗是對K-S檢驗的修正,非引數K-S檢驗只能作標準正態分佈檢驗,Lilliefor提出用樣本均值和標準差代替總體的期望和標準差,然後再用K-S正態性檢驗法,步驟相同,不同點在於單樣本K-S檢驗只能檢測標準正態分佈,Lilliefor檢驗能檢測一般性的正態分佈。

                                                                          4、S-W正態性檢驗


S-W檢驗正態分佈的思想與K-S檢驗一致,關鍵點在於如何求樣本的統計量以及確定統計量的分佈情況。

S-W檢驗稱為W檢驗,統計量W定義為:

                                                        

其中是樣本均值,是樣本來自正態分佈的標準差,a的確切值是:

其中V矩陣是n個標準正態分佈的隨機變數的順序統計量的協方差矩陣。

給定顯著性水平α和樣本容量n,可以知道拒絕域的臨界值,比較統計量結果W與的大小,判斷是否拒絕原假設。

【例】 用函式rnorm獲得一個標準正態分佈的隨機樣本,然後用W檢驗它的正態性。

                                                               

結果顯示p-value值大於顯著性水平0.05,因此不能拒絕零假設,即樣本來自正態分佈。

 

                                                                       5、非引數檢驗演算法的比較


(1)Lilliefor檢驗是對K-S檢驗的改進,可用於一般的正態性檢驗,而非引數檢驗的K-S檢驗只能做標準正態檢驗。

(2)χ2擬合優度檢驗的檢驗結果依賴於分組,而其他方法的檢驗結果與區間劃分無關。

(3)擬合優度檢驗和K-S檢驗都採用實際頻數和期望頻數進行檢驗,前者既可用於連續總體,又可用於離散總體,而Kolmogorov-Smirnov檢驗只適用於連續和定量資料。

(4)SPSS規定:當樣本含量3≤n≤5000時,結果以S—W(W 檢驗)為準,當樣本含量n>5000結果以K-S檢驗(D檢驗)為準。

 

參考

https://blog.csdn.net/suncherrydream/article/details/51073001

http://www.docin.com/p-2006164716.html

http://www.dxy.cn/bbs/topic/26366190