1. 程式人生 > >偏度與峰度的正態性分佈判斷

偏度與峰度的正態性分佈判斷

 當我們應用統計方法對資料進行分析時,會發現許多分析方法如T檢驗、方差分析、相關分析以及線性迴歸等等,都要求資料服從正態分佈或近似正態分佈,正態分佈在機器學習的重要性後期會講述。上一篇文章用Q-Q圖來驗證資料集是否符合正態分佈,本文首先介紹了偏度與峰度的定義,然後用偏度與峰度檢測資料集是否符合正態分佈,最後分析該檢測演算法的適用條件以及SPSS的結果分析。

1、 偏度與峰度


 

(1) 偏度(Skewness)

        偏度衡量隨機變數概率分佈的不對稱性,是相對於平均值不對稱程度的度量,通過對偏度係數的測量,我們能夠判定資料分佈的不對稱程度以及方向。

具體來說,對於隨機變數X,我們定義偏度為其的三階標準中心距:

對於樣本的偏度,我們一般記為SK,我們可以基於矩估計,得到有:

 

 

        偏度的衡量是相對於正態分佈來說,正態分佈的偏度為0,即若資料分佈是對稱的,偏度為0。若偏度大於0,則分佈右偏,即分佈有一條長尾在右;若偏度小於0,則分佈為左偏,即分佈有一條長尾在左(如下圖);同時偏度的絕對值越大,說明分佈的偏移程度越嚴重。

 

【注意】資料分佈的左偏或右偏,指的是數值拖尾的方向,而不是峰的位置。

(2) 峰度(Kurtosis)

        峰度,是研究資料分佈陡峭或平滑的統計量,通過對峰度係數的測量,我們能夠判定資料相對於正態分佈而言是更陡峭還是平緩。比如正態分佈的峰度為0,均勻分佈的峰度為-1.2(平緩),指數分佈的峰度為6(陡峭)。

峰度,定義為四階中心距除以方差的平方減3。

若峰度≈0,分佈的峰態服從正態分佈;

若峰度>0,分佈的峰態陡峭(高尖);

若峰度<0,分佈的峰態平緩(矮胖);

 

 

2、 正態性檢驗


 

利用變數的偏度和峰度進行正態性檢驗時,可以分別計算偏度和峰度的Z評分(Z-score)。

偏度Z-score = 偏度值 ÷偏度值的標準差

峰度Z-score = 峰度值 ÷峰度值的標準差

 

在α=0.05的檢驗水平下,偏度Z-score和峰度Z-score是否滿足假設條件所限制的變數範圍,若都滿足則可認為服從正態分佈,若一個不滿足則認為不服從正態分佈。

 

3、 正態性檢驗的適用條件


 

        樣本的增加會減小偏度值和峰度值的標準差,相應的Z-score會變大,最終會拒絕條件假設,會給正確判斷樣本資料的正態性情況造成一定的干擾。因此,當樣本量小於100時,用偏度和峰度來判斷樣本的正態分佈性比較合理。

 

4、 SPSS結果分析


  

 

峰度Z-score = 5.166/0.425 > Z(α),α=0.05;因此該特徵不符合正態分佈。

 

參考:

https://www.sohu.com/a/125526669_609133

https://www.sohu.com/a/140979052_489312