1. 程式人生 > >數學知識點查漏補缺(卡方分布與卡方檢驗)

數學知識點查漏補缺(卡方分布與卡方檢驗)

檢驗 element 影響 body protect 兩個 ram -m style

一、卡方分布

k個獨立的隨機變量Z1,Z2,?,Zk,且符合標準正態分布N(0,1),則這k個隨機變量的平方和,為服從自由度為k的卡方分布。

卡方分布之所以經常被利用到,是因為對符合正態分布的隨機變量的處理過程中,很容易出現其平方和的統計量。

正如在卡方檢驗問題中出現這個統計量一樣自然。

二、卡方檢驗

卡方檢驗主要用於,根據樣本數據推斷總體的分布與期望分布是否有顯著性差異,或者推斷兩個分類變量是否相關或者獨立。

樣本數據推斷的分布與理論分布的差值,如果只考慮隨機取樣誤差影響,自然符合標準正態分布。而其平方和就屬於卡方分布了。

技術分享圖片

其中,A為實際值,T為理論值。

χ2用於衡量實際值與理論值的差異程度,這也是卡方檢驗的核心思想。

χ2包含了以下兩個信息:
1.實際值與理論值偏差的絕對大小。
2.差異程度與理論值的相對大小。

三、卡方檢驗做特征選擇

一個特征對分類變量的影響,如果特征對應的分類變量數量與理論值沒什麽區別,說明特征對分類變量沒什麽影響。而該特征對分類變量有明顯影響,其對應分類變量數量應該與分類變量理論分布值有較大偏離。

所以可以說:卡方值越大,說明關聯越強,特征越需要保留。卡方值越小,說明越不相關,特征需要去除。

數學知識點查漏補缺(卡方分布與卡方檢驗)