機器學習中的數學(8)——卡方檢驗原理及應用

阿新 • • 發佈：2019-01-13

卡方檢驗原理及應用

什麼是卡方檢驗

卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。它屬於非引數檢驗的範疇，主要是比較兩個及兩個以上樣本率( 構成比）以及兩個分類變數的關聯性分析。其根本思想就是在於比較理論頻數和實際頻數的吻合程度或擬合優度問題。

無關性假設

舉個例子，假設我們有一堆新聞標題，需要判斷標題中包含某個詞（比如吳亦凡）是否與該條新聞的類別歸屬（比如娛樂）是否有關，我們只需要簡單統計就可以獲得這樣的一個四格表：

組別	屬於娛樂	不屬於娛樂	合計
不包含吳亦凡	19	24	43
包含吳亦凡	34	10	44
合計	53	34	87

通過這個四格表我們得到的第一個資訊是：標題是否包含吳亦凡確實對新聞是否屬於娛樂有統計上的差別，包含吳亦凡的新聞屬於娛樂的比例更高，但我們還無法排除這個差別是否由於抽樣誤差導致。那麼首先假設標題是否包含吳亦凡與新聞是否屬於娛樂是獨立無關的，隨機抽取一條新聞標題，屬於娛樂類別的概率是：(19+34)/(19+34+24+10)=60.9

理論值四表格

組別	屬於娛樂	不屬於娛樂	合計
不包含吳亦凡	43 * 0.609 = 26.2	43 * 0.391 = 16.8	43
包含吳亦凡	44 * 0.609 = 26.8	44 * 0.391 = 17.2	44

顯然，如果兩個變數是獨立無關的，那麼四格表中的理論值與實際值的差異會非常小。

卡方值的計算

卡方值的計算公式為

χ2=∑(A−T)2T
其中A為實際值，也就是第一個四格表裡的4個數據，T為理論值，也就是理論值四格表裡的4個數據。

x2用於衡量實際值與理論值的差異程度（也就是卡方檢驗的核心思想），包含了以下兩個資訊：

實際值與理論值偏差的絕對大小（由於平方的存在，差異是被放大的）
差異程度與理論值的相對大小

對上述場景可計算x2值為10.01。

卡方分佈的臨界值

既然已經得到了x2值，我們又怎麼知道x2值是否合理？也就是說，怎麼知道無關性假設是否可靠？答案是，通過查詢卡方分佈的臨界值表。

這裡需要用到一個自由度的概念，自由度等於V = (行數 - 1) * (列數 - 1)，對四格表，自由度V = 1。

對V = 1，卡方分佈的臨界概率是：

這裡寫圖片描述
顯然10.01 > 7.88，也就是標題是否包含吳亦凡與新聞是否屬於娛樂無關的可能性小於0.5%，反過來，就是兩者相關的概率大於99.5%。

應用場景

卡方檢驗的一個典型應用場景是衡量特定條件下的分佈是否與理論分佈一致，比如：特定使用者某項指標的分佈與大盤的分佈是否差異很大，這時通過臨界概率可以合理又科學的篩選異常使用者。

另外，x2值描述了自變數與因變數之間的相關程度：x2值越大，相關程度也越大，所以很自然的可以利用x2值來做降維，保留相關程度大的變數。再回到剛才新聞分類的場景，如果我們希望獲取和娛樂類別相關性最強的100個詞，以後就按照標題是否包含這100個詞來確定新聞是否歸屬於娛樂類，怎麼做？很簡單，對娛樂類新聞標題所包含的每個詞按上述步驟計算x2值，然後按x2值排序，取x2值最大的100個詞。

機器學習中的數學(8)——卡方檢驗原理及應用

卡方檢驗原理及應用

什麼是卡方檢驗

無關性假設

理論值四表格

卡方值的計算

卡方分佈的臨界值

應用場景

機器學習中的數學(8)——卡方檢驗原理及應用

python 卡方檢驗原理及應用

機器學習特徵選擇之卡方檢驗與互資訊

機器學習中K-means聚類演算法原理及C語言實現

機器學習中的偏差和方差

理解機器學習中的偏差與方差

深度 | 機器學習中的模型評價、模型選擇及演算法選擇

卡方檢驗思想及其應用

數學知識點查漏補缺（卡方分布與卡方檢驗）

機器學習中的數學-強大的矩陣奇異值分解(SVD)及其應用

機器學習中的數學：一份新鮮出爐的熱門草稿

機器學習中那些必要又困惑的數學知識

吳恩達機器學習中協方差矩陣的向量表示推導

機器學習中的協方差矩陣的深入理解（簡單舉例）

機器學習中的數學

偏差(Bias)和方差(Variance)——機器學習中的模型選擇

Python資料預處理之---統計學的t檢驗，卡方檢驗以及均值，中位數等

機器學習中的數學系列（一）矩陣與矩陣乘法

機器學習中的數學：洛必達法則（能力工場小馬哥）

機器學習之數學基礎——期望、方差、協方差、相關係數、矩、協方差矩陣

機器學習中的數學(8)——卡方檢驗原理及應用

卡方檢驗原理及應用

什麼是卡方檢驗

無關性假設

理論值四表格

卡方值的計算

卡方分佈的臨界值

應用場景

相關推薦