1. 程式人生 > >機器學習中的數學(8)——卡方檢驗原理及應用

機器學習中的數學(8)——卡方檢驗原理及應用

卡方檢驗原理及應用

什麼是卡方檢驗

卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。它屬於非引數檢驗的範疇,主要是比較兩個及兩個以上樣本率( 構成比)以及兩個分類變數的關聯性分析。其根本思想就是在於比較理論頻數和實際頻數的吻合程度或擬合優度問題。

無關性假設

舉個例子,假設我們有一堆新聞標題,需要判斷標題中包含某個詞(比如吳亦凡)是否與該條新聞的類別歸屬(比如娛樂)是否有關,我們只需要簡單統計就可以獲得這樣的一個四格表:

組別 屬於娛樂 不屬於娛樂 合計
不包含吳亦凡 19 24 43
包含吳亦凡 34 10 44
合計 53 34 87

通過這個四格表我們得到的第一個資訊是:標題是否包含吳亦凡確實對新聞是否屬於娛樂有統計上的差別,包含吳亦凡的新聞屬於娛樂的比例更高,但我們還無法排除這個差別是否由於抽樣誤差導致。那麼首先假設標題是否包含吳亦凡與新聞是否屬於娛樂是獨立無關的,隨機抽取一條新聞標題,屬於娛樂類別的概率是:(19+34)/(19+34+24+10)=60.9

理論值四表格

組別 屬於娛樂 不屬於娛樂 合計
不包含吳亦凡 43 * 0.609 = 26.2 43 * 0.391 = 16.8 43
包含吳亦凡 44 * 0.609 = 26.8 44 * 0.391 = 17.2 44

顯然,如果兩個變數是獨立無關的,那麼四格表中的理論值與實際值的差異會非常小。

卡方值的計算

卡方值的計算公式為

χ2=(AT)2T
其中A為實際值,也就是第一個四格表裡的4個數據,T為理論值,也就是理論值四格表裡的4個數據。

x2用於衡量實際值與理論值的差異程度(也就是卡方檢驗的核心思想),包含了以下兩個資訊:

  • 實際值與理論值偏差的絕對大小(由於平方的存在,差異是被放大的)
  • 差異程度與理論值的相對大小

對上述場景可計算x2值為10.01。

卡方分佈的臨界值

既然已經得到了x2值,我們又怎麼知道x2值是否合理?也就是說,怎麼知道無關性假設是否可靠?答案是,通過查詢卡方分佈的臨界值表。

這裡需要用到一個自由度的概念,自由度等於V = (行數 - 1) * (列數 - 1),對四格表,自由度V = 1。

對V = 1,卡方分佈的臨界概率是:

這裡寫圖片描述
顯然10.01 > 7.88,也就是標題是否包含吳亦凡與新聞是否屬於娛樂無關的可能性小於0.5%,反過來,就是兩者相關的概率大於99.5%。

應用場景

卡方檢驗的一個典型應用場景是衡量特定條件下的分佈是否與理論分佈一致,比如:特定使用者某項指標的分佈與大盤的分佈是否差異很大,這時通過臨界概率可以合理又科學的篩選異常使用者。

另外,x2值描述了自變數與因變數之間的相關程度:x2值越大,相關程度也越大,所以很自然的可以利用x2值來做降維,保留相關程度大的變數。再回到剛才新聞分類的場景,如果我們希望獲取和娛樂類別相關性最強的100個詞,以後就按照標題是否包含這100個詞來確定新聞是否歸屬於娛樂類,怎麼做?很簡單,對娛樂類新聞標題所包含的每個詞按上述步驟計算x2值,然後按x2值排序,取x2值最大的100個詞。

相關推薦

機器學習數學(8)——檢驗原理應用

卡方檢驗原理及應用 什麼是卡方檢驗 卡方檢驗是一種用途很廣的計數資料的假設檢驗方法。它屬於非引數檢驗的範疇,主要是比較兩個及兩個以上樣本率( 構成比)以及兩個分類變數的關聯性分析。其根本思想就是在於比較理論頻數和實際頻數的吻合程度或擬合優度問題。 無關

python 檢驗原理應用

卡方檢驗,或稱x2檢驗。 無關性假設: 假設我們有一堆新聞或者評論,需要判斷內容中包含某個詞(比如6得很)是否與該條新聞的情感歸屬(比如正向)是否有關,我們只需要簡單統計就可以獲得這樣的一個四格表: 組別 屬於正向 不屬於正向 合計 不包含

機器學習特徵選擇之檢驗與互資訊

by wangben  @ beijing 特徵選擇的主要目的有兩點: 1.      減少特徵數量提高訓練速度,這點對於一些複雜模型來說尤其重要 2.      減少noisefeature以提高模型在測試集上的準確性。一些噪音特徵會導致模型出現錯誤的泛化(genera

機器學習K-means聚類演算法原理C語言實現

本人以前主要focus在傳統音訊的軟體開發,接觸到的演算法主要是音訊訊號處理相關的,如各種編解碼演算法和回聲消除演算法等。最近切到語音識別上,接觸到的演算法就變成了各種機器學習演算法,如GMM等。K-means作為其中比較簡單的一種肯定是要好好掌握的。今天就講講K-means的基本原理和程式碼實現。其中基本原

機器學習的偏差和

當一個模型確定時,我們需要對其進行診斷,判斷這個模型是否存在過擬合或者欠擬合。通過偏差與方差我們可以很快捷的評價當前的模型。 偏差與方差的直觀理解 偏差:就是偏離的意思,與“標準”之間的差距。 方差:

理解機器學習的偏差與

原文:https://blog.csdn.net/simple_the_best/article/details/71167786  學習演算法的預測誤差, 或者說泛化誤差(generalization error)可以分解為三個部分: 偏差(bias), 方差(varia

深度 | 機器學習的模型評價、模型選擇演算法選擇

作者:Sebastian Raschka翻譯:reason_W編輯:周翔簡介正確使用模型評估、模

檢驗思想及其應用

卡方檢驗是以χ2分佈為基礎的一種常用假設檢驗方法,它的無效假設H0是:觀察頻數與期望頻數沒有差別。   該檢驗的基本思想是:首先假設H0成立,基於此前提計算出χ2值,它表示觀察值與理論值之間的偏離

數學知識點查漏補缺(分布與檢驗

檢驗 element 影響 body protect 兩個 ram -m style 一、卡方分布 若k個獨立的隨機變量Z1,Z2,?,Zk,且符合標準正態分布N(0,1),則這k個隨機變量的平方和,為服從自由度為k的卡方分布。 卡方分布之所以經常被利用到,是因為對符合正態

機器學習數學-強大的矩陣奇異值分解(SVD)及其應用

版權宣告:     本文由LeftNotEasy釋出於http://www.cnblogs.com/LeftNotEasy/archive/2011/01/19/svd-and-applications.html 前言: &nb

機器學習數學:一份新鮮出爐的熱門草稿

近日,Marc Peter Deisenroth、A Aldo Faisal 和 Cheng Soon Ong 所著書籍《Mathematics for Machine Learning》的全部草稿已放出,我們整理了這本書的簡要概述。感興趣的讀者可從以下連結獲取全文(英文版)。 書籍地址:https://m

機器學習那些必要又困惑的數學知識

現在很多想從事於機器學習的朋友都存在很多困惑,主要是很多相關的書看不懂,尤其是數學部分,機器學習的基礎是數學。數學並非是一個可選可不選的理論方法,而是不可或缺的支柱。對於機器學習演算法工程師而言,微積分、線性代數、概率論毫無疑問是需要掌握的。   為什麼要強調數學? 毫無

吳恩達機器學習差矩陣的向量表示推導

一、多維隨機變數的協方差矩陣 對多維隨機變數列向量,我們往往需要計算各維度之間的協方差,這樣協方差就組成了一個n×nn×n的矩陣,稱為協方差矩陣。協方差矩陣是一個對角矩陣,對角線上的元素是各維度上隨機變數的方差。 我們定義協方差為, 矩陣內的元素為  協方差矩陣為 

機器學習的協差矩陣的深入理解(簡單舉例)

目錄 1、統計學的定義 2、協方差矩陣的由來 3、MATLAB實戰練習 4、心得感悟 注意:一定是一個對稱的方陣,一定是一個對稱的方陣!!!記住就好啦~ 最近老師講課還有看論文的時候經常看到協方差矩陣這個破東西,自己還是搞不太清楚,查了協方差矩陣的資料,惡補之後決定馬上記

機器學習數學

二、第二課時  1)極限:   通俗語言:函式f在\(x_0\)處的極限是L   數學符號:\(\lim_{x\rightarrow x_0} f(x) = L\)   無窮如何比較大小呢?如x趨近0的時候,\(sin(x)\)和\(tan(x)\)同樣都趨近0,哪個趨近0的速度更快呢?我們可以採用求

偏差(Bias)和差(Variance)——機器學習的模型選擇

模型效能的度量 在監督學習中,已知樣本 $(x_1, y_1),(x_2, y_2),...,(x_n, y_n)$,要求擬合出一個模型(函式)$\hat{f}$,其預測值$\hat{f}(x)$與樣本實際值$y$的誤差最小。 考慮到樣本資料其實是取樣,$y$並不是

Python資料預處理之---統計學的t檢驗檢驗以及均值,位數等

Python資料預處理過程:利用統計學對資料進行檢驗,對連續屬性檢驗正態分佈,針對正態分佈屬性繼續使用t檢驗檢驗方差齊次性,針對非正態分佈使用Mann-Whitney檢驗。針對分類變數進行卡方檢驗(涉及三種卡方的檢驗:Pearson卡方,校準卡方,精準卡方)等。

機器學習數學系列(一)矩陣與矩陣乘法

1.對於矩陣的認識應當把它看成是多個向量的排列表或把矩陣看成行向量,該行向量中的每個元素都是一個列向量,即矩陣是複合行向量。如下圖所示。 2.對於下面這個矩陣的乘法有兩種看法: (1)矩陣將向量[b1,b2,b3].T進行了運動變換,這種變換可以是同空間內變

機器學習數學:洛必達法則(能力工場小馬哥)

轉載 什麽 機器學習 數學 比賽 技術 函數 著作權 不存在 通俗地講,求極限的本質是分子與分母“比階”,比誰的速度快。 就像分子分母在跑道上進行趨於0或者無窮的賽跑,我們旁觀者想搞清楚他們1.誰贏了?(極限是大於一還是小於一?)2.他們是差不多同時撞線還是領先者領先

機器學習數學基礎——期望、差、協差、相關係數、矩、協差矩陣

期望 定義 離散型 E(X)=∑i∞xkpk 連續型 E(X)=∫∞−∞xf(x)dx 性質 E[aX+bY]=aE[X]+bE[Y] 方差 定義 D(X)=Var(X)=E{[X−E(X)]2}=E