1. 程式人生 > >Logistic Regression中的顯著性檢驗

Logistic Regression中的顯著性檢驗

由於科研需要,一直在做一些Logistic Regression的實驗。這裡以R語言為例,簡單介紹和總結一下其中的顯著性檢驗。相關的語句如下:

glm.fit=glm(V16~V14,data=training,family=binomial(link="logit"))
anova(glm.fit,test="Chisq")

這裡使用的是卡方檢驗,得到的結果類似下面:
     Df Deviance Resid. Df Resid. Dev Pr(>Chi)    
NULL                   457     634.92             
V14   1   24.688       456     610.23 6.74e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

這裡簡單解釋一下,NULL那一行表示零模型,剩餘偏差為:634.92,接下來有一個變數V14進入模型,產生了24.688的模型偏差(似然比卡方),p-value非常小。如果顯著性水平為0.05,說明應該拒絕所有迴歸係數同時為0的原假設,也就是說明模型是合理的。另外,考慮到自由度個數為1,我們在Excel的任意一格中輸入:=CHIINV(0.05,1),回車以後得到結果是:3.841,說明卡方臨界值為3.841,而我們計算的卡方值是24.688,大於臨界值。綜上所述,迴歸方程是合理的。