最詳細的基於R語言的Logistic Regression（Logistic迴歸）原始碼，包括擬合優度，Recall，Precision的計算

阿新 • • 發佈：2019-01-05

這篇日誌也確實是有感而發，我對R不熟悉，但實驗需要，所以簡單學了一下。發現無論是網上無數的教程，還是書本上的示例，在講Logistic Regression的時候就是給一個簡單的函式及輸出結果說明。從來都沒有講清楚幾件事情：

1. 怎樣用訓練資料訓練模型，然後在測試資料上進行驗證（測試資料和訓練資料可能有重合）？

2. 怎樣計算預測的效果，也就是計算Recall，Precision，F-measure等值？

3. 怎樣計算Nagelkerke擬合優度等評價指標？

2014年9月8日補充：還有一個問題忘記說了，怎麼樣確定Logistic Regression的閾值，對於下面這段程式碼來講，很簡單：調整0.5為其他值即可。

發現這些書本和一些寫部落格的朋友，腦子真是不清楚得可以。去看你的教程，不是光看看簡單的函式使用，或者聽你講講原理，還是希望能儘快並且正確地用起來。從我的經歷來看，已有的網上教程都做得太差了。

這裡我也不詳細介紹過程了，貼上有詳細註釋的程式碼，相信大家一看就明白：

rm(list=ls(all=TRUE))#首先刪除工作空間中所有物件
training=read.csv("training.csv",header=FALSE)
testing=read.csv("testing.csv",header=FALSE)#分別匯入訓練和測試資料
 
glm.fit=glm(V16~V7,data=training,family=binomial(link="logit"))#用訓練資料生成模型，這裡我是用第7列資料預測第16列
 
n=nrow(training)#訓練資料的行數，也就是樣本數量
 
R2<-1-exp((glm.fit$deviance-glm.fit$null.deviance)/n)#計算Cox-Snell擬合優度
cat("Cox-Snell R2=",R2,"\n")
 
R2<-R2/(1-exp((-glm.fit$null.deviance)/n))#計算Nagelkerke擬合優度，我們在最後輸出這個擬合優度值
 
p=predict(glm.fit,testing)#用模型對測試資料進行預測
p=exp(p)/(1+exp(p))#計算因變數的值
 
testing$V16_predicted=1*(p>0.5)#給test資料增加一列，也就是對V16的預測，當p>0.5時，預測值為1

true_value=testing[,16]
predict_value=testing[,17]#分別將16和17列取出來
 
retrieved=sum(predict_value)
precision=sum(true_value & predict_value)/retrieved
recall=sum(predict_value & true_value)/sum(true_value)
F_measure=2*precision*recall/(precision+recall)#計算Recall，Precision和F-measure

#補充一點：對TPR（True Positive Rate）和FPR（False Positive Rate）的計算：
TPR=sum(true_value & predict_value)/sum(true_value)#實際上和Recall相等
FPR=(sum(predict_value)-sum(true_value & predict_value))/(length(true_value)-sum(true_value))
 
summary(glm.fit)
cat("Nagelkerke R2=",R2,"\n")
print(precision)
print(recall)
print(F_measure)

搞不清楚這麼簡單的東西，為什麼很多人都說不清楚。

這裡再簡單解釋一下summary輸出結果：

Call:
glm(formula = V16 ~ V7, family = binomial(link = "logit"), data = training)
 
Deviance Residuals:
    Min       1Q   Median       3Q      Max
-2.5212  -0.9990  -0.4249   1.1352   1.4978  
 
Coefficients:
             Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.744804   0.207488  -3.590 0.000331 ***
V7           0.005757   0.001362   4.226 2.38e-05 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
 
(Dispersion parameter for binomial family taken to be 1)
 
    Null deviance: 307.76  on 221  degrees of freedom
Residual deviance: 277.85  on 220  degrees of freedom
AIC: 281.85
 
Number of Fisher Scoring iterations: 5

其實大家主要看Coefficient這裡就可以了，其中Estimate表示最終預測方程裡V7的係數，Pr就是p-value，從這兩處看預測效果還可以接受。

最詳細的基於R語言的Logistic Regression（Logistic迴歸）原始碼，包括擬合優度，Recall，Precision的計算

這篇日誌也確實是有感而發，我對R不熟悉，但實驗需要，所以簡單學了一下。發現無論是網上無數的教程，還是書本上的示例，在講Logistic Regression的時候就是給一個簡單的函式及輸出結果說明。從來都沒有講清楚幾件事情： 1. 怎樣用訓練資料訓練模型，然後在測試資料

【原創】Logistic regression （邏輯迴歸）概述

Logistic regression （邏輯迴歸）是當前業界比較常用的機器學習方法，用於估計某種事物的可能性。比如某使用者購買某商品的可能性，某病人患有某種疾病的可能性，以及某廣告被使用者點選的可能性等。（注意這裡是：“可能性”，而非數學上的“概率”，logis

機器學習作業-Logistic Regression（邏輯迴歸）

ML課堂的第二個作業，邏輯迴歸要求如下：資料集連結如下：邏輯迴歸的關鍵是運用了sigmod函式，sigmod函式有一個很好的性質是其導函式很好求函式影象： sigmod會將函式值對映到（0，1）區間內，將其輸出值看作是概率則有邏輯迴歸的二分類模型

Logistic Regression（邏輯迴歸）

介紹邏輯迴歸雖然稱為迴歸，但它卻是一個分類演算法，一個用來解決二分類問題的演算法，它通過將線性迴歸預測出的值對映到 {0,1} 上來實現分類的（0叫做負類，1叫做正類）。這是一個很簡單的二分類演算法，它的思想也很容易理解。邏輯迴歸與線性迴歸的流程很相似：

R語言學習筆記（十一）：廣義線性模型

學習筆記 Education 5.0 1.3 style only 可能性 div erro #Logistic 回歸 install.packages("AER") data(Affairs,package="AER") summary(Affairs) a

R語言學習筆記（十六）：處理缺失值

ima 結果 cti img dataset case prop .com log #識別缺失值 install.packages("VIM") data(sleep,package="VIM") #列出沒有缺失值的行 sleep[complete.case

R語言學習筆記（十七）：data.table包中melt與dcast函數的使用

eas table variable mil pat efault ast 函數 pre melt函數可以將寬數據轉化為長數據 dcast函數可以將長數據轉化為寬數據 > DT = fread("melt_default.csv") > DT

R語言程式設計指南（非同步圖書）.epub

【下載地址】 R 是一個開源、跨平臺的科學計算和統計分析軟體包，它提供了豐富多樣的統計功能和強大的資料分析功能。隨著資料科學的快速發展，R已經成為資料分析領域非常流行的語言。本書通過15章內容，向讀者全面講解了R的基礎知識和程式設計技巧。本書不僅介紹了R的安裝、基

[機器學習入門] 李巨集毅機器學習筆記-6 （Classification: Logistic Regression；邏輯迴歸）

[機器學習] 李巨集毅機器學習筆記-6 （Classification: Logistic Regression；Logistic迴歸） PDF VIDEO Three steps Step 1: Function Set

R語言——程式設計邏輯（案例分析）

迴圈語句 for，while語句 > a<-10 > a [1] 10 > for(i in 1:59){ + a[i]<-i*2+3 + } > a [1] 5 7 9 11 13 15 1

機器學習&深度學習實踐（python版）系列----Linear Regression（線性迴歸）

今天和一位師兄決定複習一下Andrew Ng的機器學習和深度學習教程理論知識，用Python實現教程中的練習。教程分為：我們決定從機器學習開始，逐漸實現。寫這個系列主要

NNs（Neural Networks，神經網路）和Polynomial Regression（多項式迴歸）等價性之思考，以及深度模型可解釋性原理研究與案例

1. Main Point 0x1：行文框架第二章：我們會分別介紹NNs神經網路和PR多項式迴歸各自的定義和應用場景。第三章：討論NNs和PR在數學公式上的等價性，NNs和PR是兩個等價的理論方法，只是用了不同的方法解決了同一個問題，這樣我們就形成了一個統一的觀察視角，不再將深度神經網路看成是一

《深度學習精要（基於R語言）》高清中文版PDF+高清英文版PDF+源代碼

dbd 語言 process sha http com cto oss RoCE 下載：https://pan.baidu.com/s/11zySQB5f0s9SXNgJdBOphg 更多最新的資料：http://blog.51cto.com/3215120 《深度學習精要

Twitter基於R語言的時序資料突變檢測（BreakoutDetection）

Twitter開源的時序資料突變檢測（BreakoutDetection）,基於無參的E-Divisive with Medians (EDM)演算法，比傳統的E-Divisive演算法快3.5倍以上，並且具有魯棒統計性，就是你加入一些離群點或異常點，並不影響該演算法的檢測效果，不過最關鍵的還是

分享《深度學習精要（基於R語言）》+PDF+源碼+Joshua F.Wiley+高蓉

blog aaa 講解 pro 高清 water tex href ces 下載：https://pan.baidu.com/s/14UlxD5VJRY92UpP7Wr6Taw 更多最新的資料：http://blog.51cto.com/14087171 《深度學習精要（基

基於R語言的Kaggle案例分析學習筆記（五）

藥店銷量預測本案例大綱： 1、xgboost理論介紹 2、R語言中xgboost相關函式的引數 3、案例背景 4、資料預處理 5、R語言的xgb模型實現程式碼 1、xgboost理論介紹這部分我直接把一些牛人寫的關於xgb的理論介紹引用過來了，大家可以直

統計學習方法——感知機演算法（基於R語言）

演算法2.1 train <- function(mat) { nr <- nrow(mat) nc <- ncol(mat) w0 <- matrix(0,nc - 1,1) b0 <- 0

基於R語言的聚類分析（k-means,層次聚類）

今天給大家展示基於R語言的聚類，在此之前呢，首先談談聚類分析，以及常見的聚類模型，說起聚類我們都知道，就是按照一定的相似性度量方式，把接近的一些個體聚在一起。這裡主要是相似性度量，不同的資料型別，我們需要用不同的度量方式。除此之外，聚類的思想也很重要，要是按照聚

中文分詞實踐（基於R語言）

背景：分析使用者在世界盃期間討論最多的話題。思路：把使用者關於世界盃的帖子拉下來，然後做中文分詞+詞頻統計，最後將統計結果簡單做個標籤雲，效果如下：後續：中文分詞是中文資訊處理的基礎，分詞之後，其實還有特別多有趣的文字挖掘工作可

R語言學習筆記（十三）：時間序列

abs 以及 stat max 時間 aic air ror imp #生成時間序列對象 sales<-c(18,33,41,7,34,35,24,25,24,21,25,20,22,31,40,29,25,21,22,54,31,25,26,35) tsal

最詳細的基於R語言的Logistic Regression（Logistic迴歸）原始碼，包括擬合優度，Recall，Precision的計算

相關推薦