R中logistics迴歸分析以及K-CV

阿新 • • 發佈：2019-01-30

K倍交叉驗證是對模型的效能進行評估，可以用來防止過擬合，比如對決策樹節點數目的確定或是迴歸模型引數個數地決定等情況。
1.對於一些特殊資料來說，在呼叫glm()方法時候，會出現兩種常見錯誤
Warning: glm.fit: algorithm did not converge
Warning: glm.fit: fitted probabilities numerically 0 or 1 occurred
Warning messages:
1: glm.fit:演算法沒有聚合
2: glm.fit:擬合機率算出來是數值零或一
針對第一種，一般是因為在迴歸擬合的時候次數少，control=list(maxit=100)修改次數為100即可；
第二種一般就是資料已經分散好了，可以理解為一種過擬合，由於資料的原因，在迴歸係數的優化搜尋過程中，使得分類的種類屬於某一種類（y=1)的線性擬合值趨於大，分類種類為另一類(y=0)的線性擬合值趨於小。
以鳶尾花資料為例子，
這裡寫程式碼片

testdata$y <- c(1:80)
qplot(pl,y,data =testdata,colour =factor(species))；
截圖如下

這種情況直接就可以劃分了，無需迴歸分析

2.建立好迴歸模型，呼叫predict()進行評價，根據包裡面的解釋：
predict.glm
預設是線性預測因子的尺度; 若是
type= “response“<==>“響應”是響應變數的規模。
所以predict（log.glm）返回的是”β0+β1x1+…βmxm”,而predict(log.glm,typee= “response“)返回的是P值。下圖是我做的認為驗證
這裡寫圖片描述

這裡寫圖片描述

3。下來就是通過K倍交叉驗證評價模型好壞了，cv.glm(log.glm,trian,K=10)
這裡寫圖片描述

可以得到錯誤率；

4.最後可以畫ROC曲線，由於cv.glm只有錯誤率沒有P值，所以自己編了一個程式作了CV，得到圖為：
這裡寫圖片描述

有一個疑問，就是做ROC曲線的時候，是不是把test_data分別帶入相同模型五個不同的引數中得P值（以5倍交叉驗證為例）？？

自己也是蠻笨的，為了這個事情搞了一天半，加油吧，感情上是個loser，學習上盼望有點建樹吧。

R中logistics迴歸分析以及K-CV

R中logistics迴歸分析以及K-CV

R語言 | 多元迴歸分析中的對照編碼（contrast coding） | 第一節 dummy variable（啞變數）和 dummy coding

Android中Parcel的分析以及使用

（數據科學學習手劄19）R中基本統計分析技巧總結

27 Sep 2018 R 語言 logistics 迴歸學習筆記

【codeforces 617E XOR and Favorite Number】【莫隊分塊】【多次查詢求區間[l,r]中區間異或等於k的子區間個數】

用R語言進行迴歸分析

R中時間序列分析-趨勢預測ARIMA

在R中進行相關分析

tensorflow中RNNcell原始碼分析以及自定義RNNCell的方法

R語言與迴歸分析學習筆記（bootstrap method）

Python 線性迴歸分析以及評價指標

音訊演算法speex中的aec分析以及解析

R中的線性迴歸分析

大數據學習之Scala中main函數的分析以及基本規則（2）

Oracle生產中跑批存儲過程或函數失效原因分析以及解決方案

R語言統計入門課程推薦——生物科學中的資料分析Data Analysis for the Life Sciences

R語言迴歸分析函式說明

R語言學習筆記(二)——迴歸分析

Spring原始碼分析(十五)Spring中常用註解使用以及原始碼分析

R中logistics迴歸分析以及K-CV

相關推薦