員工離職案例預測--R語言--kaggle資料

阿新 • • 發佈：2018-11-12

需要安裝的包：

library(plyr)          # Rmisc的關聯包,若同時需要載入dplyr包，必須先載入plyr包
library(dplyr)         # filter()
library(ggplot2)       # ggplot()             
library(DT)            # datatable()           建立互動式資料表
library(caret)         # createDataPartition() 分層抽樣函式
library(rpart)         # rpart()
library(e1071)         # naiveBayes()
library(pROC)          # roc()
library(Rmisc)         # multiplot()           分割繪圖區域

################### ============== 載入包 =================== #################
library(lattice)     #繪圖基準包，柵欄
library(plyr)          # Rmisc的關聯包,若同時需要載入dplyr包，必須先載入plyr包
library("dplyr")         # filter()
library(ggplot2)       # ggplot()             
library(DT)            # datatable()           建立互動式資料表
library(caret)         # createDataPartition() 分層抽樣函式
library(rpart)         # rpart()
library(e1071)         # naiveBayes()
#library("pROC")          # roc()
library(pROC)
library(Rmisc)         # multiplot()           分割繪圖區域

################### ============= 匯入資料 ================== #################

hr <- read.csv("/RStudio/workSpace2018/kaggle案例課程/員工離職預測\\HR_comma_sep.csv")
hr <- read.csv("D:/RStudio/workSpace2018/kaggle案例精講課程/員工離職預測\\HR_comma_sepp.csv")
#D:/RStudio/workSpace2018/kaggle案例課程/員工離職預測\\HR_comma_sep.csv
#D:/RStudio/workSpace2018/kaggle案例精講課程/員工離職預測\\HR_comma_sepp.csv

################### ============= 描述性分析 ================== ###############

str(hr)      # 檢視資料的基本資料結構
summary(hr)  # 計算資料的主要描述統計量

# 後續的個別模型需要目標變數必須為因子型，我們將其轉換為因子型
hr$left <- factor(hr$left, levels = c('0', '1')) 


## 探索員工對公司滿意度、績效評估和月均工作時長與是否離職的關係
# 繪製對公司滿意度與是否離職的箱線圖
box_sat <- ggplot(hr, aes(x = left, y = satisfaction_level, fill = left)) +
  geom_boxplot() + 
  theme_bw() +  # 一種ggplot的主題
  labs(x = 'left', y = 'satisfaction_level') # 設定橫縱座標標籤

box_sat

# 繪製績效評估與是否離職的箱線圖
box_eva <- ggplot(hr, aes(x = left, y = last_evaluation, fill = left)) + 
  geom_boxplot() +
  theme_bw() + 
  labs(x = 'left', y = 'last_evaluation')

box_eva

# 繪製平均月工作時長與是否離職的箱線圖
box_mon <- ggplot(hr, aes(x = left, y = average_montly_hours, fill = left)) + 
  geom_boxplot() + 
  theme_bw() + 
  labs(x = 'left', y = 'average_montly_hours')

box_mon

# 繪製員工在公司工作年限與是否離職的箱線圖
box_time <- ggplot(hr, aes(x = left, y = time_spend_company, fill = left)) + 
  geom_boxplot() + 
  theme_bw() + 
  labs(x = 'left', y = 'time_spend_company')

box_time

# 合併這些圖形在一個繪圖區域，cols = 2的意思就是排版為一行二列
multiplot(box_sat, box_eva, box_mon, box_time, cols = 2)


## 探索參與專案個數、五年內有沒有升職和薪資與離職的關係
# 繪製參與專案個數條形圖時需要把此變數轉換為因子型
hr$number_project <- factor(hr$number_project,
                            levels = c('2', '3', '4', '5', '6', '7'))

# 繪製參與專案個數與是否離職的百分比堆積條形圖
bar_pro <- ggplot(hr, aes(x = number_project, fill = left)) +
  geom_bar(position = 'fill') + # position = 'fill'即繪製百分比堆積條形圖
  theme_bw() + 
  labs(x = 'left', y = 'number_project')

bar_pro

# 繪製5年內是否升職與是否離職的百分比堆積條形圖
bar_5years <- ggplot(hr, aes(x = as.factor(promotion_last_5years), fill = left)) +
  geom_bar(position = 'fill') + 
  theme_bw() + 
  labs(x = 'left', y = 'promotion_last_5years')

bar_5years

# 繪製薪資與是否離職的百分比堆積條形圖
bar_salary <- ggplot(hr, aes(x = salary, fill = left)) +
  geom_bar(position = 'fill') + 
  theme_bw() + 
  labs(x = 'left', y = 'salary')

bar_salary

# 合併這些圖形在一個繪圖區域，cols = 3的意思就是排版為一行三列
multiplot(bar_pro, bar_5years, bar_salary, cols = 3)

############## =============== 提取優秀員工 =========== ###################

# filter()用來篩選符合條件的樣本
hr_model <- filter(hr, last_evaluation >= 0.70 | time_spend_company >= 4
                   | number_project > 5)

############### ============ 自定義交叉驗證方法 ========== ##################

# 設定5折交叉驗證 method = ‘cv’是設定交叉驗證方法，number = 5意味著是5折交叉驗證
train_control <- trainControl(method = 'cv', number = 5)

################ =========== 分成抽樣 ============== ##########################

set.seed(1234) # 設定隨機種子，為了使每次抽樣結果一致

# 根據資料的因變數進行7:3的分層抽樣，返回行索引向量 p = 0.7就意味著按照7:3進行抽樣，
# list=F即不返回列表，返回向量
index <- createDataPartition(hr_model$left, p = 0.7, list = F)

traindata <- hr_model[index, ] # 提取資料中的index所對應行索引的資料作為訓練集
testdata <- hr_model[-index, ] # 其餘的作為測試集

##################### ============= 迴歸樹 ============= #####################

# 使用caret包中的trian函式對訓練集使用5折交叉的方法建立決策樹模型
# left ~.的意思是根據因變數與所有自變數建模；trCintrol是控制使用那種方法進行建模
# methon就是設定使用哪種演算法
rpartmodel <- train(left ~ ., data = traindata, 
                    trControl = train_control, method = 'rpart')

# 利用rpartmodel模型對測試集進行預測，（[-7]的意思就是剔除測試集的因變數這一列）
pred_rpart <- predict(rpartmodel, testdata[-7])

# 建立混淆矩陣，positive=‘1’設定我們的正例為“1”
con_rpart <- table(pred_rpart, testdata$left)

con_rpart 

################### ============ Naives Bayes =============== #################

nbmodel <- train(left ~ ., data = traindata,
                 trControl = train_control, method = 'nb')

pred_nb <- predict(nbmodel, testdata[-7])

con_nb <- table(pred_nb, testdata$left)
con_nb

################### ================ ROC ==================== #################
# 使用roc函式時，預測的值必須是數值型
pred_rpart <- as.numeric(as.character(pred_rpart))
pred_nb <- as.numeric(as.character(pred_nb))


roc_rpart <- roc(testdata$left, pred_rpart) # 獲取後續畫圖時使用的資訊

#假正例率:（1-Specififity[真反例率]）
Specificity <- roc_rpart$specificities      # 為後續的橫縱座標軸奠基，真反例率
Sensitivity <- roc_rpart$sensitivities      # 查全率 : sensitivities,也是真正例率

# 繪製ROC曲線
#我們只需要橫縱座標  NULL是為了宣告我們沒有用任何資料
p_rpart <- ggplot(data = NULL, aes(x = 1- Specificity, y = Sensitivity)) + 
  geom_line(colour = 'red') + # 繪製ROC曲線
  geom_abline() +             # 繪製對角線
  annotate('text', x = 0.4, y = 0.5, label = paste('AUC=', #text是宣告圖層上新增文字註釋
                                                   #‘3’是round函式裡面的引數,保留三位小數                                              
                                                   round(roc_rpart$auc, 3))) + theme_bw() + # 在圖中（0.4,0.5）處新增AUC值
  labs(x = '1 - Specificity', y = 'Sensitivities') # 設定橫縱座標軸標籤

p_rpart


roc_nb <- roc(testdata$left, pred_nb)
Specificity <- roc_nb$specificities
Sensitivity <- roc_nb$sensitivities
p_nb <- ggplot(data = NULL, aes(x = 1- Specificity, y = Sensitivity)) + 
  geom_line(colour = 'red') + geom_abline() + 
  annotate('text', x = 0.4, y = 0.5, label = paste('AUC=', 
                                                   round(roc_nb$auc, 3))) + theme_bw() + 
  labs(x = '1 - Specificity', y = 'Sensitivities')

p_nb

######################### ============= 應用 =============####################

# 使用迴歸樹模型預測分類的概率，type=‘prob’設定預測結果為離職的概率和不離職的概率
pred_end <- predict(rpartmodel, testdata[-7], type = 'prob')

# 合併預測結果和預測概率結果
data_end <- cbind(round(pred_end, 3), pred_rpart)

# 為預測結果表重新命名
names(data_end) <- c('pred.0', 'pred.1', 'pred') 

# 生成一個互動式資料表
datatable(data_end)

員工離職案例預測--R語言--kaggle資料

需要安裝的包： library(plyr) # Rmisc的關聯包,若同時需要載入dplyr包，必須先載入plyr包 library(dplyr) # filter() library(ggplot2) # ggplot()

R語言-基本資料結構的用法

關鍵詞：向量、矩陣、陣列、資料框、因子、列表近期開始上手R語言，可能是出於對機器學習的興趣吧從而瞭解到這門語言；之前也看過人生苦短的Python，當然這兩門語言都是人工智慧技術中很好的工具；二者也存在一些相同之處，當然是除了開源之外的一些相同之處；本人蔘考的書籍是R語言實戰[

R語言——電視劇資料分析

對如下資料進行描述性分析，其中包括：最大值，最小值，中位數，眾數等，求表的行數、列數。讀入資料 > mydata<-read.csv("C:\\Users\\adwar\\Desktop\\soapdata.csv") 求表的行數： >

R語言大資料分析工具的安裝與應用

實驗名稱 R語言大資料分析工具的安裝與應用專業軟體工程姓名學

2-7 R語言基礎資料框

#資料框 > df <- data.frame(id=c(1,2,3,4),name=c("a","b","c","d"),gender=c(TRUE,TRUE,FALSE,FALSE))> nrow(df) #4行[1] 4 > ncol(df) #3列[1] 3

R語言_資料篩選高血壓患者

R語言篩選高血壓前期的患者 // #工作目標:讀取csv檔案，並篩選出平均收縮壓120~139或舒張壓80~89的患者（根據2010年中國高血壓指南） > //#檢視R語言的工作環境（檔案儲存位置） > getwd() > non_hypertension_04 <

R語言基本資料管理

建立新變數並整合到原來的資料框中： my_data <- transform(my_data, sum_x = x1 + x2, mean_x = (x1 + x2)/2) 變數的重編碼： lead

R語言高階資料管理

數學函式函式描述 abs(x) 絕對值 sqrt(x) 平方根 ceiling(x) 不小於x的最小整數 flo

R語言將資料框中的字元型別數字轉換為數值

場景1 我現在有一個數據框datexpr，裡面的數字都是以字元型表示的,像這樣 > datexpr[1,1] [1] " 1.143773961" 現在我想把這個資料框中的字元型數字全部轉為數值型數字使用下面語句即可 datexpr2=as.data.fra

R語言定義資料框的行名和列名

假設有三組資料： > weight = c(150, 135, 210, 140) > height = c(65, 61, 70, 65) > gender = c("Fe","Fe","M","Fe") 據此，我們能夠得到資料框study： >

用R語言做資料清理

資料的清理如同列夫托爾斯泰所說的那樣：“幸福的家庭都是相似的，不幸的家庭各有各的不幸”，糟糕的噁心的資料各有各的糟糕之處，好的資料集都是相似的。一份好的，乾淨而整潔的資料至少包括以下幾個要素： 1、每一個觀測變數構成一列 2、每一個觀測物件構成一行 3、每一個型別的觀測單元構成一個表就像我

R語言的資料結構

R共有6種儲存資料的物件型別向量列表陣列資料框矩陣因子向量(Vectors) 向量是用於儲存數值型、字元型或邏輯型資料的一維陣列。執行組合功能的函式c()可用來建立向量。 # 建立一個向量 apple <-

R語言與資料探勘學習筆記(1)：資料探勘相關包的介紹

今天發現一個很不錯的部落格(http://www.RDataMining.com)，博主致力於研究R語言在資料探勘方面的應用，正好近期很想系統的學習一下R語言和資料探勘的整個流程，看了這個部落格的內容，心裡久久不能平靜。決定從今天開始，只要晚上能在11點之前把碗洗好，就花一個小時的時間學習部落格上的內容，並把

乾貨：用R語言進行資料提取的方法！

　資料提取是資料分析當中重要的一環，也是需要資料分析師耐心細心地做好。我們大聖眾包（www.dashengzb.cn）小編今天就和大家分享藍鯨的文章，如何通過R語言對資料進行提取分析，達到所需。　　讀取並建立資料表　　首先第一步是讀取資料，並建立名稱為lo

R語言合併資料框中相同的列元素

合併兩個向量是使用merge()函式 > x <- data.frame(姓名1 = c("張三", "李四", "王五"), 身高 = c(171, 172, 173)) > x 姓名1 身高 1 張三 171 2 李四 172

R語言入門——資料框和列表

資料框由於不同的列可以包含不同模式（數值型、字元型等）的資料，資料框的概念較矩陣來說更為一般。它與你通常在SAS、SPSS和Stata中看到的資料集類似。資料框將是你在R中最常處理的資料結構。

利用R語言對資料行列轉制

使用軟體：R語言，mysql 使用系統：ubuntu16.04 使用效果前後對比: 使用前 x1 x2 y a A 1 b B 2 c C 3 a A 4 使

Recommenderlab包實現電影評分預測(R語言)

來源：http://cos.name/cn/topic/150937 1 獲取電影資料電影資料來源於http://grouplens.org/datasets/movielens/ 網站，本文分析的資料是MovieLens 100k，總共有100,000個評分，來自100

R語言與資料模型(3)-正態分佈

> x<-c(11,22,34,53,12,45,55,37,43,23,9) > dnorm(x,mean=mean(x),sd=sd(x)) [1] 0.011476566 0.020361888 0.023388233 0.010303998 0.

員工離職案例預測--R語言--kaggle資料

相關推薦