1. 程式人生 > >【大資料部落】r、 weka從決策樹模型看員工為什麼離職?

【大資料部落】r、 weka從決策樹模型看員工為什麼離職?

【大資料部落】從決策樹模型看員工為什麼離職?

馬雲說:“員工離職的原因總是隻有兩個:錢,沒有到位;心委屈了。”

現在很多老闆都抱怨說,年輕人的流動率太高了,員工覺得老闆的錢太少了,最後還是多指責。

為什麼我們最好和最有經驗的員工過早離職?

到底如何解決這個困境? 拓端資料tecdat使用資料分析員工離開的原因,希望能從中找到線索。

我們蒐集的資料包含:

l能力評估

l專案數量

l平均每月工作時間/小時

l花在公司的時間

l是否有工作意外

l是否在過去5年裡進行了推廣

l部門

l薪水

l員工是否離開

【大資料部落】從決策樹模型看員工為什麼離職?

1 判斷哪些員工做出了較大貢獻

為了判斷哪些員工做出了較大貢獻,我們需要得到一個判斷的規則.

因此在這裡我們將使用evaluation來代表哪些員工作出貢獻的衡量標準,

為了得到判斷的規則,我們要使用決策樹模型.

決策樹模型的概念如下:

決策樹(decision tree)是一個樹結構(可以是二叉樹或非二叉樹)。其每個非葉節點表示一個特徵屬性上的測試,每個分支代表這個特徵屬性在某個值域上的輸出,而每個葉節點存放一個類別。使用決策樹進行決策的過程就是從根節點開始,測試待分類項中相應的特徵屬性,並按照其值選擇輸出分支,直到到達葉子節點,將葉子節點存放的類別作為決策結果。

然後我們需要evaluation作為決策樹的因變數,將其他的員工特徵作為輸入變數,然後我們可以得到決策樹的規則,從而判斷哪些變數可以判斷員工作出了貢獻

我們檢視模型的結構

從上面的結果來看,我們可以看到樹的節點有平均工作時間,在公司所花的時間,滿意程度,這幾個變數.因此我們可以通過這些變數來判斷一個人供是否對公司做出了貢獻.從第一個節點我們可以看到,如果每月的平均工作小時小於零一百六十個小時的話,那麼他的貢獻,在78%左右,也就是平均貢獻非常低.如果工作時間大於160個小時,我們要看他在公司所花的時間.如果公司所花的時間大於3.5.那麼他對公司做出的貢獻在81%左右.如果在公司所花的時間不足3.5.那麼我們就要判斷他對公司的滿意程度.因此從上面的結果中我們可以看到,在公司所花的時間越多,那麼這個人對公司的貢獻可能略大,公司的滿意程度較低,,說明他認為公司的可提高空間還很大,因此他對公司的貢獻也會較大.

2 哪些原因會導致員工離職

然後我們是用同樣的方法來判斷哪些原因會導致員工的離職,在這裡我們使用員工是否離職作為因變數.

我們檢視模型的結果

從結果中,我們可以看到有一些變數重複的出現,比如對公司的滿意程度,在公司所花的時間所做的工程數量,最後的評估結果.因此可以認為這些變數對員工是否離職產生了重要的影響.

同時我們還可以得到對員工是否離職的影響的一個決策樹方程

從上面的結果來看,我們可以發現,係數如果是負的那麼說明這個,這個變數對於是否離職有負相關的作用,如果係數是正的,那麼這個變數對員工是否與此產生了正相關的作用.那麼從上面的結果中我們就可以看到,如果一個員工對公司的滿意程度越高,那麼他離職的可能性就越小,如果一個員工最後的評估成績越高,那麼他離職的可能性也越小,如果他做過的專案數量越多,那麼他離職的可能性也越小,同時我們可以看到,如果他的薪水較低,那麼他離職的可能性就越大.同時我們還可以看到,一個人的崗位,還有他平均的工作時間,對她是否離職似乎沒有影響.

3 能否通過加薪升職等方式挽留那些做出貢獻的員工 ?

那麼是否可以通過升職加薪的方式挽留作出貢獻的員工呢?

從上面的方程來看,答案是肯定的.

因為一個人的薪水越低,那麼他離職的可能性就越高,因此如果增加一個人的薪水,那麼會降低他的離職概率.同時從係數的大小我們還可以判斷,如果一個人的職位是i t部門那麼他的離職可能性會較小。同時我們可以看到,如果公司對它的最後評估越高,那麼他離職的可能性也越小,因此我們可以通過升職加薪的方式來挽留作出貢獻的員工。

提高教育水平,使年輕人具有中產階級價值觀和更高的自我期望。 但高等教育的普及也導致了中產階級價值實行變得困難。 這就像能買得起票的人變得更多,結果不是每個人都可以上車。 因此,有時我們要調整對工作的預期,做好眼前的事情。

大資料部落——中國專業的第三方資料服務提供商,提供定製化的一站式資料探勘和統計分析諮詢服務 統計分析和資料探勘諮詢服務 :y0.cn/teradat(諮詢服務請聯絡官網客服 點選這裡給我發訊息QQ:3025393450 【大資料部落】提供定製化的一站式資料探勘和統計分析諮詢服務
【大資料部落】大資料部落提供定製化的一站式資料探勘和統計分析諮詢服務
分享最新的大資料資訊,每天學習一點資料分析,讓我們一起做有態度的資料人【大資料部落】大資料部落提供定製化的一站式資料探勘和統計分析諮詢服務 微信客服號:lico_9e QQ交流群:186388004 【大資料部落】r語言電商網站爬蟲

相關推薦

資料部落r weka決策模型員工為什麼離職

馬雲說:“員工離職的原因總是隻有兩個:錢,沒有到位;心委屈了。” 現在很多老闆都抱怨說,年輕人的流動率太高了,員工覺得老闆的錢太少了,最後還是多指責。 為什麼我們最好和最有經驗的員工過早離職? 到底如何解決這個困境? 拓端資料tecdat使用資料分析員工離開的原

資料部落R語言求風險價值VaR Value at Risk

風險價值是衡量與投資組合相關的風險水平的統計方法。風險價值在指定的時間範圍內和給定的置信水平下測量最大損失量。 首先,它的英文值是價值的風險性,縮寫一般是風險價值而不是無功,後者通常是指方差是方差。

資料技術3.Mapreduce和Yarn

一、Mapreduce Mapreduce主要應用於日誌分析、海量資料的排序、索引計算等應用場景,它是一種分散式計算模型,主要用於解決離線海量資料的計算問題。 核心思想是:“分而治之,迭代彙總” Mapreduce主要由兩個階段: map階段:任務分解 1.讀取HDFS中的檔案,把輸入檔

資料技術2.協調服務zookeeper

本文主要按以下六個部分進行描述:一、概念與作用 二、資料模型與特徵 三、角色 四、工作原理 五、選舉機制 六、zookeeper實戰操作(shell命令與API) 一、概念與作用 zookeeper主要是為分散式應用提供一致性服務 主要提供:維護配置資訊、名字服務、分散式同步、組服務 其結構

資料技術1.hadoop叢集搭建

近年來,大資料技術越來越吃香,也是追求高薪的必備技能之一。 近些日子,打算技術轉型,開始研究大資料技術,基於對JAVA、LINUX系統有一定的基礎,完成hadoop叢集搭建(1個master和1個slave)。 一、準備工具 VMvare、centOS6.3、SSH Secure客戶端(

資料學習數學基礎及應用

一談到大資料技術,很多人首先想到的是數學,大概是因為數字在數學體系中穩固的位置吧,這也是理所當然的。大資料時代已經被抄的很熱了,這個行業目前已經逐漸成熟,想學習大資料開發的人越來越多。每天我們在網際網路都要存留大量的資訊,但如何收集、整理這海量的資訊,併產生價值,已經是各行各業都在探索的重要課題,且

資料技術HBase基本知識介紹及典型案例分析

  (1)分散式、多版本、面向列的開源資料庫      (2)支援上億行、百萬列;   (3)強一致性、高擴充套件、高可用 Hbase是一個強一致性資料庫,不是“最終一致性”資料庫。 HBase資料讀寫,更新的資料是放在Mems

資料技術關於Spark Streaming 技術要點的一些彙總

原文連結:https://blog.csdn.net/D55dffdh/article/details/82423831 Spark Streaming 支援實時資料流的可擴充套件(Scalable)、高吞吐(high-throughput)、容錯(fault-tolerant)的流處

資料學習之早課20180913

1.如何判斷一個Linux上的xxx服務是否存活? 談談你們的理解 檢視程序ps -ef   檢視埠netstat -nlp 2.埠號哪個命令去看看通不通 telnet ip加埠號,比如 telnet 192.168.137.190 80 3.那麼Linux和window

資料安全Apache Kylin 安全配置(Kerberos)

1. 概述 本文首先會簡單介紹Kylin的安裝配置,然後介紹啟用Kerberos的CDH叢集中如何部署及使用Kylin。 Apache Kylin™是一個開源的分散式分析引擎,提供Hadoop/Spark之上的SQL查詢介面及多維分析(OLAP)能力以支援超大規模資料,最初由eBay Inc. 開發並貢獻至開

資料學習之Hive部署

為了減少衝突,一般來說版本都用統一的比較好,所以選擇CDH的部署。 前面的hadoop是選擇hadoop-2.6.0-cdh5.7.0 ,所以hive安裝的版本跟hadooop的尾巴對準了。 2、ctrl+F 搜 hive-1.1.0-cdh5.7.0  , 右鍵選擇

資料學習資料學習基礎知識總綱

大資料需要學習什麼?很多人問過我這個問題。每一次回答完都覺得自己講得太片面了,總是沒有一個合適的契機去好好總結這些內容,直到開始寫這篇東西。大資料是近五年興起的行業,發展迅速,很多技術經過這些年的迭代也變得比較成熟了,同時新的東西也不斷湧現,想要保持自己競爭力的唯一辦法就是不斷學習。 大資

資料安全基於Kerberos的資料安全驗證方案

1.背景 網際網路從來就不是一個安全的地方。很多時候我們過分依賴防火牆來解決安全的問題,不幸的是,防火牆是假設“壞人”是來自外部的,而真正具有破壞性的攻擊事件都是往往都是來自於內部的。 近幾年,在thehackernews等網站上總會時不時看到可以看到一些因為資料安全問題被大面積攻擊、勒索的事件。在Hadoo

day06.Hadoop快速入門&雲服務三種模式IaaS,PaaS和SaaS資料教程

day06.Hadoop快速入門&雲服務三種模式IaaS,PaaS和SaaS【大資料教程】1. HADOOP背景介紹1.1 什麼是HADOOP1). HADOOP是apache旗下的一套開源軟體

資料學習資料學習的基礎知識

學習之前沒搞清楚的知識 傳統的web應用(LAMP、JavaEE、NODE系等)與大資料什麼關係? 之前一直以為大資料的東西就是來取代傳統的Web應用的,其實並不是這樣;即使是大資料的架構,應用層依然會是傳統的web應用,但是會根據資料特點對資料儲存(結構化資料依然會儲存在傳統的關係型資料庫——如My

資料架構基於資料的消費信貸平臺

金融的核心是風控,而好的風控依託於資料。作為依託於大資料驅動的信用消費金融平臺的量化派,為了給信

資料演算法:apriori演算法詳解,非常清晰

 Apriori演算法例項 交易ID 商品ID列表 T100 I1,I2,I5 T200 I2,I4 T300 I2,I3 T400 I1,I2,I4 T500 I1,I3 T600 I2,I3 T700 I1

資料實踐KSQL流處理——如何將多個STREAM輸出到一個TOPIC

【大資料實踐】KSQL流處理——如何將資料處理結果推到指定Topic 需求場景描述 在生產環境中,各個業務服務產生的事件都會被push到Kafka訊息中介軟體中。如:充值中心的 充值事件 會被push到kafka的recharge topic中,玩家 結算事件 會被

資料技術——Hadoop(1)

什麼是大資料 基本概念 《資料處理》 在網際網路技術發展到現今階段,大量日常、工作等事務產生的資料都已經資訊

資料 Spark利用電影觀看記錄資料,進行電影推薦

## 利用電影觀看記錄資料,進行電影推薦。 [TOC] ![](https://img-blog.csdnimg.cn/20200510102011122.png) ## 準備 ### 1、任務描述: 在推薦領域有一個著名的開放測試集,下載連結是:`http://grouplens.org/datasets/