1. 程式人生 > >人力資源員工離職原因資料分析

人力資源員工離職原因資料分析

本專案的資料集來源kaggle競賽專案:HR-Analytics,自行下載即可!

1.提出問題

公司當中員工們離職的原因是什麼?
什麼樣的員工會離職呢?

2.讀取資料,理解資料

匯入資料分析工具包,這次我們用seaborn庫來優化我們的資料視覺化圖表!
在這裡插入圖片描述
讀取資料
在這裡插入圖片描述
檢視資料,head()方法沒有指定預設檢視前5行
在這裡插入圖片描述
檢視資料是否存在缺失值以及資料型別
在這裡插入圖片描述
檢視資料集是否有異常值
在這裡插入圖片描述
綜上:本資料集有10個特徵,8個數值特徵,2個類別特徵,共有14999條資料,都沒有缺失,也沒有發現異常值。

先備份資料,以免破壞源資料。

在這裡插入圖片描述
如果有需要,可以修改列名,方便分析
在這裡插入圖片描述
將離職這一列移動到最前面方便我們對於離職原因進行分析(其實不移動也行【捂臉】,就當知識點學習吧!)
在這裡插入圖片描述


3.資料探索
我們利用seaborn來視覺化相關係數
在這裡插入圖片描述
在這裡插入圖片描述
通過這個圖我們可以清楚的識別哪兩個特徵之間相關性高,這給我們指引了一個分析的方向。

資料觀察:

-專案數、平均月工作時間和績效評估,專案數和月平均工作時間有一定的正相關關係;

-離職和滿意度,離職和工作事故有一定負相關關係。

粗略的看一下資料中滿意度-工齡這5個特徵與離職之間的關係
在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述
觀察資料:

(1)離職和滿意度之間的關係:

-滿意度低於0.2的員工離職人數達到峰值,說明這部分員工因對公司不滿意而離開了公司

-滿意度在0.4左右和0.8左右離職人數達到峰值,說明這部風員工對公司很滿意,離職可能是找到了更好的工作機會
(2)離職和績效評估之間的關係:

-績效評估低於0.6的員工離職人數達到峰值,說明這部分員工因表現不佳離開公司

-績效評估在0.8-1之間員工離職人數達到峰值,說明這部分員工表現很好,離開公司可能是找得到了好的工作機會
(3)離職和專案數之間的關係:

-專案數為2的員工離職人數最多,說明不努力完成專案的員工大多離職

-專案數為4-7的員工也有離職,尤其完成專案數為7的員工竟然全部離職,說明完成專案太多,因過度勞累離職
(4)離職與平均月工作時間之間的關係:

-平均月工作時間在150小時左右的離職員工達到一個峰值,說明這部分員工因工作量少,工作時間短離職

-平均月工作時間在250-300小時的離職員工達到一個峰值,說明這部分員工因工作量多,工作時間長離職
(5)離職與工齡之間的關係:

-工齡在4年以內的員工離職人數較多

-工齡在7-10年的全部沒有離職,說明工齡較長的員工比較穩定

詳細的資料探索:
分析升職情況與離職之間的關係
在這裡插入圖片描述
觀察資料:

在職員工的升職人數比較多,離職員工的升職人數很少,這說明有部分員工因得不到公司重用而離職。

分析所屬部門與離職情況之間的關係
在這裡插入圖片描述
這樣我們看不出什麼,我們最好計算它的離職率並做成餅圖來看
在這裡插入圖片描述
在這裡插入圖片描述
觀察資料:

(1)公司各部門離職率相差不大;

(2)人力資源管理部和財務部門離職率相對較高;

(3)管理層、技術、研發部門離職率相對較低,是否跟薪資水平與有關?

分析薪資水平與離職情況之間的關係
在這裡插入圖片描述
觀察資料:

(1)薪資水平高,離職人數少;

(2)薪資水平低,離職人數多。

分析工作事故與離職情況的關係

在這裡插入圖片描述
觀察資料:
在離職人群中有工作事故的出現,說明有些員工的離職跟工作事故有關。

分析滿意度與薪資水平之間的關係
在這裡插入圖片描述
觀察資料:

薪資越高,員工對公司的滿意度越高。

分析專案數、月平均工作時間、與離職之間的關係
在這裡插入圖片描述
觀察資料:

(1)隨著專案數量的增加,員工的平均月工作時間也隨之增加;

(2)專案數量相同時,離職員工的平均月工作時間比在職員工多。

分析專案數、績效評估與離職之間的關係

在這裡插入圖片描述
觀察資料:

(1)隨著專案數的增加,員工的績效評估平均值也隨之增加;

(2)專案數大於2個,相同專案數,離職員工的績效評估比在職員工的績效評估分數高。

分析所屬部門、績效評估與離職之間的關係

在這裡插入圖片描述
觀察資料:

(1)財務部、人力資源部、市場部離職員工的平均績效評估均遠低於在職員工,說明這些部門離職員工績效;

(2)其他部門離職人員的績效評估平均值高於在職員工,我們推測這部分員工離職是因為找到了更好的工作機會。

綜合分析

在這裡插入圖片描述
觀察資料:

(1)離職叢集1:平均月工作時間在150左右,績效評估低於0.58,這部分離職員工因不努力工作離職;

(2)離職叢集2:平均月工作時間在250-300之間,績效評估高於0.8,這部分離職員工因勞累過度或者找到了更好的工作機會而離職;

(3)在職叢集:平均月工作時間在150-280之間的員工比較穩定。

在這裡插入圖片描述
觀察資料:

(1)離職叢集1:滿意度低於0.2而績效卻高於0.75離職的員工,說明這部分員工離職是因為工作很努力但是對自己的工作並不滿意而離職;

(2)離職叢集2:滿意度在0.4左右,績效在0.6以下,說明這部分員工對公司不滿意不努力工作而離職;

(3)離職叢集3:滿意度在0.8以上,績效也在0.8以上離職的員工,可能找到了更好的工作機會而離職。

到這裡就結束啦,如有那些地方不妥,還請大家指正!