都是資料科學家,為什麼TA薪水比你高?
同樣做 ofollow,noindex" target="_blank">資料科學 ,為什麼有人賺得多,有人賺的少?為了科學地回答這個問題,Kaggle 進行了一項系統的調查。結果表明,行業、經驗、掌握的資料型別等是影響資料科學家薪酬的主要因素。行業是自己選的,經驗是自己攢的,這些都沒啥好說的。至於資料型別,你會的更高階就賺得越多。
如何提高薪酬?本文作者從 2018 年 Kaggle ML & DS 調查問卷中總結出 124 條「該做」和「不該做」之事。
做什麼能為你的資料科學職業生涯加碼?很多人已經非常清楚鞏固資料科學職業和加薪的重要因素。但我從沒有見過一個系統的、基於資料的方法來回答這個問題。所以我想通過建模來解釋「哪些因素可以提高資料科學家的市場價值」。有些你可能已經瞭解,但有些可能真的有助於你加薪呢~
完整研究報告及程式碼地址:
https://www.kaggle.com/andresionek/what-makes-a-kaggler-valuable
根據資料估計薪酬
我們只能做這種研究,因為 Kaggle 已經發布了其第二次年度機器學習和資料科學調查的資料。該調查於 2018 年 10 月展開,耗時一週,共獲得 23859 份回覆。結果包括一些原始資料,如什麼人在研究資料、不同行業中機器學習的情況、新資料科學家進入該領域的最佳方式。
有了這些資料,我們想了解影響 Kaggler 薪酬的因素(我們把回覆調查的人稱之為 Kaggler)。我們想讓你瞭解什麼對市場更有價值,這樣你就可以停止把時間花在投資回報率(ROI)低的事情上,並加速獲得更高的報酬。根據這些從資料中提煉出來的見解,我希望你有一天能夠像 Babineaux 一樣——躺在錢堆上。
Huel Babineaux,《絕命毒師》和《風騷律師》中的角色。圖源:AMC
在進入正題之前,我們可以先做一些基本的探索性資料分析(EDA)。首先看一下大家的薪水↓↓
資料:Kaggle 第二次年度機器學習和資料科學調查。圖表:作者
薪酬主要集中分佈在較低的水平範圍內(每年 1 萬美元),在 10 萬美元左右還有另一個高峰。很多學生也填寫了這份調查問卷,看看他們賺多少?
資料:Kaggle 第二次年度機器學習和資料科學調查。圖表:作者
不出所料,學生們賺得不多,因為他們還沒有正式工作。既然如此,我們可以把學生從資料中剔除並確定收入前 20% 的 Kaggler 薪酬是多少。
資料:Kaggle 第二次年度機器學習和資料科學調查。圖表:作者
根據這些資料,我們定義了用於建模的目標變數,如下:
我們將計算一個 Kaggler 年收入超過 10 萬美元的概率。
資料科學中的性別不平衡
在繼續建模之前,我想告訴你的是,在收入最高的 20%Kaggler 中存在性別不平衡,但是其餘的 80% 中不存在這種現象。這意味著男性高管的薪資要高於女性。如下圖所示:
資料:Kaggle 第二次年度機器學習和資料科學調查。圖表:作者
預測模型
為了建立模型,我們從 29 個問題中提取了 138 個可以解釋高薪的特徵。經過一定的資料清洗之後,我們運行了 Logistic 迴歸 和 隨機森林 模型。
經過評估,我們發現 Logistic 迴歸表現更好。該模型在提取特徵係數方面也具有優勢。這可以幫助我們理解每個特徵對(收入最高的 20%Kaggler)最終結果有何貢獻。我們做了欠取樣、 交叉驗證 及 網格搜尋 ,程式碼見完整版調查報告。
### -- ### -- LogisticRegression -- ### -- ### MODEL PERFORMANCE ON TEST DATA* Accuracy:0.8167438271604939 AUC:0.8963917030007695 Confusion Matrix: [[1817411] [64300]] Type 1 error:0.18447037701974867 Type 2 error:0.17582417582417584
模型效能:薪水前 20% 和後 80% 的預測分數。資料:Kaggle 第二次年度機器學習和資料科學調查。
幫你加薪的幾個方法
選擇特徵之後,我們的模型總共有 124 個特徵。從它們的係數我們總結了幾點幫你加薪的建議。
我們模型的截距是 0。這意味著每個人都是從 0 分開始的。接下來你可以在你分數的基礎上加分或減分,這取決於你針對每個問題給出的答案。
-
正係數:係數為正表示肯定的答案有助於你擠進前 20%
-
負係數:係數為負表示肯定的回答不利於你擠進前 20%
模型係數。資料:Kaggle 第二次年度機器學習和資料科學調查。圖表:作者
學生身份可能是挫敗感強、薪水低的一個原因。走出學校門找份工作吧!做一名資料科學家很不錯,但軟體工程師薪水更高。為什麼不去做一名 B 型資料科學家(注:B 型資料科學傢俱有很強的程式設計能力,可能是經過訓練的軟體工程師。詳見: https://medium.com/@jamesdensmore/there-are-two-types-of-data-scientists-and-two-types-of-problems-to-solve-a149a0148e64 )並將模型部署到生產中呢?
模型係數。資料:Kaggle 第二次年度機器學習和資料科學調查。圖表:作者
如果想致富,不要再待在學界/教育界了。從完整的 EDA 調查中可以看出,與其它領域相比,學界/教育界的平均薪水最低,模型的係數也佐證了這一點。作為對資料科學的未來最重要的領域之一,學界/教育的平均薪資水平居然最低,這讓人非常沮喪。如果你想多賺點錢,投身計算機/技術行業有利於你擠進薪水的前 20%。
模型係數。資料:Kaggle 第二次年度機器學習和資料科學調查。圖表:作者
顯然,經驗越豐富,賺得就越多。所以看開點,你不太可能憑藉兩年經驗就成為收入前 20% 的 Kaggler 之一。
模型係數。資料:Kaggle 第二次年度機器學習和資料科學調查。圖表:作者
說到活動,試著構建原型或機器學習服務。探索機器學習在新領域的應用並利用它來改進產品或工作流,這也是離年入 10 萬美元更近一步的方法。
另一方面,如果你的工作主要是運用商業智慧來分析和理解影響產品或商業決策的資料,那就不要期望高薪了。執行資料基礎架構也是如此。
使用雲端計算服務!習慣使用 AWS 或其它領先的雲供應商,如谷歌或微軟。
模型係數。資料:Kaggle 第二次年度機器學習和資料科學調查。圖表:作者
有些機器學習框架可能會增加你的市場價值。學習並使用 SparkMLlib、Xgboost、TensorFlow 會讓你的簡歷更有分量。
模型係數。資料:Kaggle 第二次年度機器學習和資料科學調查。圖表:作者
說到可能會增加薪酬的資料型別,不妨試著學學時間序列(Time Series)和地理空間資料(Geospatial Data)。所有人都在用數值型資料(Numerical Data),所以先學好基礎資料,如果你想獲得高薪,那就去學習更高階的資料型別。
模型係數。資料:Kaggle 第二次年度機器學習和資料科學調查。圖表:作者
原文連結: https://towardsdatascience.com/what-makes-a-data-scientist-valuable-b723e6e814aa