Kaggle 2018社群調研出爐:女性從業者比例降低,00後登上歷史舞臺!
不管是初學者還是大魔王,只要浸潤過資料科學和機器學習界,那麼對於Kaggle一定不陌生。各路英豪在這個平臺上實戰練習、膜拜大神、打怪升級,用某個媒體人的一句話,“簡而言之, Kaggle 是玩資料、機器學習的開發者們展示功力、揚名立萬的江湖。 ”
Kaggle之所以成為繼Deepmind之外,谷歌收購的另一家震動業界的企業,得益於其對於競賽平臺和社群運營的專注:活躍使用者基數大(具體資料從50萬到100萬仍有待確認)、粘性強。
每年,基於自己龐大的資料科學使用者,Kaggle社群都會進行一場問卷調研來了解社群發展,其結果對於整個資料科學以及機器學習領域的發展都是一次很好的反饋。上個月,2018年的Kaggle調研《2018 Kaggle機器學習和資料科學調研》順利完成併發布,一起來看看今年機器學習和資料科學領域有哪些新的變化。
右側顯示了資料來源
本次調研涉及使用者資訊、工作習慣、資料使用行為、資料分析工具、資料偏見演算法黑盒倫理問題等各方面的50個問題,共回收有效問卷23859份。
除了問卷本身,結合一些其他相關資訊和視覺化,我們可以得到一些有趣的故事。
是的,女性從業者還在減少!
在上圖中,我們設計資料視覺化,使用了超級英雄的主題風格,其中,#batman(代表男性)和#wonderwoman(代表女性)
在這一領域,男多女少的問題一直存在,且並沒有得到改善。
Kaggle 2015 年的調查顯示,資料科學崗位中女性所佔的比例只有26%,而在2018年的調研中,女性填寫者的佔比僅為16.8%。相比三年前,女性從業者的比例下降了。
儘管調研結果和資料科學從業者的真實性別構成仍有一定偏差,但是這一結果還是從一定程度反映了,在技術領域女性角色的缺失。
這顯然並不是一件好事情。福布斯雜誌甚至認為,女性比例的失衡導致了女性視角缺失,進而產生一些“盲點”,這是導致類似2018年穀歌大規模罷工等極端事件發生的重要原因。
00後登場,90後資料科學家佔主力
上圖展示了Kaggle使用者的年齡分佈情況。將條形圖分解和重構成可用知識的一種方法是減少它們的數量,並以熟悉的形式將它們分組。
資料從業者的年齡普遍比較小,從調研資料來看,問卷填寫者中佔比最高的為25-29歲的年齡段;18-21歲的從業者也開始佔據重要比重。也就是說,至少在資料科學界,00後已經開始登上舞臺。
比如今年9月份,17歲的英國高中生Mikel Bober-Irizar就成為了Kaggle史上最年輕的Grandmaster,並且自己透露相關知識都來自自學。
是的,資料科學家很有錢!
問卷問題:你的年收入是多少?
將2018年調研結果與全球收入水平一起對比可以發現,23%受訪者躋身全球財富榜的前1%!
其實,在美國,只有躋身1%的精英階層,每年的收入才超過42 萬美元。大約有23%的受訪者認為他們達到了這個水平。
此外,大約6%的人隸屬全球財富排行前10%,在美國,10%人群的收入大約是166000美元。
然而,這些數字反映的是美國家庭收入的水平。在全球範圍內,躋身前1%的年收入大概是3.2萬 。有60%的受訪者躋身前1%。60%與1%差距甚大,所以在全球範圍內,這個資料並不足以支援包容性的論斷,因為它並沒有反映全域性分佈情況。
Kaggle競賽冠軍最常用的機器學習框架
根據調研結果,Kaggle使用者最長使用的機器學習框架是Sci-Kit,佔據了48%的份額,TensorFlow佔據了16%,緊隨其後的Keras佔據了14%。
而對於資料分析來說,多數從業者推薦你從Python開始學習,遠高出排名二三的R、SQL佔比。
金磚國家正成為社群新生力量發源地
新興的資料科學家主要來自哪裡?1145名新受訪者被認定為“資料精簡主義者”,其中2018年增加了100多個國家的問卷填寫者,分別來自美國、印度、中國、俄羅斯、巴西等地區。
將這些國家按經濟水平劃分(美國、歐洲、金磚四國和世界其它地區)更有意義。從上圖可以看到,金磚四國不僅以2018年總增長率的42%為增長貢獻最大,而且是三大經濟體中增長最快的。2018年,在“定義自己為資料科學家的使用者”類別中,歐洲增加了302個使用者,美國131個,世界其他地區231個,金磚四國:481個。關於增長率,根據預測,2020金磚國家將超過歐洲和美國的總和。
新加坡Kaggle使用者佔比最多,美國被擠出TOP5
盡看各國使用者數似乎並不能說明該國的資料科學家有多流行。
當我們將這個國家的問卷填寫人與該國人口進行比例運算時,可以看到一個更有意義的排行榜:資料科學家流行率。
問卷用紅色標示頂級國家,新加坡、以色列佔據冠亞軍,用黑色標示美國(最大的調查社群所在地),僅佔第六位。
-
US 均值: 0.14 per 10,000
-
EU6 均值*: 0.09 per 10,000
-
BRICS 均值*: 0.03 (5x less than US)
從圖中,我們可以看出:美歐差距約為50%。然而,英國意味著接近EU6的平均值,而不是美國的平均值。這是否意味著我們放棄語言障礙作為解釋差距的因素?注:金磚四國和歐盟6的平均值是國家平均值,不由受訪者加權。
另外,在這個部分的視覺化部分可以聊聊審美思考:這個配色方案叫做灰紅配色,這是非常棒的圖表配色方案。不像其他的方案,如灰色-灰色,它是中性的。然而,為了使它呈現好的視覺效果,紅色表面儘可能小,否則會產生喧賓奪主的視覺效果。灰色-灰色的方案沒有這個限制。然而,灰色-紅色有一個祕密優勢。通常,在圖表中使用三種顏色會造成混亂,但是因為紅色和任何灰色陰影之間的色度距離都很大,所以我們可以通過使用黑色(作為灰色的85%)作為第三種顏色來避免混亂的折衷。
創新水平(~80% 的相關性)
每年,Insead、Cornell和Wipo都會發布當年的全球創新指數。2018年,當選最具創新力的國家是Switzerland。依據Spearman相關係數計算結果顯示,指數和使用者流行(User Prevalence)之間的相關度達到了79%。
使用均值迴歸進行預測
上圖添加了一條迴歸直線。灰色部分表示95%的SE水平。不同的國家分佈在直線的上下方。被紅色特別標註的國家是日本,作為一個“離群點”,有著很高的創新水平(y)經濟發展水平(x)卻比較低。在這裡,應用均值迴歸的準則我們會發現,彷佛有一隻看不見的手推動著這些國家朝著均值(圖中虛線部分)的方向靠近。
視覺化支援方面
上圖顯示了最常用的視覺化工具。這是著名的圖表模板Marimekko和符號圖表Shiva House的組合。象徵意義:柱子,即在支撐社群視覺化努力(屋頂負荷)方面的力度。“列”的寬度表示每個列支援多少工作/負載。右邊的灰色列表示其他不太主流的庫,如:D3、Shiny、bokeh、Leaflet、Lattice。
最後,感興趣的讀者可以戳下邊的連結獲取完整的Kaggle 2018調研結果和相關資料哦:point_down:
https://www.kaggle.com/paultimothymooney/2018-kaggle-machine-learning-data-science-survey