1. 程式人生 > >細數資料科學團隊中的十大關鍵角色

細數資料科學團隊中的十大關鍵角色

作者 Cassie Kozyrkov 編譯 Mika 本文為 CDA 資料分析師原創作品,轉載需授權

應用資料科學是一項高度跨學科的團隊工作,需要用多樣性的角度看問題。事實上,比起專業知識和經驗,觀點和態度的重要性也不容小覷。以下是我對資料科學團隊構成的看法。

1. 資料工程師

首先在進行資料分析之前,我們需要獲取資料。如果是處理小型資料集,資料工程則有點類似在電子表格中輸入數字;如果是處理更復雜的資料時,那麼資料工程本身就構成了一門複雜的學科。首先你的團隊中需要資料工程師獲取資料,從而其他人員能夠在此基礎上進行分析和處理。

2. 決策者

在聘請資料科學家之前,請確保團隊中有充分了解資料驅動決策的角色。決策者需要分辨哪些決策需要資料支援,並根據對業務的潛在影響確定分析程度。同時決策者需要深思熟慮,在做決定前進行全方位的思考,考慮到問題的方方面面。

3. 資料分析師

每個人都能檢視資料,並從中得出見解,唯一可能缺少的是相關軟體的使用技能。 學習使用R和Python等工具是對資料視覺化的升級,這些工具功能更豐富,從而能夠檢視更多種類資料集。 要記住,你不應該得出資料之外的結論,這需要專業培訓。就像根據上面的圖片,你只能說“這就是我的資料集中的內容”,而不能輕率的得出結論,尼斯湖水怪是真實存在的。

4. 專家分析師

專家分析師需要更快地檢視分析資料。這裡注重的是分析資料、探索和發現等技能,而不是嚴謹地得出結論。專家分析師能夠幫助團隊注意更多的資料,從而決策者能夠更清晰地做出判斷。 但最好不要讓能編寫強大程式碼的工程師擔任這個角色,因為在這方面速度就是一切,需要儘快得出更多分析結論。因此對程式碼要求過高的人很難勝任這個角色。 在這裡插入圖片描述

5. 統計學家

到這個階段,團隊中已經有人對資料進行大膽探索了,下面需要有人能在探索中加入理性分析,避免團隊得出無根據的結論。 例如,如果你的機器學習系統能應用於某個資料集,那麼你能得出結論,在該資料集中這個系統是奏效的。那麼能順利用於生產中嗎?能夠進行發行嗎?這時就需要其他技能來處理這些問題,即統計技能。 如果我們想在可觀事實不夠的情況下做出決定,那麼就需要放慢速度並採取謹慎的態度,這部分就需要統計學家。

6. 機器學習工程師

應用人工智慧/機器學習工程師的價值不是在於理解演算法的執行原理,而是能運用這些演算法而不是構建它們(那是研究人員要做的)。他們需要整理程式碼,從而讓其執行在現有的演算法和資料集中。 除此之外,機器學習工程師要能夠應對失敗。大多數時候你不知道自己在做什麼,你通過大量的演算法執行資料,在得到預期結果前會經歷多次的失敗,因此需要能積極地應對失敗。 完美主義者很難成為機器學習工程師,因為要處理的業務問題不像課堂中那樣,你無法事先把握情況,而無法馬上得出預期的結果。你所做的只能反覆迭代,嘗試各種解決方案。 資料是機器學習工程師工作的先決條件,因此在打造資料分析團隊早期,聘請資料分析師是很有必要的。 機器學習工程師在分析過程中還需要進行評估,比如解決方案是否真的適用於新的資料。同時出色的機器學習工程師要明確採用不同方法分別需要多少時間。

7. 資料科學家

資料科學家在前三個角色都能達到專家級別,具有比較全面的能力。因此在資料科學團隊中資料科學家的薪資比較高。對於企業而言,如果在預算內,僱傭資料科學家是不錯的選擇。但如果預算不夠,那麼可以培養現有團隊中擔任單一角色的人員。

8. 資料分析經理/資料科學負責人

資料分析經理兼備了資料科學家和決策者的作用,在團隊中擔任領導型作用,能夠保持團隊不會迷失方向。 資料分析經理對團隊有很大的促進作用,但是這方面的人才很少。他們經常思考的問題有“如何設計正確的問題;如何做出決定;如何最好地分配人員;什麼值得做;技能和資料是否符合要求;如何確保良好的輸入資料”等。如果你有幸僱用到了資料分析經理,請留住他。

9. 定性專家​​/社會科學家

團隊中的決策者會是傑出領導者、影響者或導航者…但在決策的藝術性和科學性方面並不夠。這時可以讓定性專家促進決策者的工作,並補充他們的技能。 定性專家通常具有社會科學和資料背景,能夠幫助決策者理清想法,多角度進行分析,並將模稜兩可的直覺轉化為經過深思熟慮的指令,以便團隊的其他成員輕鬆執行。比起資料科學家,他們通常更有能力將決策者意圖轉化為具體的指標。

10. 研究人員

許多招聘者認為,在打造資料科學團隊一開始就應該聘用研究人員,但並非如此。在團隊沒有成型時,即使僱傭研究人員也可能並沒有合適的環境來發揮其價值。最好等到團隊發展到一定程度,有合適的裝置資源時再加入研究人員打造新的工具。

其他人員

除了以上提到的角色,資料科學團隊中還可以加入以下角色:

  • 領域專家
  • 倫理學家
  • 軟體工程師
  • 可靠性測試工程師
  • UX設計師
  • 互動式視覺化/圖形設計師
  • 資料收集專家
  • 資料產品經理
  • 專案/專案經理 除了前面提到的十大角色,許多資料科學專案還需要以上人員的參與。他們都有自己主攻的專業領域,在團隊中是很好的補充。

大團隊還是小團隊?

看到這裡你可能會感到壓力,但在具體構建資料科學團隊時可以根據企業的自身情況而定。 這裡可以把應用機器學習類比為開餐廳,如果你想開一家制作創新披薩的大型披薩店,那麼就需要大型團隊。你要決定做什麼菜(角色2),使用哪些食材(角色3和4),在哪裡獲得食材(角色1),如何定製選單(角色6),以及如何對菜品進行測試(角色5)。但如果你的目標只是製作普通的披薩,則不需要這麼複雜,採用已測試過的選單,加上食材就可以開始了。