1. 程式人生 > >業界 | 5個步驟開啟你的資料科學職業生涯!(附連結)

業界 | 5個步驟開啟你的資料科學職業生涯!(附連結)

大資料文摘授權轉載自資料派THU

作者:Thomas

翻譯:王雨桐

校對:丁楠雅

資料科學已經成為21世紀最熱門的工作領域,但如何才能成為資料科學家呢?作為一名有抱負的資料科學家,或是準備從事資料科學工作的學生,你應該做好哪些準備?需要什麼技能?不要擔心!本文將會回答以上所有問題,並提供相關的資源連結,幫助你開啟新的職業生涯!

資料科學是一個跨學科的領域,這意味著資料科學家要了解多個領域的知識,併成為不同領域的專家。資料科學家必須在以下方面具備堅實的基礎:

1.電腦科學

2.統計研究(需要紮實的基礎)

3.線性代數

4.資料處理(資料分析的專業知識)

5.機器學習

6.軟體工程

7.Python程式設計

8.R程式設計

9.業務領域知識

為了成為一名高水平的資料科學家,下圖是你需要掌握的一些知識領域:

除非你像鐳射束一樣,將研究集中在這些領域,否則對上圖中的一個或多個主題感到陌生是很正常的。或者你瞭解兩三個主題,但對其餘主題了解甚少。例如,你可能是一名電腦科學專業的學生,掌握數學知識但不瞭解統計研究分析所要求的高階統計知識。或者,你可能是一名有一些程式設計基礎的統計學家。

有很多方法可以幫助你開啟資料科學的職業生涯。其中,你必須做的五件事是:

1.向具有多年經驗的前輩學習Python和R

2.在GitHub上構建資料科學作品集

3.加入Kaggle並參加資料科學競賽

4.練習面試問題

5.做好基本的網路聲譽管理,以提升形象

 

1.向具有多年行業經驗的前輩學習Python和R

行業經驗是無可替代的。比起一位熱心的業餘愛好者(如線上提供的許多課程),擁有5年以上資料科學行業工作經驗的人將是講師的不二人選。學習Python和R是一方面,掌握Python和R是完全不同的事情。如果想在這個行業做得好,需要做到掌握技能,而不僅僅是具備基本能力。一定要確保你的講師具有可靠的行業經驗,因為這種經歷會幫助你拿到頂尖的資料科學公司的offer。相比於擁有相關專業博士學位的學者,從擁有行業經驗的專家那裡會學到最多。

2.在GitHub上構建資料科學作品集

在GitHub上擁有線上作品集(online portfolio)至關重要!

如果你不對學習的內容進行程式設計練習,也沒有將課程應用於實際資料和現實情景,那麼再好的培訓都是無效的。你需要做資料科學專案,並且儘量使你的專案具有吸引力。

GitHub作品集應該遵循以下準則:

  • 使用目標公司正在使用的庫,語言和工具。

  • 使用公司使用的資料集,最好是實際資料。(如果沒有類似scikit-learn提供的學術資料集,可以使用Kaggle來獲取練習資料集。)最好的選擇是APIs程式設計構建的資料集,他們大多來自Twitter,Facebook,維基百科和類似的真實場景。

  • 選擇具有市場價值的問題。不要選擇學術專案,要嘗試去解決現實的行業問題。

  • 在問題定義中要強調創造性和原創性,以及專案作品集所回答的問題。

3.加入Kaggle並參加資料科學競賽

Kaggle.com就是你的訓練場。

如果你準備入手資料科學,立即成為Kaggler吧!或者,如果你更傾向於開發,請加入TopCoder!(TopCoder也有資料科學發展路徑)。Kaggle是公認的資料科學的發源地,因為Kaggle多年來一直舉辦資料科學競賽,並且是國際上所有頂尖資料科學競賽的集合地。收到知名公司offer的最簡單方法之一就是在Kaggle上獲得儘可能高的排名。更重要的是,你可以將自己的表現與行業中的頂級競爭對手進行比較。

4.練習面試問題

現在,很多網站都有資料科學崗位面試中使用的問題集。沒有企業會讓你死記硬背200個面試問題,但他們確實希望你能夠在程式碼(最好是Python)或虛擬碼中解決基本的資料科學和演算法問題。最好還要了解基本概念,例如交叉驗證是什麼,維度的詛咒,過擬合的問題以及在實際場景中如何處理它。此外,你還需要能解釋主要資料科學演算法的內部細節,例如AdaBoost。線性代數,統計學和一些基本的多變數微積分的知識也可以幫助你在競爭中搶佔先機。

5.管理你的網路聲譽

這似乎與資料科學無關,但它是任何求職的基本要求。想想未來的僱主在看到求職者名姓名後的第一件事是什麼?他會先百度這個名字。當搜尋你的名字時,會出現什麼內容?你的網路資料能否承受以下考驗?

  • 在網路搜尋時,你的名字是否有值得警惕的訊號,如任何型別的負面報道或者爭議?

  • 搜尋姓名的條目是否能準確體現個人資料?

  • 你的Facebook,Twitter和Google個人資料是否有不恰當的內容?(例如私密照片)?

  • 可見的搜尋結果能否準確地描述你的技能水平?

如果有以上這些潛在的問題,你可能需要調整自己的網路個人資料。你可以通過部落格文章,成熟的網路評論,甚至為自己建立部落格,向世界展現積極的自己。在如今的這個線上、數字、互聯的世界,這對於求職者來說至關重要。

人才市場上待挑選的產品

在人才市場上,你試圖將自己和你的網路信譽銷售給從未見過你的人,他甚至沒有聽過你的名字。因此,網際網路資料將成為關鍵,以確保你在競爭中搶佔先機。目前許多培訓網站提供的課程,講師都是業餘愛好者或具有不到2年行業經驗的人士。所以,不要滿足於低價課程,在網際網路上,一分耕耘一分收穫。如果這是你理想的職業領域,初期投資肯定會有更多的長期回報。

記得保持終身學習的態度。機器學習和AI是以驚人速度發展的領域。訂閱RSS源和線上資源,讓你瞭解領域的最新發展,這是必須要做的事情。隨時跟進最新的研究最能體現你的卓越追求,這些可以通過Feedly和Inoreader之類的閱讀應用程式輕鬆完成。學習可能是你在大學裡做的事情,但掌握是你一生所追求的目標,別輕易放棄。如果你可以按照文中提到的那樣來完善自己,你一定可以獲得自己理想的工作。最後,再次強調,一定要特別注意在GitHub上的資料科學作品集,可以幫助你在競爭中脫穎而出!

 

相關報道:

https://dimensionless.in/5-steps-to-prepare-for-a-data-science-job/