1. 程式人生 > >在過去的一年裡,我是如何自學資料科學的?

在過去的一年裡,我是如何自學資料科學的?

 

作者: Harrison Jansma
編譯: Mika
CDA 資料分析師原創作品,轉載需授權

 

在過去的一年裡,我自學了資料科學。我學習了數百個線上資源課程,每天學習6-8個小時,同時還在做一份兼職工作謀生。

我的目標是在缺乏資金的前提下,從事我熱愛的資料科學職業。

在過去幾個月裡,我取得了很多成就。我釋出了自己的網站,並獲得了一個很不錯的電腦科學研究生課程獎學金。

在本文中,我總結了自己是如何自學資料科學的,希望能給你有所幫助,讓你更加順利地開啟自己的資料科學職業生涯。

注意,本文中我所說的“資料科學”指的是,那些將資料轉化為現實行動的工具集合。當中包括機器學習、資料庫技術、統計、程式設計和特定領域技術。

 

資源推薦

網際網路上資源紛亂複雜,試圖從中學習有時會讓人無從下手。

Dataquest,DataCamp和Udacity等網站都提供不錯的資料科學知識。它們都有相應的課程計劃,都能讓你係統地進行學習。

但問題在於,以上這些網站課程太貴了。而且沒有教你如何在工作環境中應用概念,同時還限制你進行自我探索。

edX和coursera上的課程是免費的,並且設有針對特定主題的課程。如果你善於從視訊或課堂環境中學習,這些都是學習資料科學的絕佳方式。

免費線上教育平臺

以下列出了許多不錯的資料科學課程,當中有些課程是免費的。

https://www.class-central.com/subject/data-science

如果你喜歡跟著書學習,那麼可以看到這本教材。

Data Science From Scratch
http://math.ecnu.edu.cn/~lfzhou/seminar/[Joel_Grus]_Data_Science_from_Scratch_First_Princ.pdf

為了讓你更明確在資料科學中需要掌握哪些技能,在下一部分中,我將詳細介紹具體的課程計劃指南。


資料科學課程指南

 

Python程式設計

程式設計是資料科學家的基本技能。你需要熟悉Python的語法,瞭解如何以多種不同的方式執行python程式。(Jupyter notebook VS 命令列 VS IDE)

我花了大約一個月的時間來學習這些Python文件,以及CodeSignal上的程式設計挑戰。

https://docs.python.org/3/tutorial/
https://docs.python-guide.org/intro/learning/

 

統計與線性代數

這是進行機器學習和資料分析的先決條件。如果這方面你有不錯的基礎,建議花一兩個星期來梳理關注概念。

特別注意描述性統計。能夠理解資料集是一項非常重要的技能。

Numpy,Pandas,Matplotlib

學習如何載入、操作和視覺化資料。掌握這些庫對你的個人專案至關重要。

可以檢視相關教程,這些都是我用過的。
http://pandas.pydata.org/pandas-docs/stable/
https://docs.scipy.org/doc/numpy/user/index.html
https://matplotlib.org/tutorials/index.html

請記住,學習這些庫的唯一方法就是使用它們!

機器學習

學習機器學習演算法的理論和應用。然後將學到的概念應用於真實資料上。

大多數初學者會從使用UCI ML Repository的資料集開始,使用資料並瀏覽機器學習教程。

Scikit-learn文件具有出色的演算法應用教程。
http://scikit-learn.org/stable/

生產系統

工作意味著獲取實際資料並將其轉化為行動。為此,你需要學習如何使用業務資源來獲取、轉換和處理資料。

亞馬遜網路服務,谷歌雲,微軟Azure

這是資料科學課程中最基礎的部分。主要是因為你使用的特定工具取決於你要進入的行業。

但是,資料庫操作是必需的技能。你可以在ModeAnalytics或Codecademy上學習如何用程式碼操作資料庫。你還可以在DigitalOcean上實現自己的資料庫。

另一個需要的技能是版本控制。你可以建立GitHub帳戶,並命令列每天提交程式碼來輕鬆獲得此技能。

在考慮學習其他技術時,重要的是認識到你的興趣是什麼。如果你對Web開發感興趣,那麼關注該行業中公司使用的工具。

學習建議

 

1. 學習概念時要有主次

網上的學習資源很多,因此線上學習時很容易走彎路。

當開始研究某個主題時,你需要牢記自己目標。否則你將忘記初衷,被其他的內容吸引注意力。建議有效地整理和儲存資源,從而更專注目前需要掌握的技能。


目前我的Chrome書籤欄

如果你這樣做,你保持有序的學習路徑,將注意力集中在目前應關注的內容,避免分心。

 

2. 不要著急。學習是跑馬拉松,而不是百米衝刺。

如果你要在資料科學領域取得成功,你需要不斷地學習。請記住,學習過程就是回報。

在整個學習過程中,你將探索自己感興趣的內容,你對自己的瞭解越多,你學習的樂趣就越多。

 

3. 學習,應用,重複

不要只學習一個概念,然後學習下一個概念。學習過程不會停止,直到你可以將概念應用於現實情況。


4. 建立個人作品集,向他人展示自己的技能

懷疑主義是你在學習資料科學時將面臨的最大逆境之一。這可能來自其他人,也可能來自你自己。

因此,在學習資料科學時,個人簡歷是很重要的一環。這能讓你找到理想的工作,成為更自信的資料科學家。

在作品集中包含你引以為榮的專案。你是否從頭開始開發過Web應用程式嗎?你有自己的IMDB資料庫嗎?你是否寫過有趣的醫療保健資料資料分析?把這些羅列在作品集中。

這是我的作品集,儲存在GitHub上是一個不錯的選擇,其中可以包含摘要頁面和相關的專案檔案。


5. 資料科學+ ____ =充滿激情的職業

資料科學是能夠改變世界的工具。資料科學的應用是無窮無盡的,因此你需要找到你的興趣所在。

如果你找到自己感興趣的內容,你將更願意投入其中完成專案。

在學習的過程中,請留意那些讓你感興趣的專案或想法。

發現你所熱衷的領域後,你會更系統地學習該領域所需的技能和專業知識。

結論

進入資料科學行業並不容易。為了激勵自己繼續學習,你需要毅力和自控能力。資料科學家需要時刻具有好奇心,並熱衷於尋找答案。