1. 程式人生 > >【知識學習】如何零基礎入門資料分析

【知識學習】如何零基礎入門資料分析

隨著資料分析相關領域變得火爆,最近越來越多的被問到:資料分析如何從頭學起?其中很多提問者都是商科背景,之前沒有相關經驗和基礎。

我在讀Buisness Analytics碩士之前是商科背景,由於個人興趣愛好,從大三開始到現在即將碩士畢業,始終沒有停下自學的腳步。Coursera和EDX等平臺上大概上過20多門網課,Datacamp上100多門課裡,刷過70多門。這篇文章是想談一談個人的資料分析學習經驗,希望對想要入門這個領域的各位有幫助。

1. 基本工具

學習資料分析的第一步,是瞭解相關工具

Excel

excel至是最基礎的資料分析工具,至今還是非常有效的,原因是它便於使用,受眾範圍極廣,且分析結果清晰可見。

相信大多數人都有使用excel的基本經驗,不需要根據教材去學習了。重點掌握:基本操作的快捷鍵;函式:計算函式、if類、字串函式、查詢類(vlookup和match),一定要熟悉函式功能的絕對和相對引用; 資料透視表功能等。另外,excel可以匯入一些模組來使用,典型的包括資料分析模組,作假設檢驗常用;規劃求解,作線性規劃和決策等問題非常有效。利用這些模組可以獲得很不錯的分析報告,簡單且高效。

SQL

資料分析的絕對核心!大部分資料分析工作都是對資料框進行的,在這個過程中,需要不斷的根據已有變數生成新變數、過濾掉一些樣本還有轉換level。SQL的設計就是為了解決這些問題。其他常用的資料操作工具,包括R語言的資料框、Python裡的pandas,基本都是借鑑了SQL的思想,一通百通。

SQL入門容易,它的語法極其簡單,基本可以說上過一門相關的課或看過一本相關的書就可以瞭解大概,但融會貫通並能夠進行各種邏輯複雜的操作,就需要長時間的錘鍊了。

SQL的學習建議,隨便找一本書或者網課就好,因為主流的課程基本都是一個思路:先講SELECT、WHERE、GROUP BY(配合簡單的聚合函式)、ORDER BY這類單表操作,之後講JOIN進行多表連線。除此之外,必會的基本技能還應該包括WINDOW FUNCTION和CASE WHEN等等。學了基本的內容之後,就是找專案多練,不斷提升。

R/Python

熟練SQL之後,對資料操作方面的內容就得心應手了。接下來更復雜的問題,如搜尋和建模,則需要使用程式語言。

R vs Python

目前最主流的資料分析程式語言就是R和Python,網上遍是關於這兩者的爭論,有興趣的可以簡單看一下,但不用陷入過度的糾結。我個人的經驗來看,熟練兩者其中的任何一個都可以勝任資料分析中的大部分工作,不存在某一個語言有明顯缺陷的情況。

這裡不想大篇幅的比較兩者,但是想簡單的說一下兩者的側重點:

R語言是為了解決統計問題而設計的,因此它有一個很人性化的地方:最大程度的簡化語言,從而讓分析人員忽略程式設計內容,直面數據分析。也因為是統計語言,很多基本的統計分析內容在R裡都是內建函式,呼叫十分便捷。此外,R的報告能力很強,大部分模型庫在訓練模型後都會提供很多細節,也比較容易通過rmd轉換成優美的doc/pdf/html。

Python先是一門general的程式語言,之後才是資料分析工具。初學python,語法肯定是不如R容易理解的。但使用到後來,當越來越多的需要自己定義時,Python的優勢就顯現出來了。另外,Python在資料量大時速度會比較快。

至於先學哪一個,需要結合自己的規劃來看:如果最終兩個都要學,那我毫不猶豫的建議從R開始;如果兩個選一個學的話,我目前傾向於Python,不過如果你確定自己以後只做業務方面的內容,那R可能更好一些。另外,如果有專注的領域的話,那麼要結合自己的領域來定,比如搞投資分析的可以看一看R語言的PortfolioAnalytics庫,大概就明白,說R語言把程式設計簡化專注結果所言非虛。

R語言學習

當然無論入門哪種語言,學習路徑都很重要。R語言的學習建議從基礎資料結構開始,瞭解R中的vector、dataframe和list等結構,對語法有基本的理解。之後建議學習dplyr和ggplot2這兩個庫,兩者分別是資料操縱和視覺化庫,學過之後可以做一些基本的資料專案了。學習平臺首推datacamp,是付費的但絕對物有所值,沒有比邊學邊練更好的學習方式了。此外推薦一本R語言實戰(R in Action),可以當作學習手冊。

Python學習

包括我在內的很多同學都把Coursera上的Python for everyone當作啟蒙教材,這是一門很好的課程,但對於專注資料分析的Python使用者而言,課程沒有提供最完美的學習路徑。學習Python也應該從資料結構開始,list、dictionary、tuple這些資料結構要了解。之後建議學習numpy、pandas和matplotlib,分別是矩陣庫、資料框庫和視覺化庫,基本就算是入門了。學習Python,Datacamp依然是個很不錯的平臺,但是資源不如R豐富。首推一本叫《利用python進行資料分析》(Python for data analysis)的教材,直接傳授資料分析最需要的程式設計技能,熟悉書中的知識基本就可以說學會Python資料分析的基本操作了。

 

2. 描述性分析和統計基礎

瞭解基本工具之後,還要擁有相關的知識才能正式開始資料分析。分析的基礎是統計知識,相信大部分人都學過概率和統計相關的課程,自己基礎是否夠紮實,可以考一考自己:均值/標準差/相關性等指標,各種探索性分析場景用哪種視覺化方法比較好,抽樣分佈/置信區間/假設檢驗,貝葉斯理論等。在這些相關內容沒有徹底熟練之前,建議不要認為自己基礎已經足夠紮實了,這些內容都是值得反覆學習的。另外,可以結合資料分析工具來學習,比如用R或Python進行雙均值假設檢驗(當然這裡是手寫而不是呼叫函式),對理解程式設計和理解統計都有幫助。

這裡推薦《深入淺出統計學》和《深入淺出資料分析》兩本書,可以作為入門,也可以作為複習,當然如果統計背景比較深,沒必要看了,太基礎了。也推薦Coursera杜克大學的Statistics with R,前三門課質量都比較高,需要有R的基本知識,可以邊學統計邊練R。

描述性分析真的很重要,這裡需要再強調一下。如果真的想做資料分析,尤其是業務導向的資料分析,建議一定要重視這部分。平時做專案也是一樣的,拿到資料後先徹底的理解資料,不要急著往模型裡放。

 

3. 機器學習

終於到了機器學習,我猜對於很多資料分析學習者,機器學習是本質目的。機器學習是有不同種學法的:對於業務資料分析者,瞭解各類模型的使用場景、優劣勢,基本就足夠了;對於偏資料科學和挖掘的人員來說,要深入理解每一種模型,至少得寫出推導步驟;更深入的演算法導向人員,還要有從頭實現演算法的能力。這篇文章的目標讀者主要是第一類和第二類。

學習機器學習模型可以從理解模型和實現兩個方向入手,目前主流的實現工具還是R和Python。Datacamp上有很多用R和Python進行機器學習的課程,看了之後基本可以瞭解機器學習模型在做什麼,平時的應用場景大概怎樣。流行的模型一定要理解,像邏輯回、支援向量機(核函式)、k鄰近、樸素貝葉斯、整合學習模型(隨機森林和各類boosting)都是很常用的模型;bias-variance tradeoff、標準化、正則化、交叉檢驗、重取樣,這些概念也要了解。

如果想進一步深入的去理解模型細節,那麼微積分和線性代數是必要的先修課,否則無法繼續進行了。當然如果決定進一步學習細節,需要看更多的教材,上一些相關課程。

網上的相關課有很多,目前最火爆的肯定是Coursera Andrew Ng的機器學習。這門課也是我的入門課,確切的說我第一次學這門課的時候,甚至還不會調包,也不太會程式設計,就跟著一步一步做,很艱難的完成了作業。做到神經網路那部分,當時實在寫不出來,去網上找答案看。到現在,這門課我應該看過有五遍了,基本上每隔幾個月重新看一下都有新的收穫。

Coursera還有另一系列的機器學習課來自華盛頓大學,質量也很高,課程用Python(缺陷是使用的庫不是pandas和sklearn,而是授課者自己開發的庫),很大一部分內容是手寫模型,很有助於打好基礎。此外,因為這是一系列課,所以覆蓋範圍要比Andrew Ng的課廣一些,迴歸問題、分類問題、非監督問題,都單獨成為一門課程。

很多機器學習的教材寫的也不錯,比如An Introduction to Statistical Learning(ISL)和Machine Learning with R,兩者都是講模型的數學推導,並用R語言實現。

機器學習確實是很深奧的東西,如果時間允許建議經典的課程和教材都看一看,有的課甚至可以多看幾遍。

4. 更進一步

如果以上內容都比較紮實的完成,可以說能夠進行大部分專案了,也對資料分析有著很成體系的理解。之後可以結合自己的需求,深入學習更多的內容,或者結合實際專案練習。嘗試著找一些完整的專案去做,比如說kaggle就是很不錯的平臺,會提供資料集進行使用。kaggle的入門賽也做的很好,簡單易懂,讓新人不會太迷茫。

如果有額外興趣的話,還是有很多更深奧的東西值得學習的,比如深度學習範圍的內容或者大資料的相關技術等。

5. 結尾的話

很多人在入門資料分析時候都會問:我從零開始,多久能學會機器學習?其實取決於你怎麼理解會,如果從頭學python,到能使用sklearn調出機器學習模型,大概一個月就完成了。但深入的去理解以上內容,確實不是一年半載能完成的。

我見過很多人追求速成,也確實速成了。遇到專案基本就是把資料導進來,不做特徵處理,然後調出各種模型(其中不乏像神經網路和boosting這種比較高階的模型),每個用預設引數試一次,看看效果。然而資料分析沒那麼簡單,也沒那麼fancy。做一個專案,80%的時間都在準備,涉及到許多資料清理和操作,其中的一些東西是任何教材和課程都無法傳授的。

還是更建議一步一個腳印的去學習,邊學邊做、邊學邊想,記好學習筆記,並定期總結學習心得。打好基礎不可急於求成,才是學習的最好途徑。

 

如果覺得這篇文章對你有幫助,請把文章推薦給你身邊的朋友!我還是要推薦下我自己建立的大資料資料分享群142973723,這是大資料學習交流的地方,不管你是小白還是大牛,小編都歡迎,不定期分享乾貨,包括我整理的一份適合零基礎學習大資料資料和入門教程。