1. 程式人生 > >[DataAnalysis]資料分析和大資料入門推薦書單

[DataAnalysis]資料分析和大資料入門推薦書單

應該是目前網上能搜到的最全和最靠譜的入門書單了,幾乎零基礎(懂一點高數就可以入門),而且基本上都是我看完的書,有一些我看過完全沒用的比如head first SQL等就不列入在內了。算是了了一直想要彙總書單的一個念想。

一、概率論和數理統計基礎

1、《茆詩鬆概率論和數理統計》前七章(大資料的基礎:概率論和相關的數理統計)

1.1、《商務經濟統計學》

茆詩鬆更偏向嚴謹的論斷和課堂式的學習,比較適合正在學校的或者剛出學校的學生。如果想快速瞭解常用的商用概率論和數理統計知識的話,這本是比較不錯的選擇,該瞭解的概率論和數理統計知識都能在上面找到,甚至作為茆詩鬆的補充都綽綽有餘。

2、線性代數(普通高校教材即可,能理解矩陣的運算、特徵值等思想即可、作為工具書碰上了再翻閱)

二、工具類

1、SPSS

1.1、《應用多元統計分析》-朱建平

這本不僅介紹了常見的資料分析和資料探勘方法的spss操作,比如判別分析、聚類分析、因子分析、相應分析、典型相關分析和多維標度法等。更重要的是介紹了各種方法的背後原理和計算公式。

2、R

2.1、《統計建模與R語言》《R in action》二選一,熟悉R語言的基礎操作

2.2、《機器學習與R語言》 

以例項方式清楚地講解了如何運用R語言進行常用的機器學習方法建模以及相應的調參,機器學習方法包括:近鄰分析、樸素貝葉斯、決策樹、線性迴歸、神經網路、支援向量機、關聯規則、k均值聚類等。而且包括模型效能的評價和提高模型效能的方法等。

3、Python

Python作為未來一階段內主流的語言,無論是作為爬蟲、資料探勘還是處理資料都是相當強大的工具。

3.1、《python程式設計-從入門到實踐》

零基礎的完美級入門教材,從基礎語法到製作一個遊戲再到web應用程式,perfect。

3.2、《利用python進行資料分析》 

日常資料處理和熟悉python不同資料分析的包

3.3、《機器學習實戰》

用python作機器學習,會比R能實現的功能更多

3.4、《從零開始學python網路爬蟲》

爬蟲是網際網路分析必備技能

4、excel

不必專門買書了,常用的功能和函式即可。

常用的聚合函式、vlookup函式和資料透視表,養成良好的資料分析習慣。比如sheet1存放raw_data、sheet2存放加工資料和sheet存放視覺化圖表等。總之excel作為R/Python的補充還是相當有必要的。

5、SQL

5.1、計算機等級考試的二、三級

花一週半的時間看完並且通過即可,那兩本書和真正的商業應用比較脫節,不過作為SQL的入門還是比較不錯的,可以讓你短時間內熟悉Sql的方方面面,經常有人買了SQL的入門書籍半年後還是隻會寫簡單的"select * from table_name limit 1;"。

5.2、《HIVE程式設計指南》

基本上網際網路公司用的都是hadoop等,有hadoop使用經驗對於找到合適的資料分析實習還是有很大幫助的。

三、資料探勘演算法原理

1、《資料探勘導論》

不僅有資料預處理的一些介紹,還包括常用的資料探勘方法原理。

2、《機器學習》

大名鼎鼎的西瓜書。

3、《統計學習方法》

進階書。

4、《統計學習基礎 資料探勘、推理與預測 》

*高階書。

四、其他書籍,各取所需

1、《Web Analytics》 

網站分析,以資料驅動決策

2、《實用資料分析》

3、根據自己感興趣的方向自己搜相關書籍或者網站

4、資料結構(相當重要但是我暫時還沒看,所以放在四中,應該單獨成一類)