數據分析、挖掘方面 推薦的好書
入門讀物:
- 深入淺出數據分析 (豆瓣) 這書挺簡單的,基本的內容都涉及了,說得也比較清楚,最後談到了R是大加分。難易程度:非常易。
- 啤酒與尿布 (豆瓣) 通過案例來說事情,而且是最經典的例子。難易程度:非常易。
- 數據之美 (豆瓣) 一本介紹性的書籍,每章都解決一個具體的問題,甚至還有代碼,對理解數據分析的應用領域和做法非常有幫助。難易程度:易。
- 數學之美 (豆瓣) 這本書非常棒啦,入門讀起來很不錯!
數據分析:
- SciPy and NumPy (豆瓣) 這本書可以歸類為數據分析書吧,因為numpy和scipy真的是非常強大啊。
- Python for Data Analysis (豆瓣) 作者是Pandas這個包的作者,看過他在Scipy會議上的演講,實例非常強!
- Bad Data Handbook (豆瓣) 很好玩的書,作者的角度很不同。
適合入門的教程:
- 集體智慧編程 (豆瓣) 學習數據分析、數據挖掘、機器學習人員應該仔細閱讀的第一本書。作者通過實際例子介紹了機器學習和數據挖掘中的算法,淺顯易懂,還有可執行的Python代碼。難易程度:中。
- Machine Learning in Action (豆瓣) 用人話把復雜難懂的機器學習算法解釋清楚了,其中有零星的數學公式,但是是以解釋清楚為目的的。而且有Python代碼,大贊!目前中科院的王斌老師(微博:王斌_ICTIR)已經翻譯這本書了 機器學習實戰 (豆瓣)。這本書本身質量就很高,王老師的翻譯質量也很高。難易程度:中。我帶的研究生入門必看數目之一!
- Building Machine Learning Systems with Python (豆瓣) 雖然是英文的,但是由於寫得很簡單,比較理解,又有 Python 代碼跟著,輔助理解。
- 數據挖掘導論 (豆瓣) 最近幾年數據挖掘教材中比較好的一本書,被美國諸多大學的數據挖掘課作為教材,沒有推薦Jiawei Han老師的那本書,因為個人覺得那本書對於初學者來說不太容易讀懂。難易程度:中上。
- Machine Learning for Hackers (豆瓣) 也是通過實例講解機器學習算法,用R實現的,可以一邊學習機器學習一邊學習R。
稍微專業些的:
- Introduction to Semi-Supervised Learning (豆瓣) 半監督學習必讀必看的書。
- Learning to Rank for Information Retrieval (豆瓣) 微軟亞院劉鐵巖老師關於LTR的著作,啥都不說了,推薦!
- Learning to Rank for Information Retrieval and Natural Language Processing (豆瓣) 李航老師關於LTR的書,也是當時他在微軟亞院時候的書,可見微軟亞院對LTR的研究之深,貢獻之大。
- 推薦系統實踐 (豆瓣) 這本書不用說了,研究推薦系統必須要讀的書,而且是第一本要讀的書。
- Graphical Models, Exponential Families, and Variational Inference (豆瓣) 這個是Jordan老爺子和他的得意門徒 Martin J Wainwright 在 Foundation of Machine Learning Research上的創刊號,可以免費下載,比較難懂,但是一旦讀通了,graphical model的相關內容就可以踏平了。
- Natural Language Processing with Python (豆瓣) NLP 經典,其實主要是講 NLTK 這個包,但是啊,NLTK 這個包幾乎涵蓋了 NLP 的很多內容了啊!
機器學習教材:
- The Elements of Statistical Learning (豆瓣) 這本書有對應的中文版:統計學習基礎 (豆瓣)。書中配有R包,非常贊!可以參照著代碼學習算法。
- 統計學習方法 (豆瓣) 李航老師的扛鼎之作,強烈推薦。難易程度:難。
- Machine Learning (豆瓣) 去年出版的新書,作者Kevin Murrphy教授是機器學習領域中年少有為的代表。這書是他的集大成之作,寫完之後,就去Google了,產學研結合,沒有比這個更好的了。
Machine Learning (豆瓣) 這書和上面的書不是一本!這書叫:Machine Learning: An Algorithmic Perspective 之前做過我帶的研究生教材,由於配有代碼,所以理解起來比較容易。
- Pattern Recognition And Machine Learning (豆瓣) 經典中的經典。
- Bayesian Reasoning and Machine Learning (豆瓣) 看名字就知道了,徹徹底底的Bayesian學派的書,裏面的內容非常多,有一張圖將機器學習中設計算法的關系總結了一下,很棒。
- Probabilistic Graphical Models (豆瓣) 鴻篇巨制,這書誰要是讀完了告訴我一聲。
- Convex Optimization (豆瓣) 凸優化中最好的教材,沒有之一了。課程也非常棒,Stephen老師拿著紙一步一步推到,圖一點一點畫,太棒了。
《Doing Data Science: Straight Talk from the Frontline》:Doing Data Science (豆瓣)
作者之一Rachel Schutt本科在密歇根大學學習數學,同時擁有紐約大學數學碩士學位,以及斯坦福大學工程經濟系統和運籌學雙碩士學位,美國哥倫比亞大學統計學博士學位,而後在谷歌研究所擔任統計學專家。Johnson研究實驗室的高級科學家兼創始人之一,目前在哥倫比亞大學講授“數據科學導論”(Introduction to Data Science)課程。她提出了數據科學家的概念即“計算機科學家、軟件工程師和統計學家的混合體。”另一位作者Cathy O’Neil是哈佛大學數學博士,麻省理工學院數學系博士後,目前在華爾街的德劭基金(D.E.Shaw)做quant。(總之是兩個大牛XD)
本書前面幾個章節大致介紹了數據分析法、一些機器學習算法、線性回歸和邏輯回歸、樸素貝葉斯等等。其中有一些內容需要一些數學基礎才能吃透。 第六到十章節是本書的精華,詳細介紹了如何利用金融及社交網絡中的數據進行數據建模分析,值得反復回味。
《Agile Data Science: Building Data Analytics Applications with Hadoop》:Agile Data Science (豆瓣)
本書適合剛入行的數據愛好者以及有兩三年工作經驗數據科學家,作者立誌打造一個full-stack解決方案(包括開發框架、運行環境等,有了它無需再下載別的軟件)來減少前期在數據準備上必須花費的大量時間。此外書中的一些例子放在了GitHub上,建議一邊看書一邊DIY。
- 《Fast Data Processing with Spark》:Fast Data Processing with Spark (豆瓣)
目前市面上關於Spark的書籍不多,這本120多頁的薄書可以當做預熱。Spark同Hadoop一樣是基於Mapreduce算法實現的分布式計算,不同的是任務的中間輸出結果可以保存在內存中無需讀寫HDFS,所以更加適合需要進行反復叠代的機器學習算法實驗。作者Holden Karau曾在亞馬遜數據挖掘項目組,目前是一名在谷歌工作的軟件研發工程師。
《New Internet:大數據挖掘》 —— 是MS的一位資深專家寫的,從算法到工具,再到DM在日誌分析、營銷郵件、電商、移動等業務中的實際應用,內容有較全面的介紹,語言淺顯易懂,作DM領域進門讀物很不錯。並且在每章節後都有提供本章提到的工具或數據來源,方便學習。
《數據挖掘與數據化運營實戰:思路、方法、技巧與應用》—— 這是ALi的一位數據專家寫的,從書名能看出這本偏運營實踐,裏面有很多電商方面的實踐案例。當然也有幾章節概述DM工具和算法,作為入門介紹。
1、誰說菜鳥不會數據分析 (豆瓣) 其實EXCEL在工作中還是大殺器,原因是易傳承,好傳播
2、調查研究中的統計分析法 (豆瓣) 統計學肯定要了解,統計學書都可以的
3、SPSS統計分析精要與實例詳解 (豆瓣) SPSS的內容,我是從這本書開始看的,因為這本書每個方法都有案例,可以直接看案例明白理論的作用,再加上 SPSS官方說明文檔 基本上就夠了
4、數據挖掘與數據化運營實戰 (豆瓣) ali的專家寫的,看了這本書能理解很多方法的適用場景,適用場景和數據解讀能力對於業務能力要求很高。
《數據倉庫工具箱:維度建模的完全指南》
《Microsoft數據倉庫工具箱》
《SQL Server 2008 分析服務從入門到精通》
《SQL Server 2008 報表服務從入門到精通》
另外,推薦以下鏈接:
- 做數據分析不得不看的書有哪些?
- 如何系統地學習數據挖掘?
- 數據挖掘的系統教程是怎樣的,包含哪些教材?
原文地址:知乎
本文轉自鏈接: http://www.zhihujingxuan.com/19146.html進行了重新整理數據分析、挖掘方面,有哪些好書值得推薦
數據分析、挖掘方面 推薦的好書