1. 程式人生 > >數據分析、挖掘方面 推薦的好書

數據分析、挖掘方面 推薦的好書

hack 亞馬遜 地址 search 系統 歸類 說明文 電商 社交網絡

入門讀物:

  1. 深入淺出數據分析 (豆瓣) 這書挺簡單的,基本的內容都涉及了,說得也比較清楚,最後談到了R是大加分。難易程度:非常易。
  2. 啤酒與尿布 (豆瓣) 通過案例來說事情,而且是最經典的例子。難易程度:非常易。
  3. 數據之美 (豆瓣) 一本介紹性的書籍,每章都解決一個具體的問題,甚至還有代碼,對理解數據分析的應用領域和做法非常有幫助。難易程度:易。
  4. 數學之美 (豆瓣) 這本書非常棒啦,入門讀起來很不錯!

數據分析:

  1. SciPy and NumPy (豆瓣) 這本書可以歸類為數據分析書吧,因為numpy和scipy真的是非常強大啊。
  2. Python for Data Analysis (豆瓣) 作者是Pandas這個包的作者,看過他在Scipy會議上的演講,實例非常強!
  3. Bad Data Handbook (豆瓣) 很好玩的書,作者的角度很不同。

適合入門的教程:

  1. 集體智慧編程 (豆瓣) 學習數據分析、數據挖掘、機器學習人員應該仔細閱讀的第一本書。作者通過實際例子介紹了機器學習和數據挖掘中的算法,淺顯易懂,還有可執行的Python代碼。難易程度:中。
  2. Machine Learning in Action (豆瓣) 用人話把復雜難懂的機器學習算法解釋清楚了,其中有零星的數學公式,但是是以解釋清楚為目的的。而且有Python代碼,大贊!目前中科院的王斌老師(微博:王斌_ICTIR)已經翻譯這本書了 機器學習實戰 (豆瓣)。這本書本身質量就很高,王老師的翻譯質量也很高。難易程度:中。我帶的研究生入門必看數目之一!
  3. Building Machine Learning Systems with Python (豆瓣) 雖然是英文的,但是由於寫得很簡單,比較理解,又有 Python 代碼跟著,輔助理解。
  4. 數據挖掘導論 (豆瓣) 最近幾年數據挖掘教材中比較好的一本書,被美國諸多大學的數據挖掘課作為教材,沒有推薦Jiawei Han老師的那本書,因為個人覺得那本書對於初學者來說不太容易讀懂。難易程度:中上。
  5. Machine Learning for Hackers (豆瓣) 也是通過實例講解機器學習算法,用R實現的,可以一邊學習機器學習一邊學習R。

稍微專業些的:

  1. Introduction to Semi-Supervised Learning (豆瓣) 半監督學習必讀必看的書。
  2. Learning to Rank for Information Retrieval (豆瓣) 微軟亞院劉鐵巖老師關於LTR的著作,啥都不說了,推薦!
  3. Learning to Rank for Information Retrieval and Natural Language Processing (豆瓣) 李航老師關於LTR的書,也是當時他在微軟亞院時候的書,可見微軟亞院對LTR的研究之深,貢獻之大。
  4. 推薦系統實踐 (豆瓣) 這本書不用說了,研究推薦系統必須要讀的書,而且是第一本要讀的書。
  5. Graphical Models, Exponential Families, and Variational Inference (豆瓣) 這個是Jordan老爺子和他的得意門徒 Martin J Wainwright 在 Foundation of Machine Learning Research上的創刊號,可以免費下載,比較難懂,但是一旦讀通了,graphical model的相關內容就可以踏平了。
  6. Natural Language Processing with Python (豆瓣) NLP 經典,其實主要是講 NLTK 這個包,但是啊,NLTK 這個包幾乎涵蓋了 NLP 的很多內容了啊!

機器學習教材:

  1. The Elements of Statistical Learning (豆瓣) 這本書有對應的中文版:統計學習基礎 (豆瓣)。書中配有R包,非常贊!可以參照著代碼學習算法。
  2. 統計學習方法 (豆瓣) 李航老師的扛鼎之作,強烈推薦。難易程度:難。
  3. Machine Learning (豆瓣) 去年出版的新書,作者Kevin Murrphy教授是機器學習領域中年少有為的代表。這書是他的集大成之作,寫完之後,就去Google了,產學研結合,沒有比這個更好的了。

    Machine Learning (豆瓣) 這書和上面的書不是一本!這書叫:Machine Learning: An Algorithmic Perspective 之前做過我帶的研究生教材,由於配有代碼,所以理解起來比較容易。

  4. Pattern Recognition And Machine Learning (豆瓣) 經典中的經典。
  5. Bayesian Reasoning and Machine Learning (豆瓣) 看名字就知道了,徹徹底底的Bayesian學派的書,裏面的內容非常多,有一張圖將機器學習中設計算法的關系總結了一下,很棒。
  6. Probabilistic Graphical Models (豆瓣) 鴻篇巨制,這書誰要是讀完了告訴我一聲。
  7. Convex Optimization (豆瓣) 凸優化中最好的教材,沒有之一了。課程也非常棒,Stephen老師拿著紙一步一步推到,圖一點一點畫,太棒了。

《Doing Data Science: Straight Talk from the Frontline》:Doing Data Science (豆瓣)

作者之一Rachel Schutt本科在密歇根大學學習數學,同時擁有紐約大學數學碩士學位,以及斯坦福大學工程經濟系統和運籌學雙碩士學位,美國哥倫比亞大學統計學博士學位,而後在谷歌研究所擔任統計學專家。Johnson研究實驗室的高級科學家兼創始人之一,目前在哥倫比亞大學講授“數據科學導論”(Introduction to Data Science)課程。她提出了數據科學家的概念即“計算機科學家、軟件工程師和統計學家的混合體。”另一位作者Cathy O’Neil是哈佛大學數學博士,麻省理工學院數學系博士後,目前在華爾街的德劭基金(D.E.Shaw)做quant。(總之是兩個大牛XD)

本書前面幾個章節大致介紹了數據分析法、一些機器學習算法、線性回歸和邏輯回歸、樸素貝葉斯等等。其中有一些內容需要一些數學基礎才能吃透。 第六到十章節是本書的精華,詳細介紹了如何利用金融及社交網絡中的數據進行數據建模分析,值得反復回味。

《Agile Data Science: Building Data Analytics Applications with Hadoop》:Agile Data Science (豆瓣)

本書適合剛入行的數據愛好者以及有兩三年工作經驗數據科學家,作者立誌打造一個full-stack解決方案(包括開發框架、運行環境等,有了它無需再下載別的軟件)來減少前期在數據準備上必須花費的大量時間。此外書中的一些例子放在了GitHub上,建議一邊看書一邊DIY。

  • 《Fast Data Processing with Spark》:Fast Data Processing with Spark (豆瓣)

目前市面上關於Spark的書籍不多,這本120多頁的薄書可以當做預熱。Spark同Hadoop一樣是基於Mapreduce算法實現的分布式計算,不同的是任務的中間輸出結果可以保存在內存中無需讀寫HDFS,所以更加適合需要進行反復叠代的機器學習算法實驗。作者Holden Karau曾在亞馬遜數據挖掘項目組,目前是一名在谷歌工作的軟件研發工程師。

《New Internet:大數據挖掘》 —— 是MS的一位資深專家寫的,從算法到工具,再到DM在日誌分析、營銷郵件、電商、移動等業務中的實際應用,內容有較全面的介紹,語言淺顯易懂,作DM領域進門讀物很不錯。並且在每章節後都有提供本章提到的工具或數據來源,方便學習。

《數據挖掘與數據化運營實戰:思路、方法、技巧與應用》—— 這是ALi的一位數據專家寫的,從書名能看出這本偏運營實踐,裏面有很多電商方面的實踐案例。當然也有幾章節概述DM工具和算法,作為入門介紹。

1、誰說菜鳥不會數據分析 (豆瓣) 其實EXCEL在工作中還是大殺器,原因是易傳承,好傳播

2、調查研究中的統計分析法 (豆瓣) 統計學肯定要了解,統計學書都可以的

3、SPSS統計分析精要與實例詳解 (豆瓣) SPSS的內容,我是從這本書開始看的,因為這本書每個方法都有案例,可以直接看案例明白理論的作用,再加上 SPSS官方說明文檔 基本上就夠了

4、數據挖掘與數據化運營實戰 (豆瓣) ali的專家寫的,看了這本書能理解很多方法的適用場景,適用場景和數據解讀能力對於業務能力要求很高。

數據倉庫工具箱:維度建模的完全指南》

《Microsoft數據倉庫工具箱》

《SQL Server 2008 分析服務從入門到精通》

《SQL Server 2008 報表服務從入門到精通》

另外,推薦以下鏈接:

  • 做數據分析不得不看的書有哪些?
  • 如何系統地學習數據挖掘?
  • 數據挖掘的系統教程是怎樣的,包含哪些教材?

原文地址:知乎

本文轉自鏈接: http://www.zhihujingxuan.com/19146.html進行了重新整理數據分析、挖掘方面,有哪些好書值得推薦

數據分析、挖掘方面 推薦的好書