1. 程式人生 > >機器學習/資料探勘, Python 書籍推薦

機器學習/資料探勘, Python 書籍推薦

1. 適合入門的讀物:

《深入淺出資料分析》這書挺簡單的,基本的內容都涉及了,說得也比較清楚,最後談到了R是大加分。難易程度:非常易。

《啤酒與尿布》通過案例來說事情,而且是最經典的例子。難易程度:非常易。

《資料之美》一本介紹性的書籍,每章都解決一個具體的問題,甚至還有程式碼,對理解資料分析的應用領域和做法非常有幫助。難易程度:易。

《數學之美》這本書非常棒啦,入門讀起來很不錯!

2. 資料分析:

《SciPy and NumPy》這本書可以歸類為資料分析書吧,因為numpy和scipy真的是非常強大啊。

《Python for Data Analysis》作者是Pandas這個包的作者,看過他在Scipy會議上的演講,例項非常強!

《Bad Data Handbook》很好玩的書,作者的角度很不同。

3. 適合入門的教程:

《集體智慧程式設計》學習資料分析、資料探勘、機器學習人員應該仔細閱讀的第一本書。作者通過實際例子介紹了機器學習和資料探勘中的演算法,淺顯易懂,還有可執行的Python程式碼。難易程度:中。

《Machine Learning in Action》用人話把複雜難懂的機器學習演算法解釋清楚了,其中有零星的數學公式,但是是以解釋清楚為目的的。而且有Python程式碼,大讚!目前中科院的王斌老師已經翻譯這本書了機器學習實戰 。這本書本身質量就很高,王老師的翻譯質量也很高。難易程度:中。我帶的研究生入門必看數目之一!

《Building Machine Learning Systems with Python》雖然是英文的,但是由於寫得很簡單,比較理解,又有Python程式碼跟著,輔助理解。

《資料探勘導論》最近幾年資料探勘教材中比較好的一本書,被美國諸多大學的資料探勘課作為教材,沒有推薦Jiawei Han老師的那本書,因為個人覺得那本書對於初學者來說不太容易讀懂。難易程度:中上。

《Machine Learning for Hackers》也是通過例項講解機器學習演算法,用R實現的,可以一邊學習機器學習一邊學習R。

4. 稍微專業些的教程:

《Introduction to Semi-Supervised Learning》

半監督學習必讀必看的書。

《Learning to Rank for Information Retrieval》微軟亞院劉鐵巖老師關於LTR的著作,啥都不說了,推薦!

《Learning to Rank for Information Retrieval and Natural Language Processing》李航老師關於LTR的書,也是當時他在微軟亞院時候的書,可見微軟亞院對LTR的研究之深,貢獻之大。

《推薦系統實踐》這本書不用說了,研究推薦系統必須要讀的書,而且是第一本要讀的書。

《Graphical Models, Exponential Families, and Variational Inference》這個是Jordan老爺子和他的得意門徒Martin J Wainwright在Foundation of Machine Learning Research上的創刊號,可以免費下載,比較難懂,但是一旦讀通了,graphical model的相關內容就可以踏平了。

《Natural Language Processing with Python NLP》經典,其實主要是講NLTK這個包,但是啊,NLTK這個包幾乎涵蓋了NLP 的很多內容了啊!

5. 機器學習教材:

《The Elements of Statistical Learning》這本書有對應的中文版:統計學習基礎 。書中配有R包,非常贊!可以參照著程式碼學習演算法。

《統計學習方法》李航老師的扛鼎之作,強烈推薦。難易程度:難。

《Machine Learning》去年出版的新書,作者Kevin Murrphy教授是機器學習領域中年少有為的代表。這書是他的集大成之作,寫完之後,就去Google了,產學研結合,沒有比這個更好的了。

《Machine Learning》這書和上面的書不是一本!這書叫:《Machine Learning: An Algorithmic Perspective》之前做過我帶的研究生教材,由於配有程式碼,所以理解起來比較容易。

《Pattern Recognition And Machine Learning》經典中的經典。

《Bayesian Reasoning and Machine Learning》看名字就知道了,徹徹底底的Bayesian學派的書,裡面的內容非常多,有一張圖將機器學習中設計演算法的關係總結了一下,很棒。

《Probabilistic Graphical Models》鴻篇鉅製,這書誰要是讀完了告訴我一聲。

《Convex Optimization》凸優化中最好的教材,沒有之一了。課程也非常棒,Stephen老師拿著紙一步一步推到,圖一點一點畫,太棒了。

此外

  1. 完成《building machine learning systems with python》書上的所有projects,這本書除了封面其他裡面的內容還是挺實用的。中文書名為 《機器學習系統設計》
  2. 完成kaggle playground和 101上的所有比賽,具體tutorial可以戳
  1. 另外補充一個用scikitlearn構建文字挖掘系統的教程,個人覺得寫的很好,基本上做一遍大概的流程就很清晰了:scikit-learn文字挖掘系統學習(已完成)