史上最全機器學習資源整理
機器學習資源浩如煙海,本文對機器學習資源做了相關整理,希望大家能夠根據自己的細分研究領域,著重關注某些學習資源。可能某幾個網頁連結打不開,那說明需要“科學”上網。
機器學習也是一門實踐學科,最好的學習就是不斷的實踐,推薦 BigQuant 人工智慧量化投資 一站式的python+機器學習+量化投資平臺,開啟瀏覽器就可以使用投資資料和機器學習演算法。
書籍
-
《Programming Collective Intelligence》(《集體智慧程式設計》)
作者Toby Segaran也是《BeautifulData : The Stories Behind Elegant Data Solutions》(《資料之美:解密優雅資料解決方案背後的故事》)的作者。這本書最大的優勢就是裡面沒有理論推導和複雜的數學公式,是很不錯的入門書。 -
《數學之美》
作者吳軍大家都很熟悉。以極為通俗的語言講述了數學在機器學習和自然語言處理等領域的應用。 -
《統計學習方法》
作者李航,是國內機器學習領域的幾個大家之一,曾在MSRA任高階研究員,現在華為諾亞方舟實驗室。書中寫了十個演算法,每個演算法的介紹都很乾脆,直接上公式,是徹頭徹尾的“乾貨書”。 -
《機器學習》介紹周志華老師的這本書非常適合作為機器學習入門的書籍,書中的例子十分形象且簡單易懂。
-
《An Introduction to Statistical Learning with Applications in R》
這是一本斯坦福統計學著名教授Trevor Hastie和Robert Tibshirani的新書,並且在2014年一月已經開課: -
《The Elements of Statistical Learning: Data Mining, Inference, and Prediction》
也是一本斯坦福統計學著名教授Trevor Hastie和Robert Tibshirani的書,但是從比較高深的視角講解機器學習。 -
《Pattern Recognition and Machine Learning》
本書從貝葉斯學派的角度,講解機器學習。相信可以從這本書中得到很多很好的見解。 -
《Introduction to Machine Learning》
一本比較精簡的機器學習資料,介紹了很多全面並且基礎的機器學習理論。 -
《Kernel Methods for Pattern Analysis》
SVM等統計學的諸多工具裡都用到了核方法,可以將將低維非線性空間對映到高維的線性空間中,但同時會引入高維資料的難題。 -
《Machine Learning A Probabilistic Perspective》
本書就是一本大雜燴。 這本書涉及的內容很廣,概率圖模型、GLM、Nonparametric Method,甚至最近比較火的Deep Learning也包括了。 -
《Machine Learning》
作者Tom Mitchell是CMU的大師,有機器學習和半監督學習的網路課程視訊。這本書是領域內翻譯的較好的書籍,講述的演算法也比《統計學習方法》的範圍要大很多。據評論這本書主要在於啟發,講述公式為什麼成立而不是推導;不足的地方在於出版年限較早,時效性不如PRML -
《Data Mining: Practical Machine Learning Tools and Techniques》(《資料探勘:實用機器學習技術》)
作者Ian H. Witten 、Eibe Frank是weka的作者、紐西蘭懷卡託大學教授。這本書最大的特點是對weka的使用進行了介紹,作為入門書籍還可,但是,經典的入門書籍如《集體智慧程式設計》、《智慧web演算法》已經很經典,學習的話不宜讀太多的入門書籍,建議只看一些上述兩本書沒講到的演算法。 -
《Brief History of Machine Learning》
這是一篇介紹機器學習歷史的文章,介紹很全面,從感知機、神經網路、決策樹、SVM、Adaboost到隨機森林、Deep Learning. -
《Deep Learning in Neural Networks: An Overview》
這是瑞士人工智慧實驗室Jurgen Schmidhuber寫的最新版本《神經網路與深度學習綜述》本綜述的特點是以時間排序,從1940年開始講起,到60-80年代,80-90年代,一直講到2000年後及最近幾年的進展。涵蓋了deep learning裡各種tricks,引用非常全面. -
《A Gentle Introduction to Scikit-Learn》
這是一份python機器學習庫,如果您是一位python工程師而且想深入的學習機器學習.那麼這篇文章或許能夠幫助到你. -
《Machine Learning is Fun!》
如果你還不知道什麼是機器學習,或則是剛剛學習感覺到很枯燥乏味。那麼推薦一讀。這篇文章已經被翻譯成中文,如果有興趣可以移步 有趣的機器學習:最簡明入門指南 - 文章 - 伯樂線上 -
Choosing a Machine Learning Classifier
我該如何選擇機器學習演算法,這篇文章比較直觀的比較了Naive Bayes,Logistic Regression,SVM,決策樹等方法的優劣,另外討論了樣本大小、Feature與Model權衡等問題。此外還有已經翻譯了的版本:如何選擇機器學習演算法 - 我愛機器學習 -
《A Deep Learning Tutorial: From Perceptrons to Deep Networks》
深度學習概述:從感知機到深度網路,作者對於例子的選擇、理論的介紹都很到位,由淺入深。翻譯版本:深度學習概述:從感知機到深度網路 - xiaowanyer - 部落格園 -
《電腦科學中的數學》
這本書是由谷歌公司和MIT共同出品的電腦科學中的數學:Mathematics for Computer Science,Eric Lehman et al 2013 。分為5大部分:1)證明,歸納。2)結構,數論,圖。3)計數,求和,生成函式。4)概率,隨機行走。5)遞迴 -
《Machine learning in 10 pictures》
Deniz Yuret用10張漂亮的圖來解釋機器學習重要概念:1. Bias/Variance Tradeoff 2. Overfitting 3. Bayesian / Occam’s razor 4. Feature combination 5. Irrelevant feature 6. Basis function 7. Discriminative / Generative 8. Loss function 9. Least squares 10. Sparsity. -
Best Machine Learning Resources for Getting Started
機器學習最佳入門學習資料彙總是專為機器學習初學者推薦的優質學習資源,幫助初學者快速入門。而且這篇文章的介紹已經被翻譯成中文版。如果你不怎麼熟悉,那麼我建議你先看一看中文的介紹 -
《Neural networks and deep learning》
神經網路的免費線上書, 還有對應的開原始碼:mnielsen/neural-networks-and-deep-learning -
《Machine Learning Theory: An Introductory Primer》
機器學習最基本的入門文章,適合零基礎者 -
《Pattern Classification》(《模式分類》第二版)
作者Richard O. Duda[5]、Peter E. Hart、David。模式識別的奠基之作。 -
《Pattern Recognition And Machine Learning》
作者Christopher M. Bishop[6];簡稱PRML,側重於概率模型,是貝葉斯方法的扛鼎之作,據評“具有強烈的工程氣息,可以配合stanford 大學 Andrew Ng 教授的 Machine Learning 視訊教程一起來學,效果翻倍。” -
《The Elements of Statistical Learning : Data Mining, Inference, and Prediction》
作者RobertTibshirani、Trevor Hastie、Jerome Friedman。“這本書的作者是Boosting方法最活躍的幾個研究人員,發明的Gradient Boosting提出了理解Boosting方法的新角度,極大擴充套件了Boosting方法的應用範圍。 -
《AI, Modern Approach 2nd》
Peter Norvig,無爭議的領域經典。 -
《Foundations of Statistical Natural Language Processing》
自然語言處理領域公認經典。 -
《Information Theory:Inference and Learning Algorithms》
7800次引用,在學術界具有極高價值,稍微有點難,書中某些細節介紹地很簡單。 -
《Bayesian Methods for Hackers:Python》
語言概率規劃的電子書。
course
-
斯坦福深度學習課程 介紹無監督功能學習和深度學習的主要思想。本課程理論與實踐相結合,著重介紹實踐中遇到的問題以及如何解決。
-
機器學習視訊庫 視訊由加州理工學院(Caltech)出品。需要英語底子。
-
Artificial Intelligence (Columbia University)) 很全的機器學習課程,老師邏輯很清晰。
-
Machine Learning (Columbia University) 哥倫比亞大學的機器學習課程,理論與實際結合相信可以得到很多的體會。
-
Machine Learning (Stanford University) Andrew Ng的機器學習課程,應該是很多人入門機器學習時候看的視訊吧。
-
Machine Learning Specialization (University of Washington) coursera上機器學習的精品課程,課程講了迴歸問題,分類問題,以及聚類相關問題。只要順利完成課程相信可以得到進步。
-
Machine Learning Course (2014-15 session) (by Nando de Freitas, University of Oxford) 牛津大學機器學習講義,並且將知識拓展到深度學習,講義上都有老師的標註等,讓讀者更好的理解。但是上面程式碼示例都是用的torch,所以要有Lua基礎才行。
-
Learning from Data (by Yaser S. Abu-Mostafa, Caltech)) 加州理工學院Yaser S. Abu-Mostafa教授的機器學習課程, 課程有視訊,對應的講義,課後習題以及課後習題對應的答案。
-
Machine Learning Category on VideoLectures.Net 網站中的機器學習目錄:這是個很容易令人眼花繚亂的資源庫。你可以找出比較感興趣的資源,並且深入學習。不要糾結於不適合你的視訊,或者對於感興趣的內容你可以做筆記。我自己會一直重複深入學習一些問題,同時發現新的話題進行學習。此外,在這個網站上你可以發現是這個領域的大師是什麼樣的。 上面都是機器學習方面造詣很高的大師級人物的課程,相信在課程中邊學邊做,一定可以提高我們對於機器學習的認識。
-
機器學習基石 臺灣大學林軒田老師講解的機器學習,比較好的一點用的是中文。但講的比較難。
-
機器學習技巧 臺灣大學林軒田老師講解的機器學習進階視屏,也是中文課程。
python庫
-
BigQuant -人工智慧量化投資平臺 python + 機器學習 + 量化投資 一站式學習實踐交易平臺,開啟瀏覽器就可以使用投資資料和機器學習演算法。
-
MLlib in Apache Spark:Spark下的分散式機器學習庫。官網
-
scikit-learn:基於SciPy的機器學習模組。官網
-
graphlab-create:包含多種機器學習模組的庫(迴歸、聚類、推薦系統、圖分析等),基於可以磁碟儲存的DataFrame。官網
-
BigML:連線外部伺服器的庫。官網
-
pattern:Python的web挖掘模組。官網
-
NuPIC:Numenta公司的智慧計算平臺。官網
-
Pylearn2:基於Theano的機器學習庫。官網
-
hebel:Python編寫的使用GPU加速的深度學習庫。官網
-
gensim:主題建模工具。官網
-
PyBrain:另一個機器學習庫。官網
-
Crab:可擴充套件的、快速推薦引擎。官網
-
python-recsys:Python實現的推薦系統。官網
-
thinking bayes:關於貝葉斯分析的書籍。官網
-
Restricted Boltzmann Machines:Python實現的受限波爾茲曼機。官網
-
Bolt:線上學習工具箱。官網
-
CoverTree:cover tree的Python實現,scipy.spatial.kdtree便捷的替代。官網
-
nilearn:Python實現的神經影像學機器學習庫。官網
-
Shogun:機器學習工具箱。官網
-
Pyevolve:遺傳演算法框架。官網
-
Caffe:考慮了程式碼清潔、可讀性及速度的深度學習框架。官網
-
breze:深度及遞迴神經網路的程式庫,基於Theano。官網
-
TensorFlow:該系統旨在促進對機器學習的研究,同時也讓機器學習研究原型過渡到生產系統更加高效容易。官網
-
Chainer:一個基於 Python 並且獨立的深度學習模型開源框架。官網
資料分析
-
SciPy:基於Python的數學、科學、工程開源軟體生態系統。官網
-
NumPy:Python科學計算基礎包。官網
-
Numba:Python的低階虛擬機器JIT編譯器,Cython and NumPy的開發者編寫,供科學計算使用。官網
-
NetworkX:為複雜網路使用的高效軟體。官網
-
Pandas:這個庫提供了高效能、易用的資料結構及資料分析工具。官網
-
Open Mining:Python中的商業智慧工具(Pandas web介面)。官網
-
zipline:Python的演算法交易庫。官網
-
PyDy:全名Python Dynamics,協助基於NumPy、SciPy、IPython以及 matplotlib的動態建模工作流。官網
-
SymPy:符號數學Python庫。官網
-
statsmodels:Python的統計建模及計量經濟學庫。官網
-
astropy:Python天文學程式庫,社群協作編寫。官網
-
matplotlib:Python的2D繪相簿。官網
-
bokeh:Python的互動式Web繪相簿。官網
-
plotly:Python and matplotlib的協作web繪相簿。官網
-
vincent:將Python資料結構轉換為Vega視覺化語法。官網
-
d3py:Python的繪相簿,基於D3.js。官網
-
ggplot:和R語言裡的ggplot2提供同樣的API。官網
-
Kartograph.py:Python中渲染SVG圖的庫,效果漂亮。官網
-
pygal:Python下的SVG圖表生成器。官網
-
pycascading:官網
paper & survey
A Few Useful Things to Know about Machine Learning Domingos, 2012 介紹了機器學習中12個重要問題和研究人員在機器學習中可能遇到的一些陷進。
Top 10 Algorithms in Data Mining Wu, 2008 本文介紹了IEEE識別的十大資料探勘演算法。2006年12月國際資料探勘會議(ICDM):C4.5,k-Means,SVM,Apriori,EM,PageRank,AdaBoost,kNN,樸素貝葉斯和CART。 這十大演算法是研究界最有影響力的資料探勘演算法之一。
Semi-Supervised Learning Literature Survey Zhu, 2007 這篇文獻主要介紹了半監督學習的相關理論和運用。
Interestingness Measures for Data Mining: A Survey Geng, 2006 這篇文獻主要介紹在資料探勘過程中的一些常用的有趣的資料處理方法,非常實用。
The Boosting Approach to Machine Learning: An Overview Schapire, 2003 這篇文獻主要介紹了AdaBoost演算法理論知識和運用。
Two Faces of Active Learning Dasgupta, 2011 這篇文章介紹了主動學習,有一定的難度。
Supervised Machine Learning: A Review of Classification Techniques Kotsiantis, 2007 這篇文章詳細介紹了監督式機器學習在分類技術中的運用。
Data Clustering: 50 Years Beyond K-Means Jain, 2010 這篇文章簡要概述了聚類,總結了眾所周知的聚類方法,並聚類演算法和關鍵問題、面臨挑戰、聚類研究方向進行了詳細地討論,可以看做是聚類演算法的文獻綜述。
Representation Learning: A Review and New Perspectives Bengio, 2012 是介紹表徵學習的一篇好文。
An Introduction to Variable and Feature Selection Guyon, 2003 這篇文章介紹了關於變數選擇和特徵選擇的相關研究,已經涉及到特徵工程的內容。
A Survey of Dimension Reduction Techniques Fodor, 2002 這篇文章寫道數十年來資料收集和儲存能力的進步導致大多數科學領域的資訊超載。 研究人員在域名工作如工程,天文學,生物學,遙感,經濟學等 消費者交易,能夠收集到越來越多的觀測,傳統的資料分析方法面臨不少挑戰,因此引出了資料降維技術的討論。
Ensemble Approaches for Regression: a Survey Moreira, 2012 本文討論了不同研究領域的綜合迴歸方法。
Survey of Reinforcement Learning in Relational Domains Otterlo, 2005 增強學習的一篇經典論文。
Reinforcement Learning: A Survey Kaelbling, 1996 本文從電腦科學角度對增強學習進行了研究,是一篇有一定歷史的文章。它是為熟悉機器學習的研究人員提供的,有一定難度,但是確實經典。
Time-Series Data Mining Esling, 2012 這篇文章深入介紹了針對時間序列資料 進行資料探勘的相關技術。
A Survey on Transfer Learning Pan, 2010 許多機器學習和資料探勘演算法的一個主要假設是訓練集和測試集資料必須在相同的特徵空間並具有相同的分佈。然而,在許多現實世界的應用中,這種假設可能不成立。因此這正是遷移學習適用的情形,本文詳細介紹了遷移學習的理論和具體運用。
Recent advances in Personalized Recommender Systems Liu, 2009 介紹了個人推薦系統的最新研究成果。
A Review of Machine Learning for Automated Planning Jimenez, 2009 本文迴歸了強化學習並重點回顧了在自動規劃具體問題中使用到的機器學習方法。
A Survey of Evolutionary Algorithms for Data Mining and Knowledge Discovery Freitas, 2003 本章特別討論了進化演算法在資料探勘和知識發現中(重點是分類任務)的使用,尤其是介紹了遺傳演算法和遺傳規劃。
Survey on Frequent Pattern Mining Goethals, 2003 這是一本介紹關聯規則、分類演算法的資料探勘書籍,適合資料探勘的人員閱讀,這個書尤其介紹了以亞馬遜”啤酒與尿布”的例子,並指出資料探勘在商品銷售、產品推薦中的重大價值。
數學知識
Boyd的經典書籍,被引用次數超過14000次,面向實際應用,並且有配套程式碼,是一本不可多得的好書。
《矩陣分析》 Roger Horn。矩陣分析領域無爭議的經典
《All Of Statistics》 機器學習這個方向,統計學也一樣非常重要。推薦All of statistics,這是CMU的一本很簡潔的教科書,注重概念,簡化計算,簡化與Machine Learning無關的概念和統計內容,可以說是很好的快速入門材料。
《Nonlinear Programming, 2nd》 最優化方法,非線性規劃的參考書,這裡的連結給出的是一本中文翻譯版本,學習起來不是那麼吃力。
《Numerical Optimization》 第二版,Nocedal著,非常適合非數值專業的學生和工程師參考,演算法流程清晰詳細,原理清楚。
《Introduction to Mathematical Statistics》 第六版,Hogg著,本書介紹了概率統計的基本概念以及各種分佈,以及ML,Bayesian方法等內容。
《Introduction to Linear Algebra》 (3rd Ed.)
作者Gilbert Strang. 這本書是MIT的線性代數課使用的教材,也是被很多其它大學選用的經典教材。它的難度適中,講解清晰,重要的是對許多核心的概念討論得比較透徹。
部落格 & 網站社群
愛可可愛生活 新浪部落格 聽說博主是北郵的一位教授,部落格主要釋出機器學習、深度學習的最新研究、論文。博主經常凌晨2、3點還在分享乾貨,目前共3.5萬博文,可見作者付出很多心血。勤勞的博主每日還要整理24小時熱門分享和每週精華,小夥伴再也不用擔心錯過好文。
演算法組 新浪微博 博主來自微軟搜尋引擎部門。該微博主要分享資料探勘、大資料、演算法、IT相關資訊。
AndrewNg吳恩達 新浪微博 全球機器學習三大牛人之一
李航博士 新浪微博 《統計學習方法》作者,現為諾亞方舟實驗室主任
南大周志華 新浪微博 國內機器學習方面的大牛,粉絲不多,博文也不經常發。
吳軍博士 新浪微博 《浪潮之巔》、《數學之美》的作者,博主現在的博文偏更多介紹作者新書動態。
劉知遠THU 新浪微博 作者曾經翻譯的《機器學習那些事》值得翻來覆去的研讀,每一次閱讀收穫可能都不一樣
北京大學人工智慧實驗室 新浪微博 該實驗室官方微博,有14萬粉絲
李沐M 新浪微博 為百度職員,導師為現在機器學習界大牛,今年一篇《博士這五年:流水賬、總結感悟》讓人感嘆原來研究生可以念得這麼充實
Physcal大魔導書 機器學習、深度學習研究日常部落格,有不少隨筆和研究教程,適合一遍學習一遍copy程式碼實現,作者介紹了不少相關庫,比如Caffe
“機器學習”是什麼 【“機器學習”是什麼?】John Platt是微軟研究院傑出科學家,17年來他一直在機器學習領域耕耘。近年來機器學習變得炙手可熱,Platt和同事們遂決定開設部落格,向公眾介紹機器學習的研究進展。機器學習是什麼,被應用在哪裡?來看Platt的這篇博文
UFLDL-斯坦福大學Andrew Ng教授“Deep Learning”教程 介紹:本教程將闡述無監督特徵學習和深度學習的主要觀點。通過學習,你也將實現多個功能學習/深度學習演算法,能看到它們為你工作,並學習如何應用/適應這些想法到新問題上。
Understanding Convolutions 這是一篇介紹影象卷積運算的文章,講的已經算比較詳細的了
Awesome Machine Learning 一個超級完整的機器學習開源庫總結
An Introduction to Machine Learning Theory and Its Applications: A Visual Tutorial with Examples 通過圖形視覺化地介紹機器學習的理論很具體運用,適合入門。
Math ∩ Programming 一個關於數學和程式設計知識的主頁
i am trask 該主頁擁有大量神經網路、深度學習的乾貨貼,很多都附帶python程式碼,可以拿來直接執行。
explain my data 作者文章不多,但都是乾貨,文章都是作者實際研究的成果整理,涉及python效能提升、GPU訓練神經網路、scikit機器學習、Spark分散式程式設計框架
Statistical Modeling, Causal Inference, and Social Science - 一個關於統計建模,因果推理和社會科學的部落格,博文偏方法論
Simply Statistics 一個數據科學、統計學的部落格,部落格內容比較務實,經常更新
Home page of Evan Miller 作者是Evan統計工具的創造者,主頁是作者的一些博文和evan文件介紹
Overkill Analytics 資料競賽、資料科學的一個主頁
Peter K. G. Williams 作者是哈佛天文學專業博士後。也對科學研究的基礎設施感興趣,專注於優雅,有根據的資料分析,視覺化和通訊工具。
Blog 博文按年度分類,主要是機器學習、python學習。機器學習包含了文字分析、神經網路、線性判別分析、主成分分析等。
Home - colah’s blog 作者是神經網路、深度學習的行家,對廣義神經網路、迴圈神經網路、卷積神經網路進行了視覺化的講解,特別直觀易懂
This Number Crunching Life 關於行為學預測的一個主頁,裡面有不少社會行為學領域預測的例子
作者是Mlxtend(機器學習擴充套件的開發人員,一個用於日常資料科學任務的有用工具的Python庫
DogDogFish 博主在搜尋引擎有一定的研究,博文也是相關方面的
The Etz-Files 博主是貝葉斯統計學派支持者,從事領域為心理學,其博文也是圍繞貝葉斯統計展開,
Publishable Stuff 主頁有貝葉斯資料分析的系列視訊,簡單直觀易理解,適合研究貝葉斯的初學者
Explore Probability with Count Bayesie 從名字可以看出,這是一個關於貝葉斯統計的學習專欄,比較全面。
No Free Hunch Kaggle資料競賽的官方部落格,介紹資料競賽的新聞和資訊
danvk.org 作者是一個軟體工程師,崇尚計算機技術來解決問題。目前在人行道實驗室,以前在Hammerlab和Google。主頁有多個開發專案。
Machine Learning (Theory) 這是一個資源比較豐富的機器學習專欄,文章覆蓋多個領域。
Blog 作者花了很多來維護主頁,主要是關於資料視覺化和機器學習的案例,這些案例比較有趣和實用,比如《如何通過眼球運動進行活躍分類影象分類》、《在有限的預算下計算最佳公路旅行》等
Data School 資料學院,裡面有很多機器學習、資料分析的視訊。
http://allendowney.blogspot.ca/ 這是一個數據分析的部落格,博文例子也是比較有趣,比如《在社交媒體帖子的迴應中是否有季節性?》《藥物使用與抑鬱之間的聯絡》、《大多數恐怖主義是本地的嗎?》
Healthy Algorithms 主頁內容比較雜,包括計算機知識、演算法理論、資料科學
Pete Warden’s blog 關於TensorFlow運用的一個部落格,博文都是乾貨,比如《什麼是GPU?》、《如何用TensorFlow量化神經網路?》、《在微控制器上執行TensorFlow》
http://mrtz.org/blog/ 資料分析和機器學習的一個部落格,每年作者釋出的微博不是很多,但都是個人研究所得。
歡迎補充。
文中提供的網頁連結,均來自於網路,如有問題,請站內告知。
原創出品,轉載請先獲得作者BigQuant人工智慧量化投資平臺同意!