1. 程式人生 > >史上最全機器學習資源整理

史上最全機器學習資源整理

機器學習資源浩如煙海,本文對機器學習資源做了相關整理,希望大家能夠根據自己的細分研究領域,著重關注某些學習資源。可能某幾個網頁連結打不開,那說明需要“科學”上網。

機器學習也是一門實踐學科,最好的學習就是不斷的實踐,推薦 BigQuant 人工智慧量化投資 一站式的python+機器學習+量化投資平臺,開啟瀏覽器就可以使用投資資料和機器學習演算法。

書籍

course

python庫

  • BigQuant -人工智慧量化投資平臺 python + 機器學習 + 量化投資 一站式學習實踐交易平臺,開啟瀏覽器就可以使用投資資料和機器學習演算法。

  • MLlib in Apache Spark:Spark下的分散式機器學習庫。官網

  • scikit-learn:基於SciPy的機器學習模組。官網

  • graphlab-create:包含多種機器學習模組的庫(迴歸、聚類、推薦系統、圖分析等),基於可以磁碟儲存的DataFrame。官網

  • BigML:連線外部伺服器的庫。官網

  • pattern:Python的web挖掘模組。官網

  • NuPIC:Numenta公司的智慧計算平臺。官網

  • Pylearn2:基於Theano的機器學習庫。官網

  • hebel:Python編寫的使用GPU加速的深度學習庫。官網

  • gensim:主題建模工具。官網

  • PyBrain:另一個機器學習庫。官網

  • Crab:可擴充套件的、快速推薦引擎。官網

  • python-recsys:Python實現的推薦系統。官網

  • thinking bayes:關於貝葉斯分析的書籍。官網

  • Restricted Boltzmann Machines:Python實現的受限波爾茲曼機。官網

  • Bolt:線上學習工具箱。官網

  • CoverTree:cover tree的Python實現,scipy.spatial.kdtree便捷的替代。官網

  • nilearn:Python實現的神經影像學機器學習庫。官網

  • Shogun:機器學習工具箱。官網

  • Pyevolve:遺傳演算法框架。官網

  • Caffe:考慮了程式碼清潔、可讀性及速度的深度學習框架。官網

  • breze:深度及遞迴神經網路的程式庫,基於Theano。官網

  • TensorFlow:該系統旨在促進對機器學習的研究,同時也讓機器學習研究原型過渡到生產系統更加高效容易。官網

  • Chainer:一個基於 Python 並且獨立的深度學習模型開源框架。官網

資料分析

  • BigQuant:使用機器學習直接開發量化策略的雲端平臺。官網

  • SciPy:基於Python的數學、科學、工程開源軟體生態系統。官網

  • NumPy:Python科學計算基礎包。官網

  • Numba:Python的低階虛擬機器JIT編譯器,Cython and NumPy的開發者編寫,供科學計算使用。官網

  • NetworkX:為複雜網路使用的高效軟體。官網

  • Pandas:這個庫提供了高效能、易用的資料結構及資料分析工具。官網

  • Open Mining:Python中的商業智慧工具(Pandas web介面)。官網

  • PyMC:MCMC取樣工具包。官網

  • zipline:Python的演算法交易庫。官網

  • PyDy:全名Python Dynamics,協助基於NumPy、SciPy、IPython以及 matplotlib的動態建模工作流。官網

  • SymPy:符號數學Python庫。官網

  • statsmodels:Python的統計建模及計量經濟學庫。官網

  • astropy:Python天文學程式庫,社群協作編寫。官網

  • matplotlib:Python的2D繪相簿。官網

  • bokeh:Python的互動式Web繪相簿。官網

  • plotly:Python and matplotlib的協作web繪相簿。官網

  • vincent:將Python資料結構轉換為Vega視覺化語法。官網

  • d3py:Python的繪相簿,基於D3.js。官網

  • ggplot:和R語言裡的ggplot2提供同樣的API。官網

  • Kartograph.py:Python中渲染SVG圖的庫,效果漂亮。官網

  • pygal:Python下的SVG圖表生成器。官網

  • pycascading:官網

paper & survey

A Few Useful Things to Know about Machine Learning Domingos, 2012 介紹了機器學習中12個重要問題和研究人員在機器學習中可能遇到的一些陷進。

Top 10 Algorithms in Data Mining Wu, 2008 本文介紹了IEEE識別的十大資料探勘演算法。2006年12月國際資料探勘會議(ICDM):C4.5,k-Means,SVM,Apriori,EM,PageRank,AdaBoost,kNN,樸素貝葉斯和CART。 這十大演算法是研究界最有影響力的資料探勘演算法之一。

Semi-Supervised Learning Literature Survey Zhu, 2007 這篇文獻主要介紹了半監督學習的相關理論和運用。

Interestingness Measures for Data Mining: A Survey Geng, 2006 這篇文獻主要介紹在資料探勘過程中的一些常用的有趣的資料處理方法,非常實用。

The Boosting Approach to Machine Learning: An Overview Schapire, 2003 這篇文獻主要介紹了AdaBoost演算法理論知識和運用。

Two Faces of Active Learning Dasgupta, 2011 這篇文章介紹了主動學習,有一定的難度。

Supervised Machine Learning: A Review of Classification Techniques Kotsiantis, 2007 這篇文章詳細介紹了監督式機器學習在分類技術中的運用。

Data Clustering: 50 Years Beyond K-Means Jain, 2010 這篇文章簡要概述了聚類,總結了眾所周知的聚類方法,並聚類演算法和關鍵問題、面臨挑戰、聚類研究方向進行了詳細地討論,可以看做是聚類演算法的文獻綜述。

Representation Learning: A Review and New Perspectives Bengio, 2012 是介紹表徵學習的一篇好文。

An Introduction to Variable and Feature Selection Guyon, 2003 這篇文章介紹了關於變數選擇和特徵選擇的相關研究,已經涉及到特徵工程的內容。

A Survey of Dimension Reduction Techniques Fodor, 2002 這篇文章寫道數十年來資料收集和儲存能力的進步導致大多數科學領域的資訊超載。 研究人員在域名工作如工程,天文學,生物學,遙感,經濟學等 消費者交易,能夠收集到越來越多的觀測,傳統的資料分析方法面臨不少挑戰,因此引出了資料降維技術的討論。

Ensemble Approaches for Regression: a Survey Moreira, 2012 本文討論了不同研究領域的綜合迴歸方法。

Survey of Reinforcement Learning in Relational Domains Otterlo, 2005 增強學習的一篇經典論文。

Reinforcement Learning: A Survey Kaelbling, 1996 本文從電腦科學角度對增強學習進行了研究,是一篇有一定歷史的文章。它是為熟悉機器學習的研究人員提供的,有一定難度,但是確實經典。

Time-Series Data Mining Esling, 2012 這篇文章深入介紹了針對時間序列資料 進行資料探勘的相關技術。

A Survey on Transfer Learning Pan, 2010 許多機器學習和資料探勘演算法的一個主要假設是訓練集和測試集資料必須在相同的特徵空間並具有相同的分佈。然而,在許多現實世界的應用中,這種假設可能不成立。因此這正是遷移學習適用的情形,本文詳細介紹了遷移學習的理論和具體運用。

Recent advances in Personalized Recommender Systems Liu, 2009 介紹了個人推薦系統的最新研究成果。

A Review of Machine Learning for Automated Planning Jimenez, 2009 本文迴歸了強化學習並重點回顧了在自動規劃具體問題中使用到的機器學習方法。

A Survey of Evolutionary Algorithms for Data Mining and Knowledge Discovery Freitas, 2003 本章特別討論了進化演算法在資料探勘和知識發現中(重點是分類任務)的使用,尤其是介紹了遺傳演算法和遺傳規劃。

Survey on Frequent Pattern Mining Goethals, 2003 這是一本介紹關聯規則、分類演算法的資料探勘書籍,適合資料探勘的人員閱讀,這個書尤其介紹了以亞馬遜”啤酒與尿布”的例子,並指出資料探勘在商品銷售、產品推薦中的重大價值。

數學知識

《Convex Optimization》

Boyd的經典書籍,被引用次數超過14000次,面向實際應用,並且有配套程式碼,是一本不可多得的好書。

《矩陣分析》 Roger Horn。矩陣分析領域無爭議的經典

《All Of Statistics》 機器學習這個方向,統計學也一樣非常重要。推薦All of statistics,這是CMU的一本很簡潔的教科書,注重概念,簡化計算,簡化與Machine Learning無關的概念和統計內容,可以說是很好的快速入門材料。

《Nonlinear Programming, 2nd》 最優化方法,非線性規劃的參考書,這裡的連結給出的是一本中文翻譯版本,學習起來不是那麼吃力。

Numerical Optimization》 第二版,Nocedal著,非常適合非數值專業的學生和工程師參考,演算法流程清晰詳細,原理清楚。

《Introduction to Mathematical Statistics》 第六版,Hogg著,本書介紹了概率統計的基本概念以及各種分佈,以及ML,Bayesian方法等內容。

《Introduction to Linear Algebra》 (3rd Ed.)

作者Gilbert Strang. 這本書是MIT的線性代數課使用的教材,也是被很多其它大學選用的經典教材。它的難度適中,講解清晰,重要的是對許多核心的概念討論得比較透徹。

部落格 & 網站社群

愛可可愛生活 新浪部落格 聽說博主是北郵的一位教授,部落格主要釋出機器學習、深度學習的最新研究、論文。博主經常凌晨2、3點還在分享乾貨,目前共3.5萬博文,可見作者付出很多心血。勤勞的博主每日還要整理24小時熱門分享和每週精華,小夥伴再也不用擔心錯過好文。

演算法組 新浪微博 博主來自微軟搜尋引擎部門。該微博主要分享資料探勘、大資料、演算法、IT相關資訊。

AndrewNg吳恩達 新浪微博 全球機器學習三大牛人之一

李航博士 新浪微博 《統計學習方法》作者,現為諾亞方舟實驗室主任

南大周志華 新浪微博 國內機器學習方面的大牛,粉絲不多,博文也不經常發。

吳軍博士 新浪微博 《浪潮之巔》、《數學之美》的作者,博主現在的博文偏更多介紹作者新書動態。

劉知遠THU 新浪微博 作者曾經翻譯的《機器學習那些事》值得翻來覆去的研讀,每一次閱讀收穫可能都不一樣

北京大學人工智慧實驗室 新浪微博 該實驗室官方微博,有14萬粉絲

李沐M 新浪微博 為百度職員,導師為現在機器學習界大牛,今年一篇《博士這五年:流水賬、總結感悟》讓人感嘆原來研究生可以念得這麼充實

Physcal大魔導書 機器學習、深度學習研究日常部落格,有不少隨筆和研究教程,適合一遍學習一遍copy程式碼實現,作者介紹了不少相關庫,比如Caffe

“機器學習”是什麼 【“機器學習”是什麼?】John Platt是微軟研究院傑出科學家,17年來他一直在機器學習領域耕耘。近年來機器學習變得炙手可熱,Platt和同事們遂決定開設部落格,向公眾介紹機器學習的研究進展。機器學習是什麼,被應用在哪裡?來看Platt的這篇博文

UFLDL-斯坦福大學Andrew Ng教授“Deep Learning”教程 介紹:本教程將闡述無監督特徵學習和深度學習的主要觀點。通過學習,你也將實現多個功能學習/深度學習演算法,能看到它們為你工作,並學習如何應用/適應這些想法到新問題上。

Understanding Convolutions 這是一篇介紹影象卷積運算的文章,講的已經算比較詳細的了

Awesome Machine Learning 一個超級完整的機器學習開源庫總結

An Introduction to Machine Learning Theory and Its Applications: A Visual Tutorial with Examples 通過圖形視覺化地介紹機器學習的理論很具體運用,適合入門。

Math ∩ Programming 一個關於數學和程式設計知識的主頁

i am trask 該主頁擁有大量神經網路、深度學習的乾貨貼,很多都附帶python程式碼,可以拿來直接執行。

explain my data 作者文章不多,但都是乾貨,文章都是作者實際研究的成果整理,涉及python效能提升、GPU訓練神經網路、scikit機器學習、Spark分散式程式設計框架

Statistical Modeling, Causal Inference, and Social Science - 一個關於統計建模,因果推理和社會科學的部落格,博文偏方法論

Simply Statistics 一個數據科學、統計學的部落格,部落格內容比較務實,經常更新

Home page of Evan Miller 作者是Evan統計工具的創造者,主頁是作者的一些博文和evan文件介紹

Overkill Analytics 資料競賽、資料科學的一個主頁

Peter K. G. Williams 作者是哈佛天文學專業博士後。也對科學研究的基礎設施感興趣,專注於優雅,有根據的資料分析,視覺化和通訊工具。

Blog 博文按年度分類,主要是機器學習、python學習。機器學習包含了文字分析、神經網路、線性判別分析、主成分分析等。

Home - colah’s blog 作者是神經網路、深度學習的行家,對廣義神經網路、迴圈神經網路、卷積神經網路進行了視覺化的講解,特別直觀易懂

This Number Crunching Life 關於行為學預測的一個主頁,裡面有不少社會行為學領域預測的例子

Sebastian Raschka’s Website

作者是Mlxtend(機器學習擴充套件的開發人員,一個用於日常資料科學任務的有用工具的Python庫

DogDogFish 博主在搜尋引擎有一定的研究,博文也是相關方面的

The Etz-Files 博主是貝葉斯統計學派支持者,從事領域為心理學,其博文也是圍繞貝葉斯統計展開,

Publishable Stuff 主頁有貝葉斯資料分析的系列視訊,簡單直觀易理解,適合研究貝葉斯的初學者

Explore Probability with Count Bayesie 從名字可以看出,這是一個關於貝葉斯統計的學習專欄,比較全面。

No Free Hunch Kaggle資料競賽的官方部落格,介紹資料競賽的新聞和資訊

danvk.org 作者是一個軟體工程師,崇尚計算機技術來解決問題。目前在人行道實驗室,以前在Hammerlab和Google。主頁有多個開發專案。

Machine Learning (Theory) 這是一個資源比較豐富的機器學習專欄,文章覆蓋多個領域。

Blog 作者花了很多來維護主頁,主要是關於資料視覺化和機器學習的案例,這些案例比較有趣和實用,比如《如何通過眼球運動進行活躍分類影象分類》、《在有限的預算下計算最佳公路旅行》等

Data School 資料學院,裡面有很多機器學習、資料分析的視訊。

http://allendowney.blogspot.ca/ 這是一個數據分析的部落格,博文例子也是比較有趣,比如《在社交媒體帖子的迴應中是否有季節性?》《藥物使用與抑鬱之間的聯絡》、《大多數恐怖主義是本地的嗎?》

Healthy Algorithms 主頁內容比較雜,包括計算機知識、演算法理論、資料科學

Pete Warden’s blog 關於TensorFlow運用的一個部落格,博文都是乾貨,比如《什麼是GPU?》、《如何用TensorFlow量化神經網路?》、《在微控制器上執行TensorFlow》

http://mrtz.org/blog/ 資料分析和機器學習的一個部落格,每年作者釋出的微博不是很多,但都是個人研究所得。

歡迎補充。
文中提供的網頁連結,均來自於網路,如有問題,請站內告知。

原創出品,轉載請先獲得作者BigQuant人工智慧量化投資平臺同意!