1. 程式人生 > >最全的國外機器學習資源(下)

最全的國外機器學習資源(下)

集齊上下兩篇,可召喚神龍哦~
為看官奉上機器學習資源——下篇。
最牛B的框架、庫和軟體,至此終於收齊啦!


_________________________________________________________________
一、Matlab

計算機視覺

Contourlets—實現輪廓波變換及其使用函式的MATLAB原始碼
Shearlets—剪下波變換的MATLAB原始碼
Curvelets—Curvelet變換的MATLAB原始碼(Curvelet變換是對小波變換向更高維的推廣,用來在不同尺度角度表示影象)
Bandlets—Bandlets變換的MATLAB原始碼
自然語言處理

NLP—一個Matlab的NLP庫
通用機器學習

Training a deep autoencoder or a classifier on MNIST digits—在MNIST字元資料集上訓練一個深度的Autoencoder或分類器[深度學習]
t-Distributed Stochastic Neighbor Embedding—獲獎的降維技術,特別適合於高維資料集的視覺化
Spider—Matlab機器學習的完整面向物件環境

Spider網址
LibSVM—支援向量機程式庫 libsvm網址
LibLinear—大型線性分類程式庫 libnear網址
Machine Learning Module—M·A·Girolami教授的機器學習課程,包括PDF、講義及程式碼
Caffe—考慮了程式碼清潔、可讀性及速度的深度學習框架 caffe網址
Pattern Recognition Toolbox—Matlab中的模式識別工具包,完全面向物件 PR Tool Matlab 網址
資料分析/資料視覺化

matlab_gbl—處理影象的Matlab包
gamic—影象演算法純Matlab高效實現,對MatlabBGL的mex函式是個補充

_________________________________________________________________
二、.NET

計算機視覺

OpenCVDotNet—包裝器,使.NET程式能使用OpenCV程式碼
Emgu CV—跨平臺的包裝器,能在Windows、Linus、Mac OS X、iOS和Android上編譯
自然語言處理

Stanford.NLP for .NET—斯坦福大學NLP包在.NET上的完全移植,還可作為NuGet包進行預編譯
通用機器學習

Accord.MachineLearning—支援向量機、決策樹、樸素貝葉斯模型、K-means、高斯混合模型和機器學習應用的通用演算法,例如:隨機抽樣一致性演算法、交叉驗證、網格搜尋;這個包是Accord.NET框架的一部分
Vulpes—F#語言實現的Deep belief和深度學習包,它在Alea.cuBase下利用CUDA GPU來執行
Encog—先進的神經網路和機器學習框架,包括用來建立多種網路的類,也支援神經網路需要的資料規則化及處理的類;它的訓練採用多執行緒彈性傳播;它也能使用GPU加快處理時間;它提供了圖形化介面來幫助建模和訓練神經網路
Neural Network Designer—這是一個數據庫管理系統和神經網路設計器;設計器用WPF開發,也是一個UI,你可以設計你的神經網路、查詢網路、建立並配置聊天機器人,它能問問題,並從你的反饋中學習;這些機器人甚至可以從網路蒐集資訊用來輸出,或是用來學習
資料分析/資料視覺化

numl—numl這個機器學習庫,目標就是簡化預測和聚類的標準建模技術
Math.NET Numerics— Math.NET專案的數值計算基礎,著眼提供科學、工程以及日常數值計算的方法和演算法;支援 Windows、Linux和Mac上的 .Net 4.0、.Net 3.5和Mono、Silverlight 5、Windows Phone/SL 8、Windows Phone 8.1以及裝有PCL Portable Profiles 47及344的Windows 8,裝有Xamarin的Android/iOS
Sho— Sho是資料分析和科學計算的互動式環境,可以讓你將指令碼(IronPython語言)和編譯的程式碼(.NET)無縫連線,以快速靈活的建立原型;這個環境包括強大高效的庫,如線性代數、資料視覺化,可供任何.NET語言使用,還為快速開發提供了功能豐富的互動式shell

_________________________________________________________________
三、Python

計算機視覺

SimpleCV—開源的計算機視覺框架,可以訪問如OpenCV等高效能運算機視覺庫;使用Python編寫,可以在Mac、Windows以及Ubuntu上執行
自然語言處理

NLTK—一個領先的平臺,用來編寫處理人類語言資料的Python程式
Pattern—Python可用的web挖掘模組,包括自然語言處理、機器學習等工具
TextBlob—為普通自然語言處理任務提供一致的API,以NLTK和Pattern為基礎,並和兩者都能很好相容
jieba—中文斷詞工具
SnowNLP—中文文字處理庫
loso—另一箇中文斷詞庫
genius—基於條件隨機域的中文斷詞庫
nut—自然語言理解工具包
通用機器學習

Bayesian Methods for Hackers—Python語言概率規劃的電子書
MLlib in Apache Spark—Spark下的分散式機器學習庫
scikit-learn—基於SciPy的機器學習模組
scikit-learn網址

graphlab-create—包含多種機器學習模組的庫(迴歸、聚類、推薦系統、圖分析等),基於可以磁碟儲存的DataFrame
BigML—連線外部伺服器的庫
pattern—Python的web挖掘模組
NuPIC—Numenta公司的智慧計算平臺
Pylearn2—基於Theano的機器學習庫
hebel—Python編寫的使用GPU加速的深度學習庫
gensim—主題建模工具
PyBrain—另一個機器學習庫
Crab—可擴充套件的、快速推薦引擎
python-recsys—Python實現的推薦系統
thinking bayes—關於貝葉斯分析的書籍
Restricted Boltzmann Machines—Python實現的受限波爾茲曼機。[深度學習]
Bolt—線上學習工具箱
CoverTree—Cover tree的Python實現,SciPy、spatial、KDTree便捷的替代
nilearn—Python實現的神經影像學機器學習庫
Shogun—機器學習工具箱
Pyevolve—遺傳演算法框架
Caffe—考慮了程式碼清潔、可讀性及速度的深度學習框架
breze—深度及遞迴神經網路的程式庫,基於Theano
資料分析/資料視覺化

SciPy—基於Python的數學、科學、工程開源軟體生態系統
NumPy—Python科學計算基礎包
Numba—Python的低階虛擬機器JIT編譯器,Cython和NumPy的開發者編寫,供科學計算使用
NetworkX—為複雜網路使用的高效軟體
Pandas—這個庫提供了高效能、易用的資料結構及資料分析工具
Open Mining—Python中的商業智慧工具(Pandas web介面)
PyMC—MCMC取樣工具包
zipline—Python的演算法交易庫
PyDy—全名Python Dynamics,協助基於NumPy、SciPy、iPython以及matplotlib的動態建模工作流
SymPy—符號數學Python庫
statsmodels—Python的統計建模及計量經濟學庫
astropy—Python天文學程式庫,社群協作編寫
matplotlib—Python的2D繪相簿
bokeh—Python的互動式Web繪相簿
plotly—Python和matplotlib的協作web繪相簿
vincent—將Python資料結構轉換為Vega視覺化語法
d3py—Python的繪相簿,基於D3.js
ggplot—和R語言裡的ggplot2提供同樣的API
Kartograph.py—Python中渲染SVG圖的庫,效果漂亮
pygal—Python下的SVG圖表生成器
pycascading
雜項指令碼/iPython筆記/程式碼庫

pattern_classification
thinking stats 2
hyperopt
numpic
2012-paper-diginorm
ipython-notebooks
decision-weights
Sarah Palin LDA—Sarah Palin關於主題建模的電郵
Diffusion Segmentation—基於擴散方法的影象分割演算法集合
Scipy Tutorials—SciPy教程,已過時,請檢視scipy-lecture-notes
Crab—Python的推薦引擎庫
BayesPy—Python中的貝葉斯推斷工具
scikit-learn tutorials—scikit-learn學習筆記系列
sentiment-analyzer—推特情緒分析器
group-lasso—座標下降演算法實驗,應用於(稀疏)群套索模型
mne-python-notebooks—使用 mne-python進行EEG/MEG資料處理的iPython筆記
pandas cookbook—使用Python pandas庫的方法書
climin—機器學習的優化程式庫,用Python實現了梯度下降、LBFGS、RMSprop、adadelta 等演算法

_________________________________________________________________
四、R

通用機器學習

Clever Algorithms For Machine Learning
Machine Learning For Hackers
Machine Learning Task View on CRAN—R語言機器學習包列表,按演算法型別分組
caret—R語言150個機器學習演算法的統一介面
SuperLearner and subsemble—該包集合了多種機器學習演算法
Introduction to Statistical Learning
資料分析/資料視覺化

Learning Statistics Using R
ggplot2—基於圖形語法的資料視覺化包

_________________________________________________________________
五、Ruby

自然語言處理

Treat—文字檢索與註釋工具包,Ruby上見過的最全面的工具包
Ruby Linguistics—這個框架可以用任何語言為Ruby物件構建語言學工具;它包括一個語言無關的通用前端,一個將語言程式碼對映到語言名的模組,以及一個含有很多英文語言工具的模組
Stemmer—使得Ruby可用 libstemmer_c中的介面
Ruby Wordnet—WordNet的Ruby介面庫
Raspel—aspell繫結到Ruby的介面
UEA Stemmer—UEALite Stemmer的Ruby移植版,供搜尋和檢索用的保守的詞幹分析器
Twitter-text-rb—該程式庫可以將推特中的使用者名稱、列表和話題標籤自動連線並提取出來
通用機器學習

Ruby Machine Learning—Ruby實現的一些機器學習演算法
Machine Learning Ruby
jRuby Mahout—精華!在JRuby世界中釋放了Apache Mahout的威力
CardMagic-Classifier—可用貝葉斯及其他分類法的通用分類器模組
Neural Networks and Deep Learning—《神經網路和深度學習》一書的示例程式碼
資料分析/資料視覺化

rsruby—Ruby – R bridge
data-visualization-ruby—關於資料視覺化的Ruby Manor演示的原始碼和支援內容
ruby-plot —將Gnuplot包裝為Ruby形式,特別適合將ROC曲線轉化為SVG檔案
plot-rb—基於Vega和D3的ruby繪相簿
scruffy—Ruby下出色的圖形工具包
SciRuby
Glean—資料管理工具
Bioruby
Arel
Misc

雜項

Big Data For Chimps—大資料處理嚴肅而有趣的指南書

_________________________________________________________________
六、Scala

自然語言處理

ScalaNLP—機器學習和數值計算庫的套裝
Breeze—Scala用的數值處理庫
Chalk—自然語言處理庫
FACTORIE—可部署的概率建模工具包,用Scala實現的軟體庫;為使用者提供簡潔的語言來建立關係因素圖,評估引數並進行推斷
通用機器學習

Conjecture—Scalding下可擴充套件的機器學習框架
brushfire—Scalding下的決策樹工具
ganitha—基於Scalding的機器學習程式庫
adam—使用Apache Avro、Apache Spark和Parquet的基因組處理引擎,有專用的檔案格式,Apache 2軟體許可
bioscala—Scala語言可用的生物資訊學程式庫
BIDMach—機器學習CPU和GPU加速庫
資料分析/資料視覺化

MLlib in Apache Spark—Spark下的分散式機器學習庫
Scalding—CAscading的Scala介面
Summing Bird—用Scalding和Storm進行Streaming MapReduce
Algebird—Scala的抽象代數工具
xerial—Scala的資料管理工具
simmer—化簡你的資料,進行代數聚合的unix過濾器
PredictionIO—供軟體開發者和資料工程師用的機器學習伺服器
BIDMat—支援大規模探索性資料分析的CPU和GPU加速矩陣庫