1. 程式人生 > >最全的國外機器學習資源(上)

最全的國外機器學習資源(上)

一、C++

計算機視覺
CCV—基於C語言/提供快取/核心的機器視覺庫,新穎的機器視覺庫
OpenCV—它提供C++、C、Python、Java以及MATLAB介面,並支援Windows、Linux、Android和Mac OS作業系統 OPENCV網址
通用機器學習
MLPack    MLPCACK網址
DLib
ecogg
shark


二、Closure
通用機器學習
Closure Toolbox—Clojure語言庫與工具的分類目錄


三、Go
自然語言處理
go-porterstemmer—一個Porter詞幹提取演算法的原生Go語言淨室實現
paicehusk—Paice/Husk詞幹提取演算法的Go語言實現
snowball—Go語言版的Snowball詞幹提取器
通用機器學習
Go Learn— Go語言機器學習庫
go-pr—Go語言機器學習包
bayesian—Go語言樸素貝葉斯分類庫
go-galib—Go語言遺傳演算法庫
資料分析/資料視覺化
go-graph—Go語言圖形庫
SVGo—Go語言的SVG生成庫


四、Java
自然語言處理
CoreNLP—斯坦福大學的CoreNLP提供一系列的自然語言處理工具,輸入原始英語文字,可以給出單詞的基本形式(下面Stanford開頭的幾個工具都包含其中)
Stanford Parser—一個自然語言解析器
Stanford POS Tagger —一個詞性分類器
Stanford Name Entity Recognizer—Java實現的名稱識別器
Stanford Word Segmenter—分詞器,很多NLP工作中都要用到的標準預處理步驟
Tregex, Tsurgeon and Semgrex—用來在樹狀資料結構中進行模式匹配,基於樹關係以及節點匹配的正則表示式(名字是“tree regular expressions”的縮寫)
Stanford Phrasal—最新的基於統計短語的機器翻譯系統,java編寫
Stanford Tokens Regex—用以定義文字模式的框架
Stanford Temporal Tagger—SUTime是一個識別並標準化時間表達式的庫
Stanford SPIED—在種子集上使用模式,以迭代方式從無標籤文字中學習字元實體
Stanford Topic Modeling Toolbox—為社會科學家及其他希望分析資料集的人員提供的主題建模工具
Twitter Text Java—Java實現的推特文字處理庫
MALLET—基於Java的統計自然語言處理、文件分類、聚類、主題建模、資訊提取以及其他機器學習文字應用包
OpenNLP—處理自然語言文字的機器學習工具包
LingPipe—使用計算機語言學處理文字的工具包
通用機器學習
MLlib in Apache Spark—Spark中的分散式機器學習程式庫
Mahout—分散式的機器學習庫
Stanford Classifier—斯坦福大學的分類器
Weka—Weka是資料探勘方面的機器學習演算法集
ORYX—提供一個簡單的大規模實時機器學習/預測分析基礎架構
資料分析/資料視覺化
Hadoop—大資料分析平臺
Spark—快速通用的大規模資料處理引擎
Impala—為Hadoop實現實時查詢


五、JavaScript
自然語言處理
Twitter-text-js—JavaScript實現的推特文字處理庫
NLP.js—JavaScript及CoffeeScript編寫的NLP工具
natural—Node下的通用NLP工具
Knwl.js—JS編寫的自然語言處理器
通用機器學習
Convnet.js—訓練深度學習模型的JavaScript庫
Clustering.js—用JavaScript實現的聚類演算法,供Node.js及瀏覽器使用
Decision Trees—Node.js實現的決策樹,使用ID3演算法
Node-fann—Node.js下的快速人工神經網路庫
Kmeans.js—k-means演算法的簡單JavaScript實現,供Node.js及瀏覽器使用
LDA.js—供Node.js用的LDA主題建模工具
Learning.js—邏輯迴歸/c4.5決策樹的JavaScript實現
Machine Learning—Node.js的機器學習庫
Node-SVM—Node.js的支援向量機
Brain—JavaScript實現的神經網路
Bayesian-Bandit—貝葉斯強盜演算法的實現,供Node.js及瀏覽器使用
資料分析/資料視覺化
D3.js
High Charts
NVD3.js
dc.js
chartjs
dimple
amCharts


六、Julia
自然語言處理
Topic Models —Julia下的主題建模
Text Analysis—Julia下的文字分析包
通用機器學習
PGM—Julia實現的概率圖模型框架
DA—Julia實現的正則化判別分析包
Regression—迴歸分析演算法包(如線性迴歸和邏輯迴歸)
Local Regression—區域性迴歸,非常平滑
Naive Bayes—樸素貝葉斯的簡單Julia實現
Mixed Models—(統計)混合效應模型的Julia包
Simple MCMC—Julia實現的基本MCMC取樣器
Distance—Julia實現的距離評估模組
Decision Tree—決策樹分類器及迴歸分析器
Neural—Julia實現的神經網路
MCMC—Julia下的MCMC工具
GLM—Julia寫的廣義線性模型包
Online Learning
GLMNet—GMLNet的Julia包裝版,適合套索/彈性網模型
Clustering—資料聚類的基本函式:k-means、dp-means等
SVM—Julia下的支援向量機
Kernal Density—Julia下的核密度估計器
Dimensionality Reduction—降維演算法
NMF—Julia下的非負矩陣分解包
ANN—Julia實現的神經網路
資料分析/資料視覺化
Graph Layout—純Julia實現的圖佈局演算法
Data Frames Meta—DataFrames的超程式設計工具
Julia Data—處理表格資料的Julia庫
Data Read—從Stata、SAS、SPSS讀取檔案
Hypothesis Tests—Julia中的假設檢驗包
Gladfly—Julia編寫的靈巧的統計繪圖系統
Stats—Julia編寫的統計測試函式包
RDataSets—讀取R語言中眾多可用的資料集的Julia函式包
DataFrames—處理表格資料的Julia庫
Distributions—概率分佈及相關函式的Julia包
Data Arrays—元素值可以為空的資料結構
Time Series—Julia的時間序列資料工具包
Sampling—Julia的基本取樣演算法包
雜項/簡報
DSP—數字訊號處理
JuliaCon Presentations—Julia大會上的簡報
SignalProcessing—Julia的訊號處理工具
Images—Julia的圖片庫


七、Kaggle競賽原始碼
wiki challange—Kaggle上一個維基預測挑戰賽 Dell Zhang解法的實現
kaggle insults—Kaggle上“從社交媒體評論中檢測辱罵”競賽提交的程式碼
kaggle_acquire-valued-shoppers-challenge—Kaggle預測回頭客挑戰賽的程式碼
kaggle-cifar—Kaggle上CIFAR-10 競賽的程式碼,使用cuda-convnet
kaggle-blackbox—Kaggle上Black Box賽程式碼,關於深度學習
kaggle-accelerometer—Kaggle上加速度計資料識別使用者競賽的程式碼
kaggle-advertised-salaries—Kaggle上用廣告預測工資競賽的程式碼
kaggle amazon—Kaggle上給定員工角色預測其訪問需求競賽的程式碼
kaggle-bestbuy_big—Kaggle上根據Best Buy使用者查詢預測點選商品競賽的程式碼(大資料版)
kaggle-bestbuy_small—Kaggle上根據Best Buy使用者查詢預測點選商品競賽的程式碼(小資料版)
Kaggle Dogs vs. Cats—Kaggle上從圖片中識別貓和狗競賽的程式碼
Kaggle Galaxy Challenge—Kaggle上遙遠星系形態分類競賽的優勝程式碼
Kaggle Gender—Kaggle競賽:從筆跡區分性別
Kaggle Merck—Kaggle上預測藥物分子活性競賽的程式碼(默克製藥贊助)
Kaggle Stackoverflow—Kaggle上 預測Stack Overflow網站問題是否會被關閉競賽的程式碼
wine-quality—預測紅酒質量


八、Lua
通用機器學習
Torch7
Cephes—Cephes數學函式庫,包裝成Torch可用形式;提供幷包裝了超過180個特殊的數學函式,由Stephen L· Moshier開發,是SciPy的核心,應用於很多場合
graph—供Torch使用的圖形包
randomkit—從Numpy提取的隨機數生成包,包裝成Torch可用形式
signal—Torch7可用的訊號處理工具包,可進行FFT、DCT、Hilbert、cepstrums、STFT等變換
nn—Torch可用的神經網路包
nngraph—為nn庫提供圖形計算能力
nnx—一個不穩定實驗性的包,擴充套件Torch內建的nn庫
optim—Torch可用的優化演算法庫,包括 SGD、Adagrad、共軛梯度演算法、LBFGS、RProp等演算法
unsup—Torch下的非監督學習包,提供的模組與nn(LinearPsd、ConvPsd、AutoEncoder……)及獨立演算法(k-means、PCA)等相容
manifold—操作流形的包
svm—Torch的支援向量機庫
lbfgs—將liblbfgs包裝為FFI介面
vowpalwabbit—老版的vowpalwabbit對Torch的介面
OpenGM—OpenGM是C++編寫的圖形建模及推斷庫,該binding可以用Lua以簡單的方式描述圖形,然後用OpenGM優化
sphagetti—MichaelMathieu為Torch7編寫的稀疏線性模組
LuaSHKit—將區域性敏感雜湊庫SHKit包裝成Lua可用形式
kernel smoothing—KNN、核權平均以及區域性線性迴歸平滑器
cutorch—Torch的CUDA後端實現
cunn—Torch的CUDA神經網路實現
imgraph—Torch的影象/圖形庫,提供從影象建立圖形、分割、建立樹、又轉化回影象的例程
videograph—Torch的視訊/圖形庫,提供從視訊建立圖形、分割、建立樹、又轉化回視訊的例程
saliency—積分影象的程式碼和工具,用來從快速積分直方圖中尋找興趣點
stitch—使用Hugin拼合影象並將其生成視訊序列
sfm—運動場景束調整/結構包
fex—Torch的特徵提取包,提供SIFT和dSIFT模組
OverFeat—當前最高水準的通用密度特徵提取器
Numeric Lua
Lunatic Python
SciLua
Lua–Numerical Algorithms
Lunum
演示及指令碼
Core Torch7 demos repository—核心Torch7演示程式庫
線性迴歸、邏輯迴歸
人臉檢測(訓練和檢測是獨立的演示)
基於mst的斷詞器
train-a-digit-classifier
train-autoencoder
optical flow demo
train-on-housenumbers
train-on-cifar
tracking with deep nets
kinect demo
濾波視覺化
saliency-networks
Training a Convnet for the Galaxy-Zoo Kaggle challenge(CUDA demo)
Music Tagging—torch7下的音樂標籤指令碼
torch-datasets 讀取幾個流行的資料集的指令碼,包括:
BSR 500
CIFAR-10
COIL
Street View House Numbers
MNIST
NORB
Atari2600—在Arcade Learning Environment模擬器中用靜態幀生成資料集的指令碼