1. 程式人生 > >十大Python機器學習開源專案

十大Python機器學習開源專案

1、Scikit-learn 用於資料探勘和資料分析的簡單而有效的工具,基於NumPy,SciPy和matplotlib,開源,商業可用的BSD許可證。 2、Tensorflow  最初由Google機器智慧研究機構的Google Brain小組的研究人員和工程師開發。 該系統旨在促進機器學習的研究,並使其快速和容易地從研究原型過渡到生產系統。 Commits: 10466, Contributors: 493, Github地址: Tensorflow 3、Theano  允許您有效地定義,優化和評估涉及多維陣列的數學表示式。 Commits: 24108, Contributors: 263, Github URL: Theano 4、Caffe is一個深入學習的框架,速度快和模組化。 它由伯克利視覺和學習中心(BVLC)和社群貢獻者開發。 Commits: 3801, Contributors: 215, Github URL: Caffe 5、Gensim is 一個免費的Python庫,具有諸如可擴充套件的統計語義之類的特性,分析用於語義結構的純文字文件,從語義上檢索類似的文件。 Commits: 2702, Contributors: 145, Github URL: Gensim 6、Pylearn2 是一個機器學習庫。 它的大部分功能是建立在Theano的基礎之上。 這意味著您可以使用數學表示式編寫Pylearn2外掛(新模型,演算法等),Theano將為您優化和穩定這些表示式,並將其編譯為您選擇的後端(CPU或GPU)。 Commits: 7100, Contributors: 115, Github URL: Pylearn2 7、Statsmodels 是一個Python模組,允許使用者探索資料,估計統計模型和執行統計測試。 描述性統計,統計測試,繪圖函式和結果統計的詳細列表可用於不同型別的資料和每個估計器。 Commits: 8664, Contributors: 108, Github URL: Statsmodels 8、Shogun是機器學習工具箱,提供廣泛的統一和高效的機器學習(ML)方法。 工具箱無縫地允許容易地組合多個數據表示,演算法類和通用工具。 Commits: 15172  Contributors: 105, Github URL: Shogun 9、Chainer 一個用於深度學習模型的基於Python的獨立開源框架。 Chainer提供靈活,直觀和高效能的方法來實現全範圍的深度學習模型,包括最先進的模型,如復現神經網路和變分自動編碼器。 Commits: 6298, Contributors: 84, Github URL: Chainer 10、NuPIC 是基於稱為分層時間儲存器(HTM)的新皮層理論的開源專案。 HTM理論的一部分已經在應用中實現,測試和使用,並且HTM理論的其他部分仍在開發中。 Commits: 6088, Contributors: 76, Github URL: NuPIC 11、Neon是Nervana的基於Python的深度學習庫。 它提供易用性,同時提供最高的效能。 Commits: 875, Contributors: 47, Github URL: Neon 12、Nilearn 一個Python模組,用於在NeuroImaging資料上快速輕鬆地進行統計學習。 它利用scikit-learn Python工具箱來處理多變數統計資訊,包括預測建模,分類,解碼或連線分析。 Commits: 5254, Contributors: 46, Github URL: Nilearn 13、Orange3是開源機器學習和資料視覺化的新手和專家。 具有大型工具箱的互動式資料分析工作流程。 Commits: 6356, Contributors: 40, Github URL: Orange3 14、Pymc 一個實現貝葉斯統計模型和擬合算法的python模組,包括馬爾可夫鏈蒙特卡羅。 其靈活性和可擴充套件性使其適用於大量問題。 Commits: 2701, Contributors: 37, Github URL: Pymc 15、PyBrain is 一個用於Python的模組化機器學習庫。 它的目標是為機器學習任務提供靈活,易於使用但仍然強大的演算法,以及各種預定義環境,以測試和比較您的演算法。 Commits: 984, Contributors: 31, Github URL: PyBrain 16、Fuel 是一個數據管道框架,為您的機器學習模型提供他們需要的資料。 它計劃被Blocks 和Pylearn2神經網路庫使用。 Commits: 1053, Contributors: 29, Github URL: Fuel 17、PyMVPA 是一個Python包,旨在簡化大型資料集的統計學習分析。 它提供了一個可擴充套件的框架,具有用於分類,迴歸,特徵選擇,資料匯入和匯出的廣泛演算法的高階介面。 Commits: 9258, Contributors: 26, Github URL: PyMVPA 18、Annoy (Approximate Nearest Neighbors Oh Yeah)是一個C ++庫,使用Python繫結來搜尋靠近給定查詢點的空間中的點。 它還建立大型只讀的基於檔案的資料結構,這些資料結構被對映到記憶體中,以便許多程序可以共享相同的資料。 Commits: 365, Contributors: 24, Github URL: Annoy 19、Deap 一個用於快速原型和測試思想的新型進化計算框架。 它試圖使演算法顯式和資料結構透明。 它與並行機制(例如多處理和SCOOP)完美協調。 Commits: 1854, Contributors: 21, Github URL: Deap 20、Pattern 是Python程式語言的Web挖掘模組。 它捆綁了資料探勘工具(Google + Twitter +維基百科API,網路爬蟲,HTML DOM解析器),自然語言處理(詞性標記,n元語法搜尋,情感分析,WordNet),機器學習 ,k-means聚類,樸素貝葉斯+ k-NN + SVM分類器)和網路分析(圖形中心性和視覺化)