1. 程式人生 > >Python機器學習及NLP庫

Python機器學習及NLP庫

機器學習方面:

Scikit-Learn 可用於分類、特徵選擇、特徵提取和聚集。還擁有自然語言處理特徵提取的能力、詞袋、tf-idf演算法、預處理等。

Matplotlib 可以用於快速視覺化。

Statsmodels 主要用於預測性和探索性分析。可以擬合線性模型,進行統計分析或預測性建模。

PyMC 做貝葉斯曲線的工具。

Shogun 主要用於支援向量機(SVM)

Gensim 用於主題建模,LDA及其變體等方面,支援自然語言處理

Orange 擁有圖形介面的的庫,能力比較平均。

NLP(自然語言處理)方面:

NLTK 《Python自然語言處理》一書的預設工具,提供WordNet這種方便處理詞彙資源的介面,可用在分類、分詞、詞幹提取、標註等任務。

Jieba 可用於分詞、詞性標註、特徵詞提取等方面。

Gensim 用於對大型語料庫進行主題建模、檔案索引、相似度檢索等。