1. 程式人生 > >GitHub Python數據科學聚焦:推薦5個開源數據科學項目!

GitHub Python數據科學聚焦:推薦5個開源數據科學項目!

重點 src 命令行工具 自然 發布 都是 但是 docs dal

這篇文章重點介紹了5個數據科學項目,這些項目都是開源的,並且存在於GitHub存儲庫中,側重於高級機器學習庫和低級支持工具。

本文將通過GitHub repos重點介紹一組精選的開源Python數據科學項目。

之前的文章包括一些涵蓋AutoML、自然語言處理、數據可視化、機器學習工作流程的庫。這一次,我們將看看另一個選擇的數據科學項目及其GitHub回購,重點關註那些在一端提供有用的抽象層的項目,以及那些在較低層次上支持活動的項目。

該列表顯然是主觀的,由我遇到的代碼組成,並且由於某種原因而發現這些代碼有趣或有用。對於每個條目,我都包含指向各自的回購、文檔、入門指南或類似內容的鏈接,以及文檔中的描述性摘錄。

坐下來享受一下您可能熟悉或不熟悉的項目,希望您能找到可以在自己的工作中使用的東西。

技術分享圖片

1. fastai

存儲庫:https://github.com/fastai/fastai/

文檔:http://docs.fast.ai/

入門:http://course.fast.ai/

該庫位於PyTorch v1(今天發布的預覽版)之上,為最重要的深度學習應用程序和數據類型提供了一致的API。fast.ai最近的研究突破嵌入在軟件中,與其他深度學習庫相比,其準確性和速度顯著提高,同時需要的代碼大大減少。您可以立即從conda、pip或GitHub上下載它,或在Google Cloud Platform上使用它。AWS支持即將推出。

2.textacy

存儲庫:https://github.com/chartbeat-labs/textacy

文檔:https://chartbeat-labs.github.io/textacy/

入門:https://chartbeat-labs.github.io/textacy/getting_started/quickstart.html

textacy是一個Python庫,用於執行基於高性能spacy庫的各種自然語言處理(NLP)任務。通過基本原理- 標記化、詞性標註、依賴性解析等- 委托給另一個庫,textacy專註於之前和之後的任務。

3. pycobra

存儲庫:https://github.com/bhargavvader/pycobra

文檔:https://modal.lille.inria.fr/pycobra/

入門:https://github.com/bhargavvader/pycobra/tree/master/docs/notebooks

pycobra是一個用於集成學習的python庫。它可以作為使用這些集成機器進行回歸和分類的工具包,也可以用於可視化新機器和組成機器的性能。在這裏,當我們說機器時,我們指的是任何預測器或機器學習對象- 它可以是LASSO回歸器,甚至是神經網絡。它與scikit-learn兼容,適合現有的scikit-learn生態系統。

4. Termgraph

存儲庫,文檔和入門:https://github.com/mkaz/termgraph

一個python命令行工具,它在終端中繪制基本圖形。

支持的圖表類型:

  • 條形圖
  • 彩色圖表
  • 多變量
  • 堆積圖表
  • 水平或垂直
  • 表情符號!

大多數結果可以在任何地方復制和粘貼,因為它們使用標準塊字符。但是顏色圖表不會顯示,因為它們使用終端轉義碼來表示顏色。

5.repo2docker

存儲庫:https://github.com/jupyter/repo2docker

文檔:https://repo2docker.readthedocs.io/en/latest/

入門:https://repo2docker.readthedocs.io/en/latest/usage.html

jupyter-repo2docker是一個工具,用於從通過Jupyter服務器運行的源代碼存儲庫構建,運行和推送Docker鏡像。

repo2docker獲取存儲庫(例如,從GitHub或其他位置)並基於存儲庫中找到配置文件構建容器映像。它可以用於通過構建和執行存儲庫的構建映像來本地瀏覽存儲庫,或者作為構建推送到Docker註冊表的映像的方法。

GitHub Python數據科學聚焦:推薦5個開源數據科學項目!