【Python-GPU】GPU資料科學加速包——RAPIDS
阿新 • • 發佈:2018-11-11
英偉達開源GPU加速庫RAPIDS
RAPIDS是一個支援在GPU上進行端到端資料科學和分析流程的包,在後端CUDA的支援下利用簡單的python介面供資料科學家和工程師使用。
Rapids主要致力於通用的資料預處理階段,包含了對於DataFrame的API。同時也提供了端到端的機器學習加速技術。支援多節點、多GPU部署,可以有效提高超大資料集的處理效率。
下面是一張官方提供的加速比較:
1.框架和介面
- Apache Arrow:記憶體中的資料結構,高效靈活;
- cuDF:DataFrame操作庫,包含對載入、過濾、資料操作等過程的加速,基於cuda核心加速的介面與pandas無縫銜接;
- cuML:GPU加速的機器學習庫,包括scikit-learn中的所有機器學習演算法;
- cuGRAPH:圖分析庫;
- Deep Learning:深度學習介面,可以將資料儲存在ApacheArrow中,無縫銜接其他深度學習框架;
- Visualization:視覺化包,GPU加持更快更清晰。
2.安裝
目前官方提供了基於docker的安裝:
需要系統滿足一下條件:
- GPU support
NVIDIA Pascal™ architecture or better- CUDA support
9.2 (tags below for each version)
10.0 (tags below for each version)- OS support
Ubuntu 16.04 LTS (tested and confirmed working)
Ubuntu 18.04 LTS (tested and confirmed working)- Docker support
Docker CE v18+ - apt for Ubuntu 16.04 doesn’t include v18+ by default
nvidia-docker v2+
#獲取容器 #dockerhun #https://hub.docker.com/r/rapidsai/rapidsai/ cat /rapids/notebooks/container-version Container Release : 0.14a Build Date : Thu Sep 13 15:31:44 PDT 2018 CUDA Version : 9.2 Python Version : 3.5
安裝RAPIDS
docker pull rapidsai/rapidsai:TAG
#TAG:
#cuda9.2_py3.5
#cuda9.1_py3.5
#cuda9.0_py3.5
執行
#啟動jupyterLab
docker run --runtime=nvidia -v
#或者開發模式
docker run --runtime=nvidia -it
同時容器中還有cuDF的虛擬python環境
source activate gdf
ref:
site:http://rapids.ai/
github: https://github.com/RAPIDSai
cheatsheet:https://rapids.ai/documentation.html
intro:https://medium.com/rapids-ai/rapids-accelerates-data-science-end-to-end-afda1973b65d