1. 程式人生 > >【Python-GPU】GPU資料科學加速包——RAPIDS

【Python-GPU】GPU資料科學加速包——RAPIDS

英偉達開源GPU加速庫RAPIDS

RAPIDS是一個支援在GPU上進行端到端資料科學和分析流程的包,在後端CUDA的支援下利用簡單的python介面供資料科學家和工程師使用。

Rapids主要致力於通用的資料預處理階段,包含了對於DataFrame的API。同時也提供了端到端的機器學習加速技術。支援多節點、多GPU部署,可以有效提高超大資料集的處理效率。
下面是一張官方提供的加速比較:
在這裡插入圖片描述

1.框架和介面

在這裡插入圖片描述

  • Apache Arrow:記憶體中的資料結構,高效靈活;
  • cuDF:DataFrame操作庫,包含對載入、過濾、資料操作等過程的加速,基於cuda核心加速的介面與pandas無縫銜接;
  • cuML:GPU加速的機器學習庫,包括scikit-learn中的所有機器學習演算法;
  • cuGRAPH:圖分析庫;
  • Deep Learning:深度學習介面,可以將資料儲存在ApacheArrow中,無縫銜接其他深度學習框架;
  • Visualization:視覺化包,GPU加持更快更清晰。

2.安裝

目前官方提供了基於docker的安裝:
需要系統滿足一下條件:

  • GPU support
    NVIDIA Pascal™ architecture or better
  • CUDA support
    9.2 (tags below for each version)
    10.0 (tags below for each version)
  • OS support
    Ubuntu 16.04 LTS (tested and confirmed working)
    Ubuntu 18.04 LTS (tested and confirmed working)
  • Docker support
    Docker CE v18+ - apt for Ubuntu 16.04 doesn’t include v18+ by default
    nvidia-docker v2+
#獲取容器
#dockerhun
#https://hub.docker.com/r/rapidsai/rapidsai/

cat /rapids/notebooks/container-version
Container Release  :   0.14a
Build Date         :   Thu Sep 13 15:31:44 PDT 2018
CUDA Version       :   9.2
Python Version     :   3.5

安裝RAPIDS

docker pull rapidsai/rapidsai:TAG
#TAG:
#cuda9.2_py3.5
#cuda9.1_py3.5
#cuda9.0_py3.5

執行

#啟動jupyterLab
docker run --runtime=nvidia -v 
#或者開發模式
docker run --runtime=nvidia -it 

同時容器中還有cuDF的虛擬python環境
source activate gdf

在這裡插入圖片描述
easyicon.com


ref:
site:http://rapids.ai/
github: https://github.com/RAPIDSai
cheatsheet:https://rapids.ai/documentation.html
intro:https://medium.com/rapids-ai/rapids-accelerates-data-science-end-to-end-afda1973b65d