英偉達RAPIDS平臺為GPU提速 資料處理時間較CPU快50倍
智東西(公眾號:zhidxcom)
編 | 花弧
導語:英偉達本月推出的RAPIDS開源GPU加速平臺為資料科學家提供標準化的流水線式工具,資料處理速度較僅用CPU提升50倍。
智東西10月23日訊息,今天,英偉達在北京召開RAPIDS平臺的媒體溝通會,英偉達亞太區解決方案架構主管趙立威詳解了RAPIDS開源GPU加速平臺。
該平臺釋出於2018年10月10日的GTC Europe大會上,是一款針對資料科學和機器學習的GPU加速平臺,為資料科學家提供標準化的流水線式工具,資料處理速度較僅用CPU提升50倍。
目前該平臺已經與SAP、IBM、Oracle等公司建立合作關係。
一、針對資料科學和機器學習
這款RAPIDS開源GPU加速平臺有三個特徵:
1.它是一個開源平臺;
2.它是一個軟體平臺;
3.這個產品,或者叫技術,面向資料科學以及機器學習的市場。
英偉達創始人黃仁勳在GTC Europe大會上著重強調了資料科學這一市場。據分析師估計,面向資料科學和機器學習的伺服器市場每年價值約為200億美元,加上科學分析和深度學習市場,高效能運算市場總價值大約為360億美元,且該市場還在持續快速發展。
“資料分析和機器學習是高效能運算市場中最大的細分市場,不過目前尚未實現加速,”黃仁勳在GTC Europe上釋出RAPIDS時說。
黃仁勳還在GTC Europe上提及“資料驅動”的概念。網際網路、零售等行業都是典型的資料驅動型行業,比如沃爾瑪生鮮產品的物流和倉儲需要基於大量資料去測算。
RAPIDS開源GPU加速平臺能對這一過程進行加速,通過資料準備、資料合併、資料降維三個步驟加速處理資料。
二、RAPIDS比僅有CPU的系統快50倍
RAPIDS開源GPU加速平臺構建於Apache Arrow、pandas和scikit-learn等流行的開源專案之上,為最流行的Python資料科學工具鏈帶來了GPU提速。
傳統的資料科學運算都是基於大資料框架Hadoop SPARK來做的,跑在分散式的CPU上。隨著摩爾定律的終結,CPU的算力提升會越來越慢。市場上也有幾家GPU Data base加速非常快,但他們沒有把資料的準備、操作、ETL的過程和Machine Learning等做成標準化的Pipeline(流水線)。英偉達的RAPIDS平臺實際上把資料操作、Machine Learning的一些庫整合成了一個Pipeline,所以整個流程會加快。
趙立威玩笑道,過去當資料科學家是一件非常悠閒幸福的事,有大量的時間喝咖啡,因為資料處理的過程中涉及到大量等待時間。用了RAPIDS之後,等待(圖中綠)時間變短,需要資料科學家創造性參與的部分(紅色)相應變多了。
訓練結果表明,與僅有CPU的系統相比,RAPIDS速度快50倍,這可將資料科學家的資料處理時間從數天減為數小時或從數小時減為數秒。
三、與開源社群、以及各行業開展緊密合作
為了將更多的機器學習庫和功能引入RAPIDS,英偉達廣泛地與開源生態系統貢獻者展開合作,其中包括Anaconda、BlazingDB、Databricks、Quansight、scikit-learn、Ursa Labs負責人兼Apache Arrow締造者Wes McKinney以及迅速增長的Python資料科學庫pandas等。
為了推動RAPIDS的廣泛應用,英偉達正努力將RAPIDS與分析及資料科學方面領先的開源框架Apache Spark進行整合。
沃爾瑪、惠普等企業已經率先應用了RAPIDS開源GPU加速平臺,IBM等企業也表示期望利用RAPIDS來為客戶提供全新的機器學習工具。