掘金資料科學市場 NVIDIA RAPIDS通過GPU加速價值實現
至頂網伺服器頻道 12月04日 新聞訊息(文/李祥敬): 在這個資料無處不在的時代,如何從資料中獲取價值成為企業的重要課題。有資料顯示,面向資料科學和機器學習的伺服器市場每年價值約為200億美元,加上科學分析和深度學習市場,高效能運算市場總價值大約為360億美元,且該市場還在持續快速發展。
在NVIDIA看來,資料分析和機器學習是高效能運算市場中最大的細分市場,不過目前尚未實現加速。NVIDIA解決方案架構與工程團隊副總裁Marc Hamilton告訴記者,資料科學在2010年變得非常興盛,但是那個時候CPU的計算力已經沒辦法滿足資料科學家的需求了。資料規模越來越大,但是計算力並沒有相應發展,等待時間也是越來越長。於是,NVIDIA推出了開源GPU加速平臺——RAPIDS,為資料科學家提供標準化的流水線式工具。
在當前的人工智慧浪潮中,深度學習與機器學習是兩個重要的技術。在Marc看來,深度學習在處理非結構化資料(比如語音、影象等)上的效果更好,而機器學習卻在結構化資料處理上效果更好。RAPIDS把深度學習的能力擴充套件到了大資料領域。
也就是說,RAPIDS把GPU最為擅長的深度學習優勢也帶到了機器學習領域,讓企業在處理結構化資料方面與在處理非結構化資料方面同樣獲得GPU的加速。據悉,最初的RAPIDS基準分析利用了XGBoost機器學習演算法在NVIDIA DGX-2系統上進行訓練,結果表明,與僅有CPU的系統相比,其速度能加快50倍。這可幫助資料科學家將典型訓練時間從數天減少到數小時,或者從數小時減少到數分鐘。
RAPIDS平臺通過加速cuDF、cuML、cuGRAPH庫,英偉達能夠讓GPU加速計算應用到更多機器學習的演算法與場景當中,為資料科學家提供標準化的流水線式工具。比如在資料處理方面,RAPIDS將會通過資料準備、資料合併、資料降維三個步驟加速處理資料。
Marc表示,RAPIDS底層由CUDA支撐。他強調,RAPIDS加速有不同方式,一種方式是在CUDA上對軟體進行重新程式設計,第二種方式是使用CUDA軟體庫、cuML及機器學習的軟體庫,用來加速XGBOOST。第三種加速方式是在軟體應用層面的加速,比如:SAP或者Oracle的某些軟體功能已經可以通過GPU加速。
RAPIDS採用了開源的方式,可以非常完美地執行在GPU雲平臺,資料科學家只需要下載RAPIDS程式碼,就可以使用機器學習,不需要對現有程式碼進行太多修改。而且RAPIDS會保持不斷更新,使用者也可以將自己的需求反饋給NVIDIA,新的功能會不斷加入到新版本中,滿足使用者的需求。
目前英偉達正在廣泛地與開源生態系統貢獻者展開合作,其中包括Anaconda、BlazingDB、Databricks、Quansight等,將更多的機器學習庫和功能引入RAPIDS。為了推動RAPIDS的廣泛應用,英偉達正努力將RAPIDS與分析及資料科學方面領先的開源框架Apache Spark進行整合。
在落地應用方面,RAPIDS目前已經被非常廣泛採用,比如華大基因、中國移動、平安科技等中國公司都宣佈引入它進行機器學習加速。例如,平安科技使用RAPIDS以及GPU加速的PCA和DBSCAN之後,工作流程執行速度加快了80倍,從幾天縮短到幾小時(包括資料載入和訓練時間),這有助於該公司主動做出預測並完善預防計劃。
華大基因使用XGBoost機器學習演算法,對用於癌症患者個性化免疫治療的靶向多肽進行分類。他們在NVIDIA DGX-1 AI超級計算機上執行RAPIDS平臺,將分析速度提高了17倍,並將多肽的分析範圍擴大至數百萬種。