1. 程式人生 > >NVIDIA針對大規模資料分析和機器學習推出RAPIDS開源GPU加速平臺!

NVIDIA針對大規模資料分析和機器學習推出RAPIDS開源GPU加速平臺!

2018年10月10日,NVIDIA釋出了一款針對資料科學和機器學習的GPU加速平臺,該平臺已為多個行業領先者所採用,並能幫助超大規模公司以前所未有的速度分析海量資料並進行精準的業務預測。

RAPIDS™ 開源軟體幫助資料科學家顯著地提高了工作績效,對於這些資料科學家來說,種種業務挑戰應接不暇,其中包括預估信用卡詐騙、預測零售存貨及理解顧客購買行為等。

眾多公司,無論是Databricks和Anaconda等開源社群先驅還是Hewlett Packard Enterprise、IBMOracle等技術領袖,在GPU對資料分析的重要性方面日益達成共識,並對RAPIDS表現出越來越多的支援。

據分析師估計,面向資料科學和機器學習的伺服器市場每年價值約為200億美元,加上科學分析和深度學習市場,高效能運算市場總價值大約為360億美元。

“資料分析和機器學習是高效能運算市場中最大的細分市場,不過目前尚未實現加速,“NVIDIA創始人兼執行長黃仁勳在GPU技術大會主旨演講中釋出RAPIDS時表示,”全球最大的行業均在海量伺服器上執行機器學習演算法,目的在於瞭解所在市場和環境中的複雜模式,同時迅速、精準地做出將直接影響其決策的預測。

黃仁勳表示,“得益於CUDA及其全球生態系統以及與開源社群緊密合作,我們已建立了RAPIDS GPU加速平臺。該平臺已與全球最流行的資料科學庫及工作流無縫整合,可加速機器學習。如同深度學習一樣,我們正在不斷地為機器學習提速。”

RAPIDS已為GPU加速分析和機器學習提供了一整套開源庫,資料視覺化即將是下一個目標。RAPIDS由NVIDIA工程師與主要的開源貢獻者在過去兩年的合作成果。

RAPIDS第一次為資料科學家提供了他們需要用來在GPU上執行整個資料科學管線的工具。最初的RAPIDS基準分析利用了XGBoost機器學習演算法在NVIDIA DGX-2™ 系統上進行訓練,結果表明,與僅有CPU的系統相比,其速度能加快50倍。這可幫助資料科學家將典型訓練時間從數天減少到數小時,或者從數小時減少到數分鐘,具體取決於其資料集的規模。

與開源社群開展緊密合作

RAPIDS構建於Apache Arrow、pandas和scikit-learn等流行的開源專案之上,為最流行的Python資料科學工具鏈帶來了GPU提速。為了將更多的機器學習庫和功能引入RAPIDS,NVIDIA廣泛地與開源生態系統貢獻者展開合作 ,其中包括Anaconda、BlazingDB、Databricks、Quansight、scikit-learn、Ursa Labs 負責人兼Apache Arrow締造者Wes McKinney以及迅速增長的Python資料科學庫pandas等等。

McKinney表示,“作為GPU加速的資料科學平臺,RAPIDS是由Apache Arrow驅動的新一代的計算生態系統。NVIDIA與Ursa Labs的合作將加速Arrow核心資料庫的創新步伐,並有助於大幅提升分析及特徵工程的績效。”

為了推動RAPIDS的廣泛應用,NVIDIA正努力將RAPIDS與Apache Spark進行整合,後者是分析及資料科學方面領先的開源框架。

Databricks聯合創始人、首席技術官兼Apache Spark 創始人Matei Zaharia表示,“在Databricks公司中,我們對RAPIDS在加速Apache Spark工作量方面的潛力感到非常興奮。我們目前開展的多個專案都意在將Spark更好地與本地加速器進行整合,其中包括藉助Project Hydrogen實現的Apache Arrow的支援以及GPU排程。我們相信,就擴大我們客戶資料科學及AI工作量來說,RAPIDS將是全新的、振奮人心的機會。”

廣泛的生態系統支援及應用

各個行業技術領先的企業均是NVIDIA GPU加速平臺及RAPIDS的率先應用者。

沃爾瑪執行副總裁兼首席技術官Jeremy King表示,“NVIDIA的GPU加速平臺及RAPIDS軟體極大改進了我們使用資料的方式,幫助我們實現了複雜模式大規模地執行,同時進行更加精準的預測。RAPIDS的應用得益於NVIDIA和沃爾瑪工程師之間的深度合作,我們準備繼續推進這種合作關係。”

此外,一些全球領先的技術公司也力圖通過全新的系統、資料科學平臺和軟體解決方案支援RAPIDS:

“HPE致力於改進客戶生活和工作的方式。人工智慧、分析和機器學習技術能在揭示洞察方面扮演關鍵的角色,這有助於幫助客戶實現突破性的成果,同時改善我們所生存的世界。HPE提供全面的人工智慧和資料分析解決方案並在市場中保持獨一無二的優勢,其中既包括戰略諮詢,也包括專為特定需求開發的GPU加速器技術、執行支援以及強大的夥伴生態系統;我們旨在為每位客戶定製合適的解決方案。我們對與NVIDIA在RAPIDS方面的合作感到非常興奮,此舉能加快資料科學和機器學習的應用,推動我們的客戶更快地實現更具洞察力的成果。”

— 惠普企業執行長Antonio Neri

“IBM已為企業人工智慧構建了全球領先的、在任何部署模式上均能執行的平臺。我們期望能拓展與NVIDIA已有的成功合作,利用RAPIDS來為客戶提供全新的機器學習工具。”

— Hybrid Cloud高階副總裁兼IBM Research董事 Arvind Krishna

“當今的計算領域要要強大的處理能力,以便應對資料科學和分析智慧等紛繁複雜的工作,而這正是NVIDIA GPU的優勢。RAPIDS正在不斷加速處理和機器學習培訓的速度。能在Oracle Cloud Infrastructure上支援這套全新的開源軟體讓我們感到非常興奮,我們也希望能與NVIDIA繼續合作,以在我們的Oracle Data Science Cloud等各種平臺上支援RAPIDS,並進一步加速客戶端到端資料科學工作流。RAPIDS軟體在Oracle Cloud上無縫執行,這使客戶得以支援各種高效能運算、人工智慧和資料科學需求,同時利用Oracle Cloud Infrastructure 上可獲得的GPU例項組合。”

— Oracle Cloud Infrastructure軟體開發部門高階副總裁Clay Magouyrk

行業更多支援性引言

Anaconda 公司執行長——Scott Collison

 “NVIDIA已經使複雜的人工智慧模型的培訓和部署具有可擴充套件性和經濟可行性。NVIDIA今天釋出的RAPIDS宣告將同樣的好處擴充套件到資料科學生命週期的早期資料轉換階段。Anaconda為幫助NVIDIA開發這些新功能而感到自豪,這些新功能將通過我們的公共包儲存庫提供給Anaconda發行版的700萬用戶社群。此外,我們還會將這些功能納入Anaconda企業版,該企業版與NVIDIA DGX相結合,為企業提供一種高效能、行之有效的解決方案。NVIDIA DGX上的Anaconda企業版將使各種規模的組織能夠加快資料科學和人工智慧工作流程。”

BlazingDB公司執行長——Rodrigo Aramburu

“我們很激動能成為NVIDIARAPIDS開源軟體的早期貢獻者,並且已經在RAPIDS上構建了BlazingSQL,這是我們分散式GPU SQL引擎的一個免費使用版本。作為一家初創公司,我們與RAPIDS團隊合作,我們與NVIDIA的夥伴關係為我們提供了巨大的價值,作為cuDF的主要貢獻者加入,並將繼續支援RAPIDS軟體,因為我們的願景是將資料湖(Data Lakes)與人工智慧整合,全部使用SQL。”

CISCO資料中心集團產品管理副總裁——Kaustabh Das

“CISCO和NVIDIA正在NVIDIA GPU優化的CISCOUCS平臺上合作開發人工智慧/機器學習軟體堆疊,以簡化和加速人工智慧/機器學習工作負載部署。我們很高興地獲悉,藉助RAPIDS,NVIDIA正在通過加速的軟體堆疊來擴充套件其GPU適用性,以解決傳統的機器學習和大資料分析問題。我們期待著能夠實現我們GPU加速伺服器組合的可能性,包括最近推出的CISCO UCS C480 ML M5機架伺服器,這是一個一流的配有8個NVIDIA V100 GPU和NVIDIA NVLink互連專用的伺服器。”

DELL EMC公司伺服器和基礎設施系統部產品管理和市場營銷高階副總裁——Ravi Pendekanti

 “DELL EMC致力於為我們的客戶提供世界級的IT基礎設施,使他們能夠獲得真正的、有競爭力的商業優勢。我們與生態系統合作伙伴合作,以確保我們的客戶擁有最新的資料科學工具,幫助他們將資料洞察力轉換為業務成果。我們的目標在於,把NVIDIA新的GPU加速的開放源資料科學軟體與我們NVLink啟用的Dell EMC PowerEdge伺服器組合相結合,從而顯著地加速機器學習和大資料分析領域的發展。”

FASTDATA.io公司創始人兼執行長——Alen Capalik

“NVIDIA發起的RAPIDS開源專案將徹底改變資料科學管道。在FASTDATA.io公司,我們很高興我們的Plasma引擎——第一個充分利用NVIDIA圖形處理器實時處理無限運動資料的軟體——將在這場變革中發揮作用。”

喬治亞理工學院教授 ——David Bader

“喬治亞理工學院很高興為RAPIDS作出貢獻,這是NVIDIA GPU加速分析的開源平臺。在這個海量資料的時代,我們對RAPIDS圖形庫的貢獻將有助於資料科學家從不斷增長的資料集中獲得有意義的知識。”

Graphistry公司聯合創始人兼執行長——Leo Meyerovich

 “Graphistry公司是最早的GPU雲創業公司之一,已經悄悄地為那些必須梳理金融、網路安全、運營和銷售記錄的敏感的F500和聯邦團隊帶來了可視性的新高度。作為RAPIDS早期貢獻者以及Apache Arrow背後的力量,Graphistry在RAPID上下了很大的賭注。該公司將視覺化計算結構重新定義為瀏覽器和雲圖形處理器的實時結合,因此而聞名並且正在與RAPIDS團隊合作,將下一級表格分析新增到其現有的圖形GPU視覺化分析核心中。”

H2O.ai公司創始人兼執行長——Sri Ambati

 “機器學習正在改變企業並且NVIDIA圖形處理器正在加速企業發展。在開源社群和客戶的支援下,H2O.ai使GPU上的機器學習成為主流,並獲得了高德納的認可,成為資料科學和機器學習平臺方面的領導者。NVIDIA利用RAPIDS(開源資料科學庫)支援GPU機器學習社群,這是為發展GPU資料科學生態系統而作出的及時努力,也是對我們將人工智慧帶入資料中心這個共同使命的認可。由於了我們的合作,由NVIDIA圖形處理器驅動的H2O無驅動人工智慧一直呈指數型採用曲線,使人工智慧更快捷、更低廉、更容易。”

INRIA((scikit-learn))Scikit-Learn 運營部總監——Gael Varoquaux

 “NVIDIA正在用RAPIDS等新的生產力工具證明加速資料科學的真正進步。結合高階語言中的非常快速計算是資料分析團隊的一項變革。我們很高興NVIDIA已經選擇使RAPIDS與scikit-learn相容。我們相信它可以造福於我們的社群,並期待著與NVIDIA合作。”

Kinetica公司聯合創始人兼首席技術官——Nima Negahban

 “開源庫的RAPIDS套件是一個重大改進,使資料科學家能夠在他們的模型開發工具鏈上利用GPU的力量。RAPIDS可以極大地簡化和優化培訓,提高模型精度,而不需要資料科學家進行任何複雜邏輯的再設計。我們很高興在這個過程中與NVIDIA合作,使人工智慧民主化——藉助NVIDIA驅動模型的開發和培訓以及Kinetica對這些模型的驅動操作化和部署,使企業能從他們的資料中獲得最大的洞察力。”

聯想資料中心集團總裁——Kirk Skaugen

 “企業客戶和學術界在開發和測試新戰略時,不斷面臨處理和分析大量資料的挑戰。新的RAPIDS開源軟體承諾通過在NVIDIA圖形加速器上端到端執行工作流來加速工作流。我們相信,這種創新與合作將對客戶產生重大影響。”

MapR公司執行長——John Schroeder

 “RAPIDS是資料科學的一項突破性公告,更重要的是,它能夠用資料科學直接影響組織。MapR通過側重互補資料管理和部署活動來支援這項工作,以配合端到端的RAPIDS資料科學培訓和模型工作流程。”

NERSC Python資料分析負責人——Rollin Thomas

 NERSC支援大學、國家實驗室和工業領域的7000多名研究人員。他們越來越希望通過高效、高效能的方式與來自複雜科學模擬或實驗和觀測裝置(如粒子加速器和望遠鏡)的資料進行互動。我們期待著與NVIDIA合作,將新的高效能Python資料分析工具(如RAPIDS)交到我們的使用者手中,以加快其在眾多科學領域中的發現速度。”  

NetApp公司ONTAP高階副總裁 ——Octavian Tanase

 “組織必須利用新的人工智慧功能來驅動競爭優勢並加速數字化轉型。由NVIDIA圖形處理器驅動的RAPIDS與NetApp的AFF A800雲連線的全快閃記憶體儲存相結合,將有助於客戶自信地利用不斷增長的資料資源,這些資料資源具有提供、培訓和操作急需資料的人工智慧應用程式需要的幾乎無限的可擴充套件性和效能。”

NumFOCUS董事會董事長——Andy Terrel

 “NVIDIA對NumFOCUS的支援代表著對社群的投資。作為資料科學領域的兩個領導者,我們認為我們的合作將為科學和企業等帶來更好的工具。”

OmniSci執行長兼聯合創始人——Todd Mostak

“建立機器學習模型時,資料科學家在NVIDIA圖形處理加速器上使用OmniSci來加速資料探索和特性工程。現在,我們的使用者可以在OmniSci中互動式地查詢和視覺化資料,然後將結果通過管道輸入到RAPIDS的開源庫中,從而實現強大的端到端資料科學工作流。此外,NVIDIA與OmniSci一起加快了在模型上構建和迭代,從而提高了準確性和加速了部署時間。”

Pure Storage公司 FlashBlade總經理——Matt Burr

 “我們的客戶著眼於那些將其與競爭對手分開的洞察力資料,為其終端使用者提供不斷增長的價值。RAPIDS擴大了NVIDIA圖形處理器加速和Pure Storage公司 FlashBlade對資料科學和機器學習工作流的影響,以幫助更多的資料科學家加快其培訓管道,同時為更快實現結果保持最佳的低延遲效能。  ”

Quansight公司NumPy 及SciPy 開創者、Anaconda聯合創始人兼總監、Quansight創始人兼執行長——Travis Oliphant

 “長期以來,NVIDIA一直是先進分析加速工具的領導者,一直免費提供高速庫,供資料科學社群的開發人員使用。我很高興看到他們擴充套件的資料科學開源框架及其對端到端軟體和硬體解決方案的承諾。這些創新將極大地加速整個資料科學工作流程,並在更廣泛的開源生態系統中發起創新。”

SAP首席創新官——Juergen Mueller

“SAP在過去幾年裡與NVIDIA密切合作,將GPU加速應用於眾多SAP Leonardo機器學習支援的解決方案。目前我們正在進一步推進這種合作,以探索由RAPIDS提供的可能性,它承諾對GPU上的資料科學管道進行超荷充電。對於資料科學家來說,這是加速資料科學和機器學習的重要一步,因為我們通過SAP Leonardo和SAP HANA為企業帶來了智慧。”

SAS人工智慧和機器學習的負責人——Saratendu Sethi

“我們正在與NVIDIA緊密合作,從而為新的GPU加速資料科學庫做出貢獻。我們期待著今後的SAS Viya產品能夠利用RAPIDS,這樣以來我們的客戶便能更快地從他們的資料中獲得有價值的見解。”

SQream公司執行長——Ami Gal

 “NVIDIA在RAPIDS方面所做的工作為大大地加速資料科學管道的發展提供了一個激動人心的機遇。通過將大量資料中SQream DB的管道功能融入RAPIDS資料科學平臺,我們期望資料科學家能夠比以前更快地執行模型,並能夠在更多的資料上執行模型。”

加利福尼亞大學,教授兼Gunrock專案負責人,Davis - John Owens

 “我們很高興成為RAPIDS社群的一員,並期待著與NVIDIA及其合作伙伴合作,打造效能最高、最全面的資料分析生態系統。”