效能媲美250臺CPU伺服器,英偉達DGX-1的實力有多彪悍?
智東西(公眾號: zhidxcom)編 | 智東西內參
深度學習(DL)是人工智慧(AI)的一個熱門研究領域。足夠多的例子證明,深度學習能夠發現高維資料中的複雜規律,可應用於科研、商業和軍事等領域。如今,深度學習正在攜手大資料、GPU計算共同引爆AI革命。
從打敗世界圍棋冠軍的AlphaGo開始,人工智慧聲名鵲起,活躍在智慧醫療、自動駕駛、語音助手等諸多領域,逐漸浸入人們的生活。以智慧醫療為例,通過用海量來自行業的真實資料進行訓練,人工智慧可以快速高效地完成症狀預判、預測潛在的藥物分子活性、癌症早篩等任務,真正惠及於民。
而做出這一切成就的前提是擁有海量的資料和強大的算力。過去的半導體行業依賴於摩爾定律的推動,而GPU的出現為AI計算帶來了新的動力。近十年來,GPU的長足發展,使之在通用計算方向擁有彪悍的資料處理能力,極大拓展了AI的應用範圍。
不過,構建一個AI平臺不僅需要搭建包含許多GPU等硬體的伺服器,還有諸多挑戰:
1、深度學習需要用海量資料以更好的完成特徵提取,當資料量不斷增大,傳統硬體方案顯得力不從心。
2、深度學習在軟體設計方面耗費的實踐價值可達數十萬美元,而開源軟體需要數月時間才能變得穩定;
3、深度學習開發者需要方便易用的框架、庫、驅動程式等複雜元件;
4、深度學習在上述軟體堆疊方面需要大量的人才進行編寫和維護。
為應對這些挑戰,儘可能滿足開發者的需求,NVIDIA推出了其吞吐量可媲美250臺CPU伺服器的深度學習超級計算機——NVIDIA DGX-1,專為深度學習和高效能運算而設計。
本期的智慧內參,我們推薦英偉達搭載Tesla V100 GPU的NVIDIA DGX-1系統架構白皮書,結合DGX-1在具體行業的應用,解讀英偉達DGX-1的系統架構、效能優勢,以及為相關AI企業和研究人員提供參考。
如果想查閱此白皮書《搭載Tesla V100 GPU的NVIDIA DGX-1系統架構 》,可在智東西公眾號下載。
以下為智慧內參整理呈現的乾貨:
加速模型訓練的神器
人工智慧(AI)可以是什麼?英偉達在其系列視訊《我是人工智慧》中說,AI是醫生,輔助Sigma Technologies 公司更早、更有效地檢測和識別肺癌;AI是可靠的司機,幫助卡車製造商 PACCAR 實現車隊的自動駕駛;AI是創作者,打造出從廣告片直到劇情片等一系列具有驚人創意和情感的藝術作品;AI是辛勤的農夫,助力收割機Agrobot,旨在革新農業的未來;AI也是保衛者,協助肯亞政府追蹤斑馬的行動軌跡以使其免遭滅絕。
英偉達DGX-1超級計算機,能夠做到讓上述各行各業個開發者們均能方便快捷地享受到AI帶來的便利。
1、醫療行業
由美國麻省綜合醫院創立的機構CCDS的資料科學家擁有從全球各地不斷匯入的海量醫學影像,從16年12月收到第一代DGX-1 AI超級電腦開始,到現在CCDS已經開發出數十種深度學習訓練演算法,在放射學、心臟病學、眼科學、面板病學和精神病學等領域開展工作。
▲DGX系統協助CCDS資料科學家執行各種AI研究計劃
將龐大的平行計算陣列引入臨床裝置非常困難,但NVIDIA Tesla系列GPU的強大算力使得緊湊的平行計算模組成為可能。在GPU上執行2001年研究所用的資料集時,其系統性能可以提升到每秒13至14幀。據該小組研究,NVIDIA的GPU比當時最新多核CPU至少快了70倍,而且對於較大規模的體紋理資料效能更為突出。
2、轉舵AI的汽車行業
自動駕駛技術以超越人類的準確度和即時決策能力,有望改變人類旅行、貨物運輸以及城市設計,其市場2025年的估值為400億美元,商機相當龐大。
自動駕駛需要高效能、低能耗的 AI 運算硬體。而為自動駕駛汽車提供高度精確感知系統的關鍵是快速開發和訓練深度神經網路模型,以迅速收集和處理資訊,即時決策來規避安全風險。
由沃爾沃汽車和供應商 Autoliv 共同創立的合資企業Zenuity擁有豐富的深度學習經驗,Zenuity清楚地知道,要處理指數級增長的感測資料,深度學習訓練平臺不僅需要具有突破性的效能,還要能讓研究人員迅速測試模型,縮短開發週期,避免把時間浪費在設計打造軟硬體以及排查故障上。
最終,Zenuity選擇了DGX-1深度學習平臺,Zenuity深度學習部門經理Benny Nilsson 表示:“DGX-1無疑是AI和深度學習領域的黃金標準”。
▲Zenuity自動駕駛汽車
3、實時視訊檢測與分析
深度學習技術的興起,也為視訊內容分析提供了新的途徑。目前深度學習計算框架更多執行在單個節點上,多節點之間的擴充套件性較差,深度學習模型主要依賴於單精度運算,可在有限空間中承載更大的模型。而NVIDIA DGX-1的強悍引數使它足以勝任龐大的深度學習任務。
中科院自動化研究所模式識別國家重點實驗室也利用NVIDIA DGX-1來為實現實時的視訊超解析度而提速。所謂視訊超解析度,即是從低解析度視訊中恢復高解析度視訊,相比基於CPU的計算,DGX-1將速度提升超過50倍,並達到實時處理的效果。
▲中科院自動化研究所模式識別國家重點實驗室的視訊超解析度研究
4、網易全產業鏈AI
受益於DGX-1的效能優勢,網易得以更快、更準確的訓練模型,優化翻譯引擎的響應速度,支援智慧化服務新玩法的落地。未來,除了音樂和遊戲業務外,網易在包括雲端計算、教育、新聞、電商等全產業鏈業務都將加持AI技術。
網易感知與智慧中心的技術專家劉東認為,中心大量使用GPU來進行深度學習訓練,DGX-1帶來主要的好處是加速模型訓練,此前在單節點上進行中等規模的資料集訓練可能需要1個月的時間,現在使用DGX-1大約7-10天就會有結果,也就是說能試驗更多的演算法,產品更新也會更快。
高效能背後的祕密,DGX-1系統元件詳解
前面說了那麼多NVIDIA DGX-1深度學習超級計算機的應用,它為何有如此強大的算力呢?
顧名思義,DGX-1是一個專為深度學習打造的整合系統,能夠為幾百上千層神經網路提供高效能運算(HPC)能力。
在DGX-1問世時,NVIDIA創始人兼CEO黃仁勳曾說過,3000人花了3年才研發出這樣一款深度學習超級計算機,足見其研發難度之高。
每臺DGX-1配有8塊NVIDIA Tesla系列V100 GPU加速器,其效能相當於250臺傳統CPU伺服器,其使用的高效能NVLink GPU互聯技術大大提高深度學習訓練的擴充套件性。
▲搭載V100的DGX-1系統元件
搭載Tesla V100的NVIDIA DGX-1主要有如下幾個元件:
1、 NVIDIA Tesla V100
Tesla V100是NVIDIA最新款加速器,Volta架構是NVIDIA第一款專為AI打造的Tensor核心技術的GPU架構,為DGX-1提供了更高的AI和HPC計算能力。每個V100加速器配有的GV100 GPU包含80個流多元處理器(SM)。
▲Tesla V100加速器
2、NVIDIA NVLink技術
每個Tesla V100擁有6個NVLink連線,分別具有50GB/秒的雙向頻寬,雙向總頻寬每秒達300GB。當擴充套件到所有8個GPU時,NVLink的優勢最大,其總體效能優勢比PCle高出約30%。
3、雙路Intel Xeon CPU
DGX-1內建了兩塊CPU,用於開機、儲存空間管理和深度學習機構協調。
4、QUAD EDR IB
DGX-1配有4個QUAD EDR IB(擴充套件資料速率InfiniBand)埠,兼具高頻頻寬與低延遲特性,總雙向通訊傳輸速率達到每秒800GB。
5、三個機架單位的封閉式設計
為了節省電量,DGX-1採用三個機架單位的封閉式設計,可置入精巧的機架空間。
DGX-1的亮點黑科技
除了擁有出色的硬體設計外,DGX-1還擁有專門針對深度學習的系統軟體和強大軟體庫,經過和NVLink以及8個GPU的配合,DGX-1能為生產和研究領域提供靈活的深度學習應用開發和部署平臺。
藉助整合的NVIDIA深度學習軟體堆疊和DGX-1雲管理服務,DGX-1可以在短短一天的時間開始深度學習任務,同時將設定工作減至最少,使得使用者無需花費數月的時間來整合、配置和排除硬體軟體故障。
這裡,我們將詳解Tesla V100採用的NVLink技術和 DGX-1 軟體兩大亮點。
1、NVLink
考慮到通訊運營成本較高,開發者必須通過計算重疊資料傳輸或通過 PCIe 互聯仔細編排GPU 訪問以大幅提升效能。隨著GPU 執行速度越來越快,以及GPU/CPU 比率不斷攀升, 更高效能的GPU 互聯技術為使用者提供了更靈活的通訊排程,亦需要其來正確平衡更高的GPU 吞吐量。這項挑戰促使了NVLink 高速互聯技術的問世。
NVLink是NVIDIA打造的世界上第一個靈活可擴充套件的高速GPU互連方案,該技術可實現NVIDIA GPU 與同代GPU 或 支援NVLink 的CPU 以及節點內其他裝置之間的連線。
NVLink 使用NVIDIA 全新高速訊號互聯技術(NVHS)。NVHS 通過差分對傳輸資料,速率高達25 Gb/ 秒。其中8 個差分連線組成“ 子鏈路” (子鏈路負責一個方向的資料傳輸),兩個 子鏈路(一個子鏈路對應一個方向)組成一個“ 鏈路” (一個鏈路可連線兩個處理器, 如GPU 到GPU 或 GPU到CPU)。單個鏈路支援端點間高達50 GB/ 秒的雙向頻寬。多個 鏈路可整合至一起,以實現處理器間更高的頻寬。Tesla V100 採用的NVLink 可支援多達6 個鏈路,實現理論上的最大雙向總頻寬,即300 GB/ 秒。
▲DGX-1採用8-GPU的混合立體網際網路絡拓撲
2、DGX-1軟體
目前已有可以大規模執行深度學習的DGX-1 軟體。其主要目標是讓從業者能夠在DGX-1 上 部署深度學習框架和應用程式,同時將設定工作減至最少。該平臺軟體的設計理念為最大限度地減少伺服器上安裝的作業系統和驅動程式,並通過由NVIDIA 維護的DGX Container 登錄檔在Docker容器內配置全部應用程式和SDK 軟體。DGX-1 的可用容器包括多個經優化的深度學習框架、第三方加速解決方案及NVIDIA CUDA 工具包。
▲DGX-1深度學習軟體堆疊
此軟體架構具有很多優勢:
(1)每個深度學習框架都位於單獨的容器內,所以每個框架都能使用不同版本的庫。
(2)系統易於維護,且由於應用程式並非直接安裝於作業系統上,所以作業系統映象非常乾淨。
(3)可無縫提供安全更新、驅動程式更新及作業系統補丁。
智東西認為,在深度學習蓬勃發展的今日,英偉達專為深度學習打造的超級計算機DGX-1可以說是應運而生。DGX-1不僅是一個硬體強大的超級計算機,更是深度學習應用的綜合解決方案平臺,為開發者提供了強大的開發工具,大大降低開發門檻。
DGX-1適用於資料中心環境的大規模部署。它可以為深度學習任務帶來驚人的運算力,強力地推動人工智慧或深度學習的發展,能夠在智慧醫療、金融等諸多領域大顯身手,引領人工智慧的浪潮。