1. 程式人生 > >【​SC17觀察】今年全球超級計算大會,最搶眼的是什麼?

【​SC17觀察】今年全球超級計算大會,最搶眼的是什麼?

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

去年的鹽湖城,今年的丹佛市,這兩個全球超級計算大會(Supercomputing Conference,SC)的舉辦地有兩點都很相似,都在中西部,也都很寒冷。

但在這個冬天,距離和天氣,並沒有阻擋住人們對於HPC的熱情——今年的SC17大會吸引了334家廠商、117個國家和地區的超過10000人蔘會,創下歷屆大會之最。

被譽為計算機界“皇冠上的明珠”的HPC,在這個強調計算力的時代閃耀出了奪目的光彩。從傳統的科學計算、新興的網際網路應用,到時下最為當紅的人工智慧,越來越多的應用場景開始積極擁抱HPC,將已經有數十年曆史的HPC推向了盛世。

這屆的SC17大會亮點頗多:“E級計算、人工智慧、HPC雲化”以及“生命、宇宙和計算”成為熱門話題;各HPC廠商紛紛亮出家底,展現對HPC技術最新的探索和實踐。

同樣,目標將HPC“平民化”、推動HPC普及的戴爾自然不甘落後。在SC17,戴爾公佈了一系列面向HPC的新品,並展示了HPC的完善產品堆疊,在SC17諸多參展商中成為了一道亮麗的“風景線”。

首發C4140,針對三大場景優化設計

戴爾在SC17上最搶眼的表現,莫過於釋出了加速器優化的全新計算節點PowerEdge C4140,戴爾將這款產品稱為“現代資料中心的基石”,並對其寄予厚望。 

640?wx_fmt=png

在2005年以前,戴爾和很多HPC廠商的做法沒太多不同,主要採用傳統企業級伺服器為客戶打造HPC。但是,隨著HPC系統規模不斷擴大,雲端計算市場開始爆發,很多客戶需要在資料中心部署數以千計甚至數以萬計的伺服器,更加強調伺服器的密度和成本。

於是,去掉了一些不必要的企業級特性、具有更高密度的定製化伺服器大受HPC和雲端計算客戶青睞,戴爾也隨需調整了產品佈局。2005年,戴爾成立了資料中心解決方案部門(Data Center Solutions,DCS),開始打造專門面向HPC和雲端計算應用的C系列伺服器。

2008年,C系列伺服器正式成為戴爾PowerEdge伺服器序列中的一員,並逐漸在HPC領域取得成功。2012年,戴爾基於PowerEdge C系列伺服器為德克薩斯高階計算中心(TACC)打造了“Stampede”超級計算機,峰值達到8.5 PetaFLOPS,在當年的TOP500榜單中位列第七。

經過十餘年的發展,新推出的PowerEdge C4140已經是戴爾為HPC解決方案所打造的第十代伺服器產品,這款產品凝聚了戴爾在HPC領域的技術積累,並將最新的異構計算技術融入其中。

640?wx_fmt=jpeg640?wx_fmt=jpeg

加速器優化的全新計算節點PowerEdge C4140

來看看具體的情況:戴爾PowerEdge C4140採用1U設計,最大支援兩顆英特爾至強可擴充套件處理器,最高1.5TB記憶體。C4140最大亮點是在1U空間內最大可以支援4顆NVIDIA GPU,使用者可選Pascal架構的P100 GPU或者採用最新Volta架構的V100 GPU。

640?wx_fmt=png

相比上一代的C4130,C4140除了傳統的PCIe聯接之外,還新增了Nvlink的聯接方式(針對V100),這是一個顯著的升級,Nvlink 能夠讓CPU-GPU 和 GPU-GPU 之間實現超高速的資料傳輸,速度是傳統PCIe3.0的5到12倍。

戴爾是NVIDIA第一級的OEM廠商,自然能夠率先將Nvlink技術用於產品,從C4140的目標應用領域,我們不難理解戴爾的用意——C4140有三大應用領域:機器學習和深度學習;科學計算,包括科研、生命科學等;要求低延遲、高效能的場景,如金融分析等。在這些場景中,採用Nvlink技術相比傳統的PCIe能夠更加充分的發揮異構計算的效率。

測試資料顯示,戴爾PowerEdge C4140在深度學習應用中最大可實現500 TFLOPS的計算峰值,堪稱一款“小鋼炮”。在分子動力學場景中,1臺C4140相當於19臺純CPU的伺服器,成本節省12倍;在金融服務場景中,1臺C4140相當於8臺純CPU伺服器,成本節省5倍。

C4140的其他一些設計也充分體現了這款伺服器“應用優化”的理念:具有兩個PCIe x16插槽,支援Mellanox最新的200Gb/s HDR InfiniBand或者Intel Omnipath 25GbE高速網路;可選2KW或者2.4KW冗餘電源,是當前伺服器中最高規格的電源設計,充分保證異構計算的能耗需求。

C4140在機箱結構設計上還充分考慮了重負載、高密度應用場景對散熱的要求。C4140的四顆GPU全部放在機箱的正前部,更加有利於GPU的散熱(通常冷風是從機箱前部穿過機箱)。而大多數異構計算伺服器的GPU是放在機箱後面,這樣會導致熱量集中於後部,不利於散熱。此外,C4140配備了戴爾iDRAC9管理模組以及戴爾14G伺服器上有關係統管理、安全等方面的特性。

640?wx_fmt=png

據介紹,戴爾PowerEdge C4140提供了9種配置選擇,將於今年12月開始在全球範圍內供貨。 

新品頻發,戴爾完善HPC產品堆疊 

除了新的異構計算伺服器PowerEdge C4140,戴爾還在SC17上釋出了三款應用就緒的HPC一體機系統:基於英特爾架構的深度學習就緒系統、基於NVIDIA GPU架構的深度學習就緒系統以及基於Hadoop架構的機器學習就緒系統。

在HPC領域,戴爾一直追求的是“工作負載優化”,簡化客戶在基礎架構層面的工作。此前,戴爾曾經針對科研、製造、基因工程等應用場景提供了HPC一體機,針對不同應用型別專門設計了不同的資源配比,並經過ISV驗證,以實現更好的效能優化和可靠性。

如今,人工智慧大熱,機器學習、深度學習更是其中最為熱門的領域,HPC則是這兩個領域強大的計算力支撐。戴爾專門面向機器學習/深度學習釋出了三款不同架構的HPC一體機,滿足了企業不同的技術路徑,體現了戴爾對於市場和客戶需求的深刻理解。此外,在SC17大會展區,戴爾還展示了DELL EMC Isilon高效能儲存、N4248網路交換機等新產品。

可以說,從工作站、伺服器、儲存、網路、管理、服務到雲端計算,戴爾已經具備完善的HPC產品堆疊。

例如,在伺服器方面,戴爾具有HPC優化設計的C6420、C6320p、C4140,以及適合HPC環境的通用伺服器R640、R440、R740、R740xd、T640以及刀片產品M640等。據悉,戴爾未來可能還會引入AMD晶片伺服器,覆蓋更加廣泛的客戶需求。

640?wx_fmt=jpeg

PowerEdge C6420

640?wx_fmt=jpeg

PowerEdge C6320p

640?wx_fmt=jpeg

戴爾HPC伺服器產品組合

在儲存方面,戴爾原有SC和PS產品線,併購EMC之後又融合了EMC Isilon高效能儲存;在高效能網路方面,通過和Mellanox、Intel合作,戴爾網路產品線引入了Mellanox EDR、HDR InfiniBand技術以及為可擴充套件HPC系統設計的Intel Omni-Path架構。

在管理方面,戴爾具有Bright Cluster Manager叢集管理軟體以及OpenHPC叢集管理軟體;在服務方面,戴爾能夠提供部署、支援、金融服務、遠端管理、HPCaaS等多種服務;在計算方面,戴爾可提供微軟Cycle Computing軟體和服務,用於高效能運算工作負載下的雲編排和管理,幫助各種規模客戶滿足高效能運算需求。

640?wx_fmt=png

戴爾HPC 高效能運算系統產品組合

還有上文所提到的多個應用就緒的HPC一體機系統。戴爾不僅擁有豐富的針對HPC應用的產品序列,還擁有大量製造、教育、生命科學等領域的行業專家,所以戴爾能夠將多年來在HPC領域積累的技術、產品和行業經驗相融合,打造出面向不同場景的HPC一體機,進一步降低了HPC的應用門檻,同時讓HPC能夠更加貼合行業場景的需求。

推動HPC“民眾化”,為人工智慧“謀篇佈局” 

在HPC領域,戴爾的目標並不是打榜和做“大機器”,而是更希望貼近使用者實際需求,設計和部署成本優化的系統,最大化IT投資。對於戴爾來說,“曲高和寡”不如更接地氣,排名不重要,讓更多的客戶能用上才是王道。目前,戴爾在HPC領域實際已經收穫了很多成果。

0?wx_fmt=jpeg

在中國,戴爾和中國科學院自動化研究所合作共同建設基於深度學習的服務平臺—“諸葛• 深知”。“諸葛·深知”不僅提供通用的服務平臺,而且還能針對不同行業使用者的需求,提供定製化的服務,提供定製化的深度學習演算法模型訓練及相關技術諮詢培訓,以加速應用落地。該服務平臺的HPC硬體平臺由戴爾提供。

戴爾為海爾IT技術支撐平臺提供和部署了網路系統、高效能並行儲存系統、CPU 計算叢集、GPU計算叢集、大記憶體計算叢集,並通過戴爾的叢集管理和資源管理軟體,實現了高效能運算平臺、大資料平臺和雲平臺的建立。助力海爾實現了語音模型訓練、語義演算法優化、影象模型訓練、知識圖譜構建、使用者畫像以及生產計算等多個系統的應用。

戴爾為清華大學蛋白質技術中心構建了高效能叢集HPC平臺,承載和支撐大規模生物學、醫學領域的研究計算任務,充分利用HPC平臺海量資料處理和平行計算能力,為生物大資料的高效處理和分析提供創新機制,滿足生命科學、生物學、醫學和其他交叉科學不斷提出的新要求和挑戰。

通過安裝戴爾HPC儲存系統解決方案,成功解決了上海交大HPC系統的痛點,不僅成功應對了使用者日益增長的儲存要求,提升了儲存系統性能的穩定性,並提供了輕鬆、高效、安全的管理環境,更有助於提升上海交大科研和教學的競爭力。

在全球,戴爾幫助多所大學建設了超級計算機中心,包括位於加州大學聖地亞哥分校的聖地亞哥超級計算機中心(SDSC)、位於德州大學奧斯汀分校的德州先進計算中心等。戴爾還幫助佛羅里達大學的HiPerGator超級計算機進行了擴充套件,為南非開普敦的高效能運算中心(CHPC)升級系統,解決了空間、能耗、散熱和預算的難題。

由此可見,戴爾一直努力實現HPC的“民眾化”,並本著開放、務實、應用就緒的原則,降低HPC的使用門檻。更為重要的是,在人工智慧成為這個時代的新風口之際,已經走在技術前沿的戴爾更希望通過推動HPC和人工智慧的融合,讓各行各業,都能感受到人工智慧帶來的價值,用人工智慧為全球產業升級發展賦予更新的力量。

640?wx_fmt=jpeg

申耀的科技觀察(微訊號:shenyao),由非著名科技媒體人申耀創辦、10萬公里公路自駕經驗老斯基,在各大自媒體平臺擁有專欄,致力於科技行業的觀察和思考,在這裡讀懂科技行業,知趨勢,贏未來!

640?wx_fmt=jpeg