1. 程式人生 > >雲端計算中心和超算中心有何區別?

雲端計算中心和超算中心有何區別?

歡迎訪問網易雲社群,瞭解更多網易技術產品運營經驗。  



傳統意義上,彈性和效能確實分別是雲端計算和超算最大的特色,這是二者設計目標不一致所決定的。


  • 通用 vs 專用:雲端計算的發展就是共享經濟在計算領域的演進,面向所有需要資訊科技的場景,應用領域和應用層次不斷擴張,要支撐構造千變萬化的應用;超算則主要提供國家高科技領域和尖端技術研究需的運算速度和儲存容量,包括航天、國防、石油勘探、氣候建模和基因組測序等,如美國的 Sequoia(紅杉)超級計算機的設計初衷主要是應用於核試驗模擬,Mira (米拉)超級計算機主要用於研究星體爆炸、核反應、氣候變化、噴氣發動機等。


  • 分佈 vs 並行:雲端計算以分散式為特色,統籌分散的硬體、軟體和資料資源,通過軟體實現資源共享和業務協同,執行的任務也是分散式的,現在甚至引申出了邊緣計算;超算叢集邏輯上是集中式的,針對計算密集型任務更強調平行計算(以獲得高效能),各節點任務存在前後的依賴,節點之間資料交換的延遲要求非常高。


  • 成本 vs 效能:雲端計算是規模經濟,講究成本效益,採用廉價x86硬體搭建,可用性、可靠性、擴充套件性主要通過軟體實現;超算捨得花錢堆計算和儲存能力,加速晶片、infiniband通訊、高階檔案系統的使用比較隨意,最後能源消耗也很高。


提問希望瞭解二者的區別,但小編在這裡要說,將雲端計算和高效能運算對立起來,已經不符合當下的雲和高效能運算(HPC)的發展形勢了。


  • 系統管理、高頻寬、低延遲、海量資料處理等,這些是當前雲端計算和 HPC 都需要解決的問題,某些雲端計算平臺允許提高成本以提升高效能,同時 HPC 也需要提升擴充套件能力以適應資料的膨脹。比如網易雲基礎服務,為效能優化引入 SR-IOV 網絡卡 ,在必要的時候也摒棄虛擬化層;如 SparkRDMA,使用較昂貴的 RDMA 技術提升 Spark 的 Shuffle 效能;如主流深度學習框架 TensofFlow ,也支援直接通過 RDMA 來做資料傳輸。


  • 雲端計算的生意已經覆蓋到 HPC 的需求,支援異構計算,各大雲服務商都推出 HPC 產品,主要面向深度學習應用,但也有科學計算的探索。AlphaGo 所需要的計算能力,就是由谷歌雲提供的,當然谷歌的 TPU 不可或缺。谷歌的 Cloud TPU 就是雲 HPC。雲 HPC 在外部網路通訊上還是短板,谷歌是通過 TPU pod 運算陣列的設計支援高速資料連線的。


據介紹,第二代 TPU 裝置單個的效能就能提供高達 180 teraflops 的浮點計算量。不僅如此,谷歌還將這些升級版的 TPU 整合在一起成為 Cloud TPU。每個 TPU 都包含了一個定製的高速網路,構成了一個谷歌稱之為“TPU pod”的機器學習超級計算機。一個TPU pod 包含 64 個第二代TPU,最高可提供多達 11.5 petaflops,加速對單個大型機器學習模型的培訓。


 

                                       Cloud TPU Pod 示意圖,包含 64 塊 Cloud TPU


  • 超算也已經通過雲化的形式共享其計算能力。比如部署在國家超算廣州中心的天河二號,研究人員根據應用的需求以及實際的硬體環境,對開源的 OpenStack 進行大量的定製和優化,並結合容器技術,打造企業級解決方案 KylinCloud 雲平臺,為政府部門和企事業單位的資訊化建設和大資料處理提供資源支撐。參考:天河二號上OpenStack的實踐和體會-CSDN.NET


  • 另外,從部署規模的維度來看,雲端計算的底層也是一種超級計算機——通過資料中心級作業系統,把不同地域的超大規模的物理伺服器,聚合成一臺超級計算機,統一排程和使用。


所以,現在雲端計算和超算更像是不同維度的概念,前者側重資訊科技的交付模式,後者側重體現系統的構建。


相關文章:
【推薦】 網易物件儲存NOS圖床神器
【推薦】 線上日誌集中化視覺化管理:ELK