中國E級別超算系統更多細節曝光,能量效率是目前最大挑戰
11月19日在 2018 年高效能運算、網路、儲存與分析國際會議(以下簡稱 SC18)上,高效能運算機及其核心軟體”重大專項總體組組長錢德沛對於中國於 2018 年開發的三個 E 級超算(即可以每秒百億億次浮點運算的超級計算機)原型機作了一次報告。這四十五分鐘的報告不僅驗證了我們之前的一些猜想,也讓我們更好地瞭解了中國超算原型機的設計以及基礎硬體構造。
錢德沛是國家“863 計劃”,“高效能運算機及其核心軟體”重大專項總體組組長。在開始正式報告前,他先呈現了中國在 E 級超算方面做出的努力,包括目標與其面臨的挑戰。錢德沛表示中國希望超算使用的技術都是“可控”的:也就是說大部分軟體和硬體設施都是中國製造的。而“可控”這點在這三臺原型機上完全可以體現出來。
錢德沛也提到了關於超算的詳細目標。譬如,中國希望打造一臺擁有以下效能的超算:峰值運算效能可以達到每秒百億億次浮點運算的 E 級超算,遠超其他國家的 LINPACK 測試值;至少 10PB 的系統記憶儲存;一個能提供至少每秒 500GB 的點對點頻寬、超算級延遲和可擴充套件性的互聯互通;以及每瓦特能量至少每秒 300 億次浮點運算的系統效率。
每瓦特每秒 300-億次浮點運算的效率可以讓每百億億級運算消耗 33 兆瓦。這相對於美國、日本與歐盟展望的 20 到 30 兆瓦還是有一定差距的。錢德沛也表示能量效率是他們面臨的最大的挑戰,其次則是應用效能、可程式設計性和耐久。
錢德沛在 SC18 的報告也是他第一次對外展現超算系統的硬體構成。去年他在日本的報告提供了一些資訊,但鑑於那次報告是在這些原型機開發前的,所以其中一部分資訊也就不再準確了。
曙光、天河和神威這三個原型機都是在前十個月內完成的;最近的原型機則是一個月前剛剛完成。在錢德沛的描述後,我們更好地瞭解了這些 E 級原型機的全貌,儘管一些細節還是不夠清晰。
曙光原型機

正如我們 10 月份猜測的那樣,曙光原型機裝備的是超微半導體公司(AMD)許可的海光 x86 處理器。這個設計在中國超算界的優勢在於保留了目前正在研發的超算軟體的相容性。
更有意思的是這個原型機使用了 DCU(Deep Computing Unit 深度計算器)作為加速器。這些海光提供的晶片在完全版超算中每個可以提供每秒 15 萬億次浮點運算。但是,他們目前的效能只能達到成品 E 級超算系統的一部分。
在這個 512 節點的曙光原型機,有兩個海光 x86 CPU(Central Processing Unit 中央處理器)以及每節點配備兩個海光 DCU。但在最近的一次測試中,只有一半的 DCU 被使用了。因為整個原型機的峰值運算效能可以達到每秒 3.18 千萬億次浮點運算。這意味著在原型機裡的 DCU 可以進行了大約每秒 6 萬億次浮點運算。雖然這已經不錯了,但如果他們想要達到制定的目標的話,他們需要把這個效能翻倍。
曙光希望每個 x86 CPU 在成品E 級超算裡提供每秒一萬億次浮點運算。這意味著海光需要增加其第一代“禪”(Zen)CPU 的效能,或者從超微獲得“禪 2 ”甚至“禪 3 ” CPU 的許可。
曙光原型機的互聯互通是一個基於每秒 200GB 頻寬的 6D-Torus 網路。雖然他們希望能夠將頻寬翻倍,但那仍比每秒 500GB 的目標低每秒 100GB。無論如何,互聯互通的實現依賴於光學技術。
曙光另一個有趣的設計是他對大型冷卻系統的使用。原型機使用的是 Imm058,一個在 50 攝氏度(122 華氏度)沸騰的冷卻劑。這也意味著他比 100 攝氏度(212 華氏度)沸騰的水冷卻劑更有效。
天河三號原型機

錢德沛給提供的有關天河原型機的資訊是最少的。正如我們在以前猜測一樣,天河的處理器是中國設計的高階精簡指令集(以下簡稱 ARM)晶片。這款晶片極有可能是來自飛騰公司(Phytium)的“小米”。
和 2017 年的報告一樣,在錢德沛SC18 的報告中,這款晶片只是被籠統的描繪成一款能夠平衡計算與記憶體的全新多核處理器。但是由於中國希望建造一個基於 ARM 的 E 級超算,除非中國改變既定計劃,我們可以通過排除法判定這是他們唯一的選擇。
如同曙光原型機一樣,天河系統是由 512 個節點組成的。其效能為每秒 3.14 千萬億次浮點運算,與曙光幾乎一樣。這意味天河有著一個強大的處理器。這個處理器接近於神威多核晶片(見上),或者一個更普通但適合每節點四介面設定的處理器。
該網路是有著最多四跳的一個 3D 蝴蝶設計。這是基於消耗低於 200 瓦的高基數路由器晶片。互聯互通結構將會採用光電技術,並給成品提供每節點每秒400GB 的頻寬。
這個設計同時將故障容許度作為了其特色展示。該技術實現在了互聯互通和一個新的未知儲存介質裡。
不管怎樣,這個原型機在很大程度上還保留著其神祕感。
神威原型機

這一臺原型機使用了神威 26010 型處理器。該款 260 核心處理器目前被用來驅動世界第三的太湖之光超級計算機。每臺原型機節點有兩個處理器,每秒可進行六萬億次峰值浮點運算。整個擁有 512 個節點的計算機每秒可進行 3.13 千萬億次浮點運算。
在當前狀態下,每個節點可以提供每秒 11 億次浮點運算。負責神威的工程師們需要提升接近三倍的效能來達到目標超算能效。他們在系統正式上線前的兩三年間需要有重大突破才可以達成目標。
神威太湖之光使用了 Mellanox 無限頻寬技術作為互通互聯結構,然而這臺 E 級超算原型機使用了一款提供每秒 200GB 點對點頻寬的本土網路晶片。這也契合了中國將所有 E 級超算技術本土化的戰略。在此基礎上,此款原型機還使用了一個神威儲存箱作為它的儲存系統。
和其他原型機一樣,神威系統也使用了液冷系統,不同的是它的散熱更偏向於傳統的銅製散熱片設計。
後記
這些 E 級原型機不謀而合地使用了512 節點的設計。標準化的大小讓科學家更容易公平地比較它們的表現,同時還讓這些 E 級原型機具有用於軟體開發的每秒千萬億次浮點運算效能。雖然如此,這些 E 級原型機卻不能算是 E 級超算計算機研發的基石。
這些每秒三千萬億次浮點運算的 E 級原型機更像是技術測試平臺。它們很難在同一代中不借助前 E 級超算(pre-exascale)平臺完成量的飛躍。雖然在兩三年間我們有可能目睹 E 級超算在中國上線(儘管太湖之光已經可以每秒十億億次浮點運算了),但是時間仍然十分的緊迫。從現在看來,在 2020 年前上線首個 E 級超算系統的目標似乎不像兩年前那麼可能了,即使是晚一年上線也會是一個很難完成的重大成就。
雖然如此,中國在 E 級超算上下的功夫會影響世界超級計算機的研究趨勢,這也包括了日常的高效能電腦。在摩爾定律被減慢的當下,高效能運算的意義也被資料分析以及機器學習重新定義。更多的高效能運算機設計和方法會給這個世界帶來更大幫助。第一批E 級超算計算機的出現可能也僅僅只是故事的開始。
參考:
ofollow,noindex">China Spills Details on Exascale Prototypes