英特爾最新計算架構終入主美“極光”超算計劃
美國能源部 3 月 18 日表示,美國政府、英特爾和克雷公司(Cray)正在聯合打造美國第一臺 E 級超級計算機,代號“極光(Aurora)”,預計最早於 2021 年正式在芝加哥阿貢國家實驗室投入使用(而中國的超算將在2020年升級到 E 級超算)。
美國這次的專案合同價值 5 億美元,英特爾擊敗了 IBM 和英偉達等超算處理器提供商,獨家提供基於最新 Xe 計算架構的 GPU,搭配新一代 Xeon 可擴充套件處理器和 Optane 儲存技術。在此基礎上,超算製造商克雷公司將提供 Shasta 超算平臺和硬體支援。

圖丨美國能源部部長 Rick Perry、英特爾執行長 Bob Swan 在最新超算合同簽約現場(來源:Intel)
“極光”計劃最早是在 2015 年出現,當初的設計目標僅有 180 PLOPS 的算力,原本預定在 2018 年交付。主要的算力達成是通過 Xeno Phi 第三代架構,代號 Knight Hill 的計算卡來達成,不過後來因為中國的超算髮展計劃更激進,使得極光計劃被迫回爐重造。
作為重造過後的極光計劃中最重要的計算核心,也就是在 2018 年底的“架構日”上,英特爾剛剛對外宣佈 Xe 計算架構,該架構聚集了英特爾自 AMD 挖角過來的的多位繪圖與計算技術專家的心血,標誌著其重返 GPU 領域的決心。新架構將採用 10 奈米工藝,廣泛的產品線將覆蓋普通消費市場、資料中心、AI 應用、整合和超算等多個領域,預計將在 2020 年正式問世。除此之外,英特爾並沒有透露更多具體的技術細節,畢竟還有 1 年多的時間,很多技術細節仍需打磨。

圖 | 英特爾架構發展表(來源:英特爾)
可以說,這一次“極光”專案能否成功,除了關乎到 E 級超算冠軍競賽,還關乎到英特爾能否順利拓展超算業務版圖,甚至在 GPU 領域重新立足。
目前,在排名前 10 的超算中,英偉達 GPU 加速器佔據了半壁江山,英特爾憑藉 Xeon 處理器(CPU)才能勉強與之分庭抗禮。但排名第一和第二的兩臺超算,“頂點”和“山脊”使用的卻是英偉達 Volta GPU 和 IBM Power9 處理器,第三名“神威·太湖之光”使用的是中國自研晶片。
這似乎讓 CPU 晶片巨頭英特爾倍感壓力。比如 IBM Power 計算架構向世界展示了它的強大,而相較英特爾為主的 x86 體系逐漸走向封閉,其在支援 NVLINK 之類的獨家規格的同時,也和其他計算架構供貨商合作推出了基於 CCIX 介面的 BlueLINK 開放架構,其欲取代 x86 成為 AI 計算領域通用平臺的意圖非常明顯。
隨著深度學習等 AI 計算的需求增加,GPU+CPU 的計算架構將變得越來越火熱,超算機構會更加重視像英偉達和 AMD 這樣的 GPU 巨頭,英特爾採取相應措施也在意料之中。
所以,獲得 5 億美元的合同,對英特爾 700 多億美元年營收的貢獻幾乎可以忽略不計。但從“極光”專案中獲得的 GPU 商業資源和研發經驗,對它重返闊別 20 多年的獨立顯示卡市場幫助極大,更何況是擊敗了英偉達和 IBM 等競爭對手,頗有此消彼長,王者歸來之勢。

圖 | 越來越多的超算選擇英偉達GPU作為加速器

圖 | 英特爾“極光”介紹視訊(來源:Intel)
Xe 繪圖架構或將改變英特爾的計算格局
如果成功,“極光”的運算效能可達每秒百億億次,即 EFLOPS(exaFLOPS)次浮點運算。E 級超算的名稱也是由此而來,理論上其效能是目前最快 P 級超算的 7-10 倍以上。
據美國官方透露,“極光”的主要任務之一是增強國防實力,比如用於模擬核爆炸,在無需核爆炸試驗的情況下研究核武器。它還會內建人工智慧技術,是進行深度學習和資料分析任務的最強平臺,可以用於研發新型材料、模擬氣候變化、分析自然災害、從事物理研究和發展新型能源等重要科研專案。
雖然“極光”專案早在數年前就已經公佈,但隨著詳細資訊公之於眾,全球 E 級超算競賽似乎正在加速,日本、美國、中國、歐盟等選手都已經悉數公佈計劃,甚至是具體架構和實施方案,第一臺 E 級超算有望在 2020-2025 年之間問世。
作為極光的計算核心,英特爾將首度使用全新 Xe 繪圖架構,雖然目前僅知該架構為英特爾 Gen11 的強化修改版,在加強了繪圖功能與效能的同時,也補足了專業計算能力。
GPU 在過去幾年,一直是作為擠進超算平臺排名的最強武器,排名靠前的大多數都採用了 GPU 計算為核心基礎,若英特爾得以在極光上大秀 GPU 計算的肌肉,那不只是做為美國超算平臺的突破,也同時是英特爾對於擴大計算架構領域的一大成功。
Xe GPU 計算架構也同時代表了英特爾自身計算架構的迭代,由於 2018 年,英特爾正式終止了 Larrabee 的後續發展計畫,這也代表未來 Knight 系列計算卡可能會以 Xe GPU 取代過去的 Larrabee 架構,並和 FPGA 共同成為計算卡的搭配設計,如此可兼顧在 AI 計算領域中的訓練與推理,就好比英偉達在其 GPU 中使用了 CUDA 計算單元與 TensorCore 計算單元的搭配一樣,可以更好的應對廣泛的計算應用。
另一方面,英偉達早就將 GPU 應用在汽車自動駕駛系統中,而作為英特爾自動駕駛佈局核心的 Mobileye,也將可能因此更動其自動駕駛系統的計算核心,讓 GPU 在其系統中擔任更重要的角色。Mobileye 此前宣佈其自動駕駛平臺將會開放第三方程式碼的執行能力,並在今年 CES 暗示更強大的自動駕駛核心已經在開發中,若能整合 Xe GPU,取代現有的定製向量加速計算架構,那麼對於整體計算生態,或者是通過讓開發者使用更熟悉的硬體架構來擴大未來英特爾自動駕駛平臺的軟體開發基礎,也更能幫助英特爾擴大其市場空間,應對包含英偉達在內的競爭對手的挑戰。

圖:英特爾的六大支柱(來源:英特爾)
回到“極光”身上,英特爾希望通過極光的建設,作為驗證自家六大支柱的練兵廠的意味濃厚,其計算效能的預期目標雖高,但反而是次要考量,畢竟,若能在此一役證明英特爾六大支柱的價值,那麼就可以對全世界複製更多相同的模式,創造更多超越極光的兄弟姊妹,抗衡包含 AMD 和英偉達的產品和算力佈局。
“頂點”超算助力美國重返頂點
雖然英特爾有自己的盤算,但美國極為重視極光計劃,畢竟超算作為大國重器,是許多包含物理、化學、能源,甚至武器在內等多數基礎科學發展的基礎,若算力不足,那麼就很難推動相關科技的持續領先地位。全球超算排名每年會以 TOP500 榜單形式公佈兩次,分別在 6 月和 11 月。
美國憑藉著進入半導體產業早,相關技術積累深厚,2013 年之前幾乎壟斷超算冠軍,不僅算力高超,就連超算的數量也佔據絕對優勢。不過近 10 年來,中國超算技術奮起直追,入圍榜單的超算數量越來越多,還在 2013 年依靠“天河二號”拿下冠軍寶座,直到 2016 年,才被另一臺中國超算“神威·太湖之光”頂替,並保持兩年之久。
兩者連續為中國佔據了 5 年 TOP500 榜首,直到 2018 年 6 月,美國“頂點”超算橫空出世,以每秒 12.23 億億次(峰值每秒 20 億億次)的計算能力一舉奪冠,效能超越“神威·太湖之光”60%,是之前美國最快超算泰坦(Titan)的 8 倍。

圖 | IBM的“頂點”超算(來源:IBM)
“頂點”,由美國能源部下屬橡樹嶺國家實驗室開發,是第一臺既支援傳統計算也支援執行人工智慧應用程式的超級計算機,目的在於解決目前機器學習與神經網路等 AI 應用的效能瓶頸。它使用了 4,608 個服務主機,搭載超過 9,000 個 IBM 的 22 核心 Power9 處理器和超過 27,000 個英偉達Tesla V100 GPU。
美國重返超算霸主地位,除了再次喚起美國人的自豪感之外,也有廣泛的實際應用場景。比如從新飛機的設計到新材料的製造、從軍方核武器的設計到最基礎的科學研究,無論是從科學研究還是軍事能力的角度出發,它都對美國繼續保持全球超級大國的地位起到非常重要的作用。
“頂點”的超高起點讓其他超算很難通過優化跟它比拼,況且工程師還在持續對其升級。在經過半年的優化後,2018 年 11 月,“頂點”的浮點運算速度從每秒 12.23 億億次增加到每秒 14.35 億億次,繼續擴大領先優勢。同時,半年前排行第三的美國“山脊(Sierra)”超算,也以微弱優勢力壓“神威·太湖之光”,晉級亞軍。

圖 | 全球超算前五名
因此,目前最新的超算前五名分別是美國“頂點(Summit)”,美國“山脊(Sierra)”,中國“神威·太湖之光”,中國“天河二號”和瑞士“代恩特峰(Piz Daint)”。
值得一提的是,雖然超算榜首易主,但中國超算整體水平正在持續上升。對比 2018 年 6 月和 11 月的 TOP500 榜單可以發現,中國超算數量從 206 臺增加到 227 臺,佔總數 45% 以上,創下新高。美國超算上榜總數為 109 臺,不及中國一半,創歷史新低,但美國超算在算力上繼續保持優勢,排名前 10 的超算中有 5 臺來自美國。
在排名前 10 的超算中,IBM 參與制造了其中的 3 臺,技術優勢明顯。但整體來看,聯想一共在全球製造了 140 臺,是數量最多的超算製造商。榜單還顯示,中國企業在全球超算製造商排名中包攬了前 3,除了第 1 名的聯想,還有浪潮以 84 臺名列第 2,中科曙光以 57 臺名列第 3。華為 14 臺,排名第 8。

圖 | TOP500超算比例
歐、日、美早早佈局E級超算
隨著資料分析和 AI 技術的計算需求越來越高,現有的 P 級(petaFLOPS)每秒千萬億次計算能力終究會有“不夠用”的情況出現,因此歐盟,日本和美國等都早早開始佈局 E 級超算,試圖達到每秒百億億次計算級別,全力爭奪“超級計算機界的下一頂皇冠”。
早在 2011 年,歐盟就有提出過 E 級超算專案,但直到 2017 年才正式公佈“歐洲高效能運算共同計劃”,次年 9 月,成立“EuroHPC”部門負責該專案。歐盟將從參與的法國、德國、西班牙、義大利等 13 個國家中籌集 10 億歐元,建造歐洲高效能運算基礎設施,希望於 2023-2026 年完成,最終超越中美日等超算強國。
日本最早在 2013 年底首次推出了 E 級超算計劃,斥資超過 10 億美元,由日本理化學研究所的計算科學研究機構(AICS)負責研製,預計 2021-2022 年釋出。
日本計劃將 E 級超算命名為“後京(Post-Kyo)”,計劃使用富士通自主研發的 ARMv8 SVE(可伸縮向量擴充套件) 新款 Kyo 超算晶片,是日本現有超算“京(Kyo)”晶片的二代版本,理論效能可以大幅超越美國“頂點”,重新與中美競爭榜首。

圖|由富士通研發的新一代 Kyo 超算平臺誓言要讓日本重回 Top 500 超算榜首
而美國也早在 2015 年就提出了“國家戰略計算推進計劃(NSCI)”,目的是確保其高效能運算領先地位,力求在 2025 年前製造出世界上最快的 E 級超算。
事實上,美國能源局在 2014-2015 年投資了三臺十億億量級的超算,分別是“頂點”,“山脊”和“極光”,作為衝擊超算冠軍的種子選手。
但 2018 年的結果顯示,“頂點”和“山脊”已經足夠強大,而且英特爾的新 Xeon Phil 加速器無法按期完成,因此“極光”被重新評估,最終與 E 級超算專案 A21 合併。美國同時進行的 E 級超算專案還有“先鋒(Frontier)”和“酋長巖(El Capitan)”等。
不僅如此,為了鞏固自己的地位,美國還在 2015 年決定禁止英特爾向中國 4 家超算機構出售 Xeon Phi 處理器,從而限制中國超算的發展。當時,排名第一的“天河二號”超算使用了數萬顆 Xeon 處理器。
然而這不僅沒有影響中國超算技術向前邁進,反而加快了相關晶片自主研發的腳步。
禁售令釋出一年後,“神威·太湖之光”登頂 2016 年 TOP500 榜單,搭載申威 26010 處理器,不使用英特爾晶片,也不使用逐漸流行的 GPU 計算架構,僅靠純 CPU 計算架構組合,雖然能耗方面略顯弱勢,但效能仍然蟬聯 4 次冠軍,直到投資力度、架構、工藝和技術都更勝一籌的“頂點”問世。

圖 | 神威·太湖之光
中國能否在E級超算反超
同樣是 2016 年,中國科技部正式啟動“十三五”E 級超算研發計劃,決定“兵分三路”,用三臺 E 級原型機實現 E 級超算的研製,預計在 2020 年投入使用。
中國希望打造一臺擁有以下效能的超算:峰值運算效能可以達到每秒百億億次浮點運算的 E 級超算,遠超其他國家的 LINPACK 測試值;至少 10PB 的系統記憶儲存;一個能提供至少每秒 500GB 的點對點頻寬、超算級延遲和可擴充套件性的互聯互通;以及每瓦特能量至少每秒 300 億次浮點運算的系統效率。
三臺 E 級原型機分別是“曙光”、“神威”和“天河三號”,分別由中科曙光、江南計算技術研究所以及國防科技大學研發。目前,三臺原型機都已經完成,全部使用了 512 節點的設計,並且配有液冷系統。

“曙光”原型機裝備的是兩顆 AMD 授權的海光 x86 處理器。這個設計的優勢在於保留了目前正在研發的超算軟體的相容性。
該原型機使用了深度計算器(Deep Computing Unit)作為加速器,每個節點配有兩個海光 DCU。測試時,理論峰值運算效能可達每秒 6 萬億次浮點運算,但要想達到 E 級超算目標,這個數字至少要翻一倍。
而且如果“曙光”想要提高 x86 處理器的效能,海光可能要提升其第一代“禪”(Zen)處理器的效能,或者從 AMD 獲得“Zen 2”甚至“Zen 3”的授權。

“神威”原型機仍然使用了申威 26010 處理器,每個節點有兩個處理器,每秒可進行 6 萬億次峰值浮點運算,擁有 512 個節點的計算機每秒可進行 3.13 千萬億次浮點運算。
在當前狀態下,它可能需要提升接近三倍的效能才能達到 E 級超算能效。
與“神威·太湖之光”不同的是,這臺原型機使用了一款提供每秒 200GB 點對點頻寬的本土網路晶片,而非 Mellanox 無限頻寬技術。這契合了中國計劃將所有 E 級超算技術本土化的戰略。在此基礎上,它還使用了一個神威儲存箱作為它的儲存系統。

“天河三號”原型機是目前最為神祕的一個。它使用的是中國設計的高階精簡指令集(ARM)晶片。這款晶片的公開資訊很少,只是被籠統的描繪成一款能夠平衡計算與記憶體的全新多核處理器,極有可能是來自飛騰公司(Phytium)的“小米”。
該原型機效能為每秒 3.14 千萬億次浮點運算,與“曙光”幾乎一樣,說明“天河”的 ARM 處理器效能也很強大。
“天河”的互聯互通結構將會採用光電技術,提供每節點每秒 400GB 的頻寬,儲存在一個新的未知儲存系統中。
三臺原型機的陸續問世,證明了中國邁出了研發 E 級超算的重要一步,但仍然困難重重。這些每秒三千萬億次浮點運算的 E 級原型機更像是技術測試平臺。它們很難在同一代中不借助前 E 級超算(pre-exascale)平臺完成量的飛躍。
中國“高效能運算機及其核心軟體”重大專項總體組組長錢德沛認為,能量效率是中國面臨的最大挑戰,其次則是應用效能、可程式設計性和耐久度。
傳統半導體架構帶來的熱和運作能耗是難以解決的問題,這也導致超算的持續運作維持成本可能要高於建構成本,若運作成本持續攀高,恐怕會限制未來超算的發展空間。按照目前的浮點運算效率估算,中國每百億億級運算消耗能量約為 33 兆瓦。這相對於美國、日本與歐盟展望的 20 到 30 兆瓦還有一定差距。

中國原計劃於 2020 年推出 E 級超算,目前來看,想要如期完成目標的時間緊迫,難度很大。不過,近年來中國 AI 風潮的興起,以及包含寒武紀、神威架構等多種計算核心的發展帶動之下,成功推動領先全球的超算架構發展,同時也代表算力核心的部分也逐漸擺脫美國供貨商的限制,走向自有化。
結合其他國家的超算計劃來看,中國的超算髮展已經跟上了步伐,甚至走在了前沿。
隨著中、美、日、歐紛紛加入超算競爭,我們或許將在 2020-2021 年見證 E 級超算正式誕生。當然,還有很多計算架構在發展壯大,比如量子計算和光子計算,它們的效能將會比傳統計算強大數百倍以上,甚至從根本上顛覆超算的架構。
就像前文所說,在資料當道的今天,追求更高算力的價值遠遠不止國力和冠軍這樣的象徵意義。
毫不誇張的說,算力已經成為支撐科研工作者探索世界的重要手段,有望為很多棘手問題提供更優解,比如應對全球環境汙染、能源危機以及氣候變化等關係全人類命運的重大難題,從而從根本上推動人類社會的發展。
這也是科技的真正價值所在。