1. 程式人生 > >[CB]Intel 2018架構日詳解:新CPU&新GPU齊公佈 牙膏時代有望明年結束

[CB]Intel 2018架構日詳解:新CPU&新GPU齊公佈 牙膏時代有望明年結束

Intel 2018架構日詳解:新CPU&新GPU齊公佈 牙膏時代有望明年結束

北京時間12月12日晚,Intel在聖克拉拉舉辦了架構日活動。在五個小時的演講中,Intel揭開了2021年CPU架構路線圖、下一代核心顯示卡、圖形業務的未來、全新3D封裝技術,甚至部分2019年處理器新架構的面紗。

訪問購買頁面:

英特爾旗艦店

姍姍來遲的消費級CPU路線圖

近一段時間以來,業界一直非常期待看到Intel未來的架構路線圖,但自Skylake以來卻一直處於猶抱琵琶半遮面的狀態。最近幾個月Intel簡單公佈了一部分資料中心產品路線圖,包括Cascade Lake,Cooper Lake和Ice Lake以及未來幾代,但消費級產品卻依舊難產。

在本次架構日活動上,Intel終於帶來了消費級的PC處理器架構路線圖和Atom架構路線圖。

在高效能的Core系列產品線上,Intel列出了未來三年內的三個新代號:Sunny Cove、Willow Cove和Golden Cove,其中離我們最近的Sunny Cove將於2019年上市(PS:你猜會不會鴿^_^)。

據悉,Sunny Cove架構旨在提高通用計算任務下每時鐘計算效能和降低功耗,將擁有AVX-512單元,幷包含了可加速人工智慧和加密等專用計算任務的新功能,將成為Intel下一代PC和伺服器處理器的基礎架構。

隨後的Willow Cove在路線圖上位於2020年,很可能也是10nm。Intel將此處的重點列為快取重新設計(可能意味著L1/L2調整)、新的電晶體優化(基於製造)以及其他安全功能,可能是指新一類側通道攻擊的進一步增強。

Golden Cove則位於圖表中的2021年,工藝製程仍是一個問號,可能是10nm也可能是7nm,Intel將進一步提升其單執行緒效能和人工智慧效能,並在核心設計中增加了潛在的網路和AI功能,安全特性看起來也得到了提升。

Atom系列低功耗處理器的架構路線圖比酷睿系列的節奏慢,考慮到其歷史,這並不奇怪。鑑於Atom必須適應各種裝置,業界更多的是期望產品能夠提供更廣泛的功能,尤其是SoC方面。

即將在2019年推出的架構名為Tremont,專注於單執行緒效能、網路伺服器效能以及電池續航時間的提升。緊隨Tremont之後的將是Gracemont,Intel將其列為2021年的產品,可能會擁有更寬的向量處理單元或支援新的向量指令。

從路線圖上看,Gracemont之後還會有一款“XXXmont”系列核心,Intel正在研究這款新核心在2023年時可能具備的效能、頻率和特性。

上面這些是架構的名稱,而實際產品可能可能會有另外的代號,也就是酷睿系列近些年來一直使用的“XXX-Lake”命名,比如代號為Ice Lake的處理器就是由Sunny Cove架構的CPU核心與Gen11核心顯示卡聯合構成。

 

活動中的另一個值得關注的訊息是,Intel未來的架構很可能與工藝製程脫離關係。Raja Koduri和Murthy Renduchintala博士解釋稱,為了讓產品線擁有一定的彈性,未來這些架構的最新產品將以當時可用的最佳工藝製程推向市場。

雖然沒有明說,但這應該意味著目前已經名存實亡的“Tick-Tock”策略徹底被掃進了歷史的垃圾桶,未來某些核心設計跨越不同製程的情況可能會成為常態。

窺探Sunny Cove架構

每次聽到全新處理器架構的訊息時,大家最期待的都是對於新架構的詳細分析,以及相對前代的變化情況。

自Skylake於2015年首次推出以來,到目前為止Intel已經推出了Kaby Lake、Coffee Lake和Coffee Lake三代小改款,由於每代提升都不大,被玩家戲稱為“擠牙膏”。雖然這次Intel展示了全新的Sunny Cove架構,但遺憾的是其資訊還不夠全面,主要集中在架構設計的後端部分。

Intel將其微體系結構更新分為兩個不同的部分:通用效能提升和特殊用途效能提升,通用效能提升指原始IPC(每時鐘指令)吞吐量或頻率增加,IPC的增加可能來自核心更寬(每個時鐘執行指令更多)、更深(每個時鐘更多並行)或更智慧(通過前端更好的資料傳輸),而頻率通常是實現和過程的函式,而特殊用途效能提升可以通過其他加速方法(如專用IP或專用指令)來改進特定方案中使用的某些工作負載。

據悉,Sunny Cove在通用效能和特殊用途效能兩個方面有著全方位的提升。在架構的後端部分,Intel已經做了包括增加快取記憶體大小、增加核心執行寬度、增加L1儲存頻寬等改進。

Sunny Cove架構的L1資料快取從32KB升級為48KB,通常當快取容量增大時,快取未命中的概率將以平方根的比例降低,因此Sunny Cove架構的L1快取未命中率理論上可減少22%。同時Sunny Cove架構Core和Xeon處理器的L2快取也將分別比目前的256KB和1MB有所增加,具體容量尚未可知。

此外,微操作(uOp)快取和二級TLB雖然不屬於後端,但其容量也都相比目前有所增加,這將有助於機器地址轉換。圖中還可以看到一些其他更改,例如執行埠從8增加到10,允許一次從排程程式中獲得更多指令;重排序緩衝區的排程也從每個週期4條指令增加到5條指令;埠4和埠9連結到了一個迴圈資料儲存,使頻寬加倍,但AGU儲存功能也增加了一倍,這將有助於增加L1-D大小。

Sunny Cove架構的執行埠也發生了重大變化,詳情見下圖:

我們看到Intel為核心的整數部分配備了更多LEA單元,以幫助進行記憶體定址計算,可能有助於通過需要頻繁記憶體計算的安全緩解來幫助改善效能損失,或者幫助提供具有恆定偏移的高效能陣列程式碼。埠1從Skylake埠5獲取MUL(乘法)單元,可能用於重新平衡,但此處還有一個整數分頻器單元。這是一個小小的調整,Cannon Lake在其設計中也有一個64位IDIV(帶符號整數除法)單元,在這種情況下,它將64位整數除法從97個時鐘(混合指令)降低到18個時鐘,Sunny Cove可能與之類似。

在整數運算單元方面,埠5的乘法單元已成為“MulHi”單元,在其他架構中,它會在暫存器中留下最重要的半位元組以便進一步使用,但目前不能確定它在Sunny Cove核心中的位置究竟是什麼。

在浮點運算單元方面,Intel增加了洗牌資源,這是出於消除程式碼中瓶頸的考慮。Intel沒有在核心的浮點運算部分說明FMA(熔加運算)的功能,但既然核心內有一個AVX-512單元,這些FMA中就應至少有一個與之互動。Cannon Lake只有一個512位的FMA,這個FMA很可能在這裡,而Xeon的可擴充套件版本可能會有兩個FMA。

Intel列出的其他更新包括分支預測器的改進,以及由TLB和L1-D帶來的有效負載延遲降低。有人指出這些改進無法幫助到所有使用者,可能只有全新的演算法才能使用這些特定部分的核心能力。

除了架構上的差異,Sunny Cove還增加了新的指令以幫助加快專業計算任務。隨著AVX-512單元的出現,新架構將支援用於大算術計算的IFMA(帶符號熔加運算)指令,這些指令在密碼學中非常有用。Sunny Cove還支援Vector-AES、Vector Carryless Multiply、SHA、SHA-NI以及Galois Field指令,這些指令也是密碼學的一些元素中的基本構建塊。

Sunny Cove支援更大的記憶體容量,其主儲存器分頁表從4層增加到了5層,支援最多57bit線性地址空間和最多52bit實體地址空間,這意味著伺服器處理器理論上可支援單插槽4TB記憶體。

根據Intel之前的Xeon路線圖,Sunny Cove將在2020年與Ice Lake-SP一起在伺服器領域上市。為了安全起見,Sunny Cove具有多金鑰全記憶體加密和使用者模式指令預防功能。

Gen11核心顯示卡

2015年,Intel推出了採用Gen9核心顯示卡的Skylake處理器,不過隨後Kaby Lake和Coffee Lake的核心顯示卡都只是Gen9.5而非Gen10。實際上,Intel 10nm Cannon Lake處理器本該對應Gen10,但Intel從未釋出過帶核心顯示卡的PC端Cannon Lake處理器。

今天,Intel首席架構師、核心與視覺計算集團高階副總裁兼邊緣計算解決方案總經理Raja Koduri直接公佈了全新的Gen11核心顯示卡,並重申了在2020年推出獨立圖形處理器的計劃。

根據路線圖,Gen11核心顯示卡將於2019年開始隨10nm處理器一同面世,配備64個EUs(增強型執行單元),運算規模是此前Gen 9核心顯示卡的2倍,浮點運算效能超過1TFlops。這64個EUs被分成4個切片,每個切片由2個8EUs的子切片組成,每個子切片均擁有指令快取和3D取樣器,而較大的4個切片則擁有2個媒體取樣器、1個PixelFE以及額外的載入/儲存硬體。

Intel並沒有透露太多關於如何提高EU效能的詳情,但表示EU內部的浮點運算單元介面是重新設計,支援快速(2x)FP16效能。每個EU均像以前一樣支援7個執行緒,這意味著整個GPU有512個併發管道,Intel表示已經重新設計了記憶體介面,並將GPU的L3快取增加到3MB,相比Gen9.5增加了4倍。

Gen11核心顯示卡的一項重大改進是終於支援了瓦片式渲染,這讓Intel成為繼2014年的NVIDIA和2017年的AMD之後,最後一個實現這一特性的PC GPU供應商。雖然瓦片式渲染不是解決GPU效能問題的靈丹妙藥,但是優化良好的瓦片式渲染可以很好的適應核心顯示卡的頻寬限制。

與此同時,Intel的無損記憶體壓縮技術也有所改善,在最佳情況下效能可提高10%,平均可提高4%。GTI介面現在支援每個時鐘讀寫64位元組以增加吞吐量,以與重新設計的記憶體介面相配合。

Gen11核心顯示卡還支援Intel全新的多速率著色技術Coarse Pixel Shading(粗畫素著色),這與NVIDIA的可變畫素著色很相似,能讓GPU減少陰影部分畫素所需的渲染操作量。Intel為CPS展示了兩個演示,其中畫素陰影分別作為與相機距離和螢幕中心相關的一個函式,當物體離相機或螢幕中心較遠時渲染量減少,其設計目的是幫助VR實現注視點渲染等功能,Intel表示遊戲在支援這一技術後可提高約30%的幀率。

Raja Koduri宣佈了Intel獨立顯示卡業務的新產品品牌:Xe,目前仍被非正式的稱為“Gen12”系列,將從2020年開始覆蓋從客戶端到資料中心的所有領域,也涵蓋了未來的核心顯示卡解決方案,Intel希望Xe從入門到中檔,再到發燒友以及AI,都能向競爭對手最好的產品發起競爭。

Xe將從10nm節點開始,為未來幾代圖形奠定基礎,並將遵循Intel的單一堆疊軟體哲學,即希望軟體開發人員能夠利用CPU、GPU、FPGA和AI,所有這些都使用同一套API,這表明Intel已經準備好圍繞一個品牌向前發展。

作為架構日活動的一部分,Intel在現場進行了大量晶片演示,據稱這些演示均是基於新的Sunny Cove核心和Gen11核心顯示卡,目前的演示涉及專案包括7-Zip應用和鐵拳7遊戲兩部分。

7-Zip專案相對直接,演示機的同頻效能相較於SkyLake平臺提高了75%,展示了Sunny Cove架構的Vector-AES和SHA-NI等新指令所帶來的特殊用途效能提升。而在鐵拳7中,Sunny Cove+Gen11的演示機與SkyLake+Gen9相比更順暢,完全超出30fps的最低要求。

改變晶片製造方式的Foveros 3D封裝

關注過半導體晶片設計的人都應該清楚,目前生產的大多數CPU和SoC都是基於單片晶片的模具,即在封裝和進入系統之前,單片矽片內就已經具備了所需的一切。此外,還有一些帶有共享連線的多晶片封裝,以及將不同晶片通過高速互連連線在一起的載板或嵌入式橋產品。

在現代晶片設計中,最大的挑戰之一是儘量減少芯片面積,這樣可以降低成本和功耗,並且可以使其更容易在系統中實施。不過,當涉及到提升效能時,大型單晶片或多晶片封裝的缺點之一是與記憶體距離太遠,因此Intel準備將3D堆疊引入大眾市場。

Raja介紹稱,Intel數十年來一直專注於高效能工藝節點,試圖儘可能多的釋放其核心效能。除此之外,Intel還以類似的節奏執行IO優化工藝節點,但更適合PCH或SoC型別的功能。

126x和127x是Intel程序節點技術的內部編號系統,不過圖上並沒有區分出帶“+”字尾的節點變體。Raja展示了現有的2019年工藝技術,計算核心方面有10nm的1274工藝,IO方面有14nm的1273工藝,而本次介紹的Foveros 3D堆疊技術工藝代號是P1222。展望未來,Intel將擴大其節點基礎,以便它可以覆蓋更多的功率和效能點。

為了實現這一目的,一種方法是通過貼片和封裝,為每種情況下的工作選擇最佳電晶體,無論是CPU、GPU、IO、FPGA、RF還是其他東西,只要使用正確的封裝,就可以將它們放在一起以獲得最佳的優化。

這正是Foveros的用武之地。Foveros是英特爾新推出的有源載板技術,其設計相比2018年推出EMIB(嵌入式多晶片互連橋接)2D封裝技術,更適用於小尺寸產品或對記憶體頻寬要求極高的產品。在這些設計中,每位元傳輸的資料的功率非常低,而封裝技術要處理的是凹凸間距減小、凹凸密度增大以及晶片堆疊技術。Intel表示Foveros已經準備就緒,可以大規模生產。

這個技術的第一次迭代不像上面的幻燈片那麼複雜,只是使用了一組連線到下面PCH的CPU核心,但Intel可以在不同的晶片上使用不同的電晶體型別,比如在一塊使用22FFL製程的載板上放置一組10nm的CPU。

Intel在架構日現場展示了Foveros晶片,其採用22FFL IO晶片作為有源載板,並用TSV(矽通孔技術)連線了一顆10nm晶片,其中包含1個Sunny Cove核心和4個Atom核心(可能是Tremont)。這款微型晶片尺寸為12*12,待機功率僅為2mW,看起來似乎是面向移動裝置。

在Intel的幻燈片上可以看到,Sunny Cove核心的“Big CPU”帶有0.5 MB獨享L2快取,4個小型Atom核心則有1.5MB共享L2快取,兩組核心共享4MB L3快取。晶片還集成了64EUs的Gen11核心顯示卡、四通道LPDDR4記憶體控制器(4*16bit),以及支援DisplayPort 1.4的MIPI(移動產業處理器介面)。

Jim Keller表示,Intel正在嘗試使用Foveros技術製造許多新玩意兒,看看哪些可能成為一個好產品,因此在2019年和2020年業內應該能看到更多Foveros產品。

一些周邊訊息

在本次架構日活動中,最“沒激情”的部分應該是有關資料中心產品的討論。Intel之前已經公佈了企業市場接下來的兩款產品是Cascade Lake和Cooper Lake,均以14nm為基礎,專注於增強安全性以及幫助加速的AI指令,隨後還會有10nm的Ice Lake Scalable,但也僅此而已。

不過在活動中Intel還是證實了Ice Lake將基於Sunny Cove架構打造構建,並展示了Ice Lake Xeon 10nm處理器的封裝,算是一點安慰性的新訊息吧。

此外,Intel還在活動上介紹了傲騰技術、One API軟體以及深度學習參考堆疊等內容。

One API軟體:Intel宣佈推出“One API”專案,以簡化跨CPU、GPU、FPGA、人工智慧和其它加速器的各種計算引擎的程式設計。該專案包括一個全面、統一的開發工具組合,以將軟體匹配到能最大程度加速軟體程式碼的硬體上。公開發行版本預計將於2019年釋出。

傲騰技術:Intel傲騰資料中心級持久記憶體作為一款新產品,集成了記憶體般的效能以及資料的永續性和儲存的大容量。這項技術通過將更多資料放到更接近CPU的位置,使應用在人工智慧和大型資料庫中的更大量的資料集能夠獲得更快的處理速度。其大容量和資料的永續性減少了對儲存進行訪問時的時延損失,從而提高工作負載的效能。

Intel傲騰資料中心級持久記憶體為CPU提供快取行(64B)讀取。一般來說,當應用把讀取操作定向到傲騰持久記憶體或請求的資料不在DRAM中快取時,傲騰持久記憶體的平均空閒讀取延遲大約為350ns。如果實現規模化,傲騰資料中心級固態盤的平均空閒讀取延遲約為10000ns(10μs),這將是顯著的改進。在某些情況下,當請求的資料在DRAM中時,不管是通過CPU的記憶體控制器進行快取還是由應用所引導,記憶體子系統的響應速度預計與DRAM相同(小於100 ns)。

Intel還展示了傲騰與QLC固態硬碟的結合,將降低對最常用資料的訪問延遲。總體來說,這些對平臺和記憶體的改進重塑了記憶體和儲存層次結構,從而為系統和應用提供了完善的選擇組合。

深度學習參考堆疊(Deep Learning Reference Stack):這是一個整合、高效能的開源堆疊,基於Intel至強可擴充套件平臺進行了優化。該開源社群版本旨在確保人工智慧開發者可以輕鬆訪問Intel平臺的所有特性和功能。深度學習參考堆疊經過高度調優,專為雲原生環境而構建。該版本可以降低整合多個軟體元件所帶來的複雜性,幫助開發人員快速進行原型開發,同時讓使用者有足夠的靈活度打造定製化的解決方案。

  • 作業系統:Clear Linux 作業系統可根據個人開發需求進行定製,針對Intel平臺以及深度學習等特定用例進行了調優;

  • 編排:Kubernetes可基於對Intel平臺的感知,管理和編排面向多節點叢集的容器化應用;

  • 容器:Docker容器和Kata容器利用Intel虛擬化技術來幫助保護容器;

  • 函式庫:Intel深度神經網路數學核心函式庫(MKL DNN)是Intel高度優化、面向數學函式效能的數學庫;

  • 執行時:Python針對Intel架構進行了高度調優和優化,提供應用和服務執行執行時支援;

  • 框架:TensorFlow是一個領先的深度學習和機器學習框架;

  • 部署:KubeFlow是一個開源、行業驅動型部署工具,在Intel架構上提供快速體驗,易於安裝和使用。