寫在RTX2080評測之前:老黃想用AI/光線追蹤顛覆顯示卡?
原標題:寫在RTX2080評測之前:老黃想用AI/光線追蹤顛覆顯示卡?
【PConline 雜談】過去兩年的顯示卡市場是遊戲玩家不堪回首的記憶,2016年NVIDIA釋出Pascla顯示卡之後帶來了效能更強、能效更好的GTX 10系列顯示卡,但是之後顯示卡市場遭遇礦卡從瘋狂到崩盤、視訊記憶體大漲價等多方因素影響,導致顯示卡市場兩年來都沒新一代更替,直到8月20日的科隆遊戲展上,NVIDIA推出了代號圖靈Turing的新一代GPU架構,並啟用了GeForce RTX品牌,新一代顯示卡終於來了。
遊戲玩家這一次的等待時間很長,不過某種方面來說這次的等待也很值得,因為NVIDIA的圖靈顯示卡號稱有史以來升級最大的GPU架構,創始人、CEO黃仁勳直接稱之為2006年以來GPU最大的飛躍。
另一方面,全新的GeForce RTX 20系列顯示卡的售價也水漲船高,這次釋出了GeForce RTX 2080 Ti、RTX 2080及RTX 2070三款顯示卡,其中前兩款顯示卡率先上市,FE創始人公版RTX 2080 Ti價格達到了9999元,RTX 2080顯示卡的FE公版也要6499元,第三方廠商的價格分別是8199、5699元,整體價格比現在的GTX 1080系列高出一截。
目前NVIDIA的GeForce RTX 2080系列顯示卡還沒有解禁,因此效能提升幅度還沒有定論,不好比較更高價的RTX 2080系列顯示卡是否對得起它的售價。不過今晚NVIDIA解禁了圖靈顯示卡的技術細節,我們可以從技術角度來看看圖靈GPU架構到底帶來哪些改變?
GP102與TU102核心引數對比 |
||||
顯示卡 | RTX2080Ti | GTX1080Ti | Quadro RTX 6000 | Quadro 6000 |
架構 | Turing | Pascal | Turing | Pascal |
電晶體數 | 186億 | 120億 | 186億 | 120億 |
製作工藝 | 12nm | 16nm | 12nm | 16nm |
流處理器 | 4352 | 3584 | 4608 | 3840 |
RTX-Ops | 78 | 11.3 | 84 | - |
視訊記憶體容量 | 11GB | 11GB | 24GB | 24GB |
視訊記憶體型別 | GDDR6 | GDDR5X | GDDR6 | GDDR5X |
視訊記憶體位寬 | 352Bit | 352Bit | 384bit | 384bit |
視訊記憶體頻率 | 14000MHz | 11000MHz | 14000MHz | 9000MHz |
視訊記憶體頻寬 | 616GB/s | 484GB/s | 672GB/s | 432GB/s |
FP32 | 14.2TFlops | 11.3TFlops | 16.3TFlops | 12.6TFlops |
FP16 | 28.5TFlops | - | 32.6TFlops | - |
INT8 | 227.7TFlops | - | 261.0TFlops | - |
TDP | 260W | 250W | 260W | 250 |
▍ NVIDIA圖靈架構改進:
1、圖靈CUDA核心大改:效能提升50%
N卡玩家常聽到的一個詞就是CUDA核心,它就是GPU架構中的基本單位——流處理器單元,CUDA核心數越多,顯示卡效能越強,同時每個CUDA核心的效能越強,這就類似於CPU中的核心數及單核效能一樣,只有CUDA核心又多又強的情況下顯示卡效能提升才會更明顯。
在現在的Pascal顯示卡上,GP102大核心的CUDA核心數最多3840個,GTX 1080 Ti是3584個,而圖靈GPU的TU102核心完整版是4608個CUDA核心,不過RTX 2080 Ti現在只使用了4352個,從3584到4352意味著CUDA核心數增加了21%,這個增幅並不算高,因為圖靈這一代的CUDA架構著重於提升效能,NVIDIA宣稱每個CUDA核心的效能提升了50%。
CUDA核心效能大幅增長則受益於SM單元的改變,在Pascal GPU架構中,NVIDIA在GP102、GP104、GP106核心中的SM單元中塞入了128個CUDA核心,配備了48KB L1快取、96KB共享快取、256KB暫存器容量, 架構如下所示:
GTX1080顯示卡的GP104核心SM單元架構
TU102核心的SM單元架構
圖靈GPU架構的SM單元不一樣,NVIDIA減少了SM單元中的CUDA核心數到64個,但增大了SM單元數量,TU102總計72組SM單元,而GP104是20組SM單元,同時又增加了每組SM單元的快取,新增了L0快取、L1/共享快取增加到了96KB,看似減少了,但是分配方式更靈活,需要的時候L1快取分配到64KB,比Pascal顯示卡的48KB提升50%。
此外,圖靈GPU的SM單元還基於常見工作負載做了執行單元的優化,增加了第二條並行單元,在執行整數型別的計算時浮點單元也不會空置了,使得執行單元的效率提升了36%,大幅提升了執行單元的效率及效能。
總的來說,在CUDA及SM單元上,圖靈架構重新分配了快取系統,優化了執行單元效率,使得CUDA核心效能最多提升50%,在其他不同型別的負載中提升幅度也有50-70%,使得圖靈顯示卡在CUDA核心數沒有大幅增長的情況下游戲效能依然有明顯提升。
圖靈架構的重點之一:保留Tensor單元,顯示卡也能玩AI
圖靈顯示卡雖然大幅提升了CUDA單元的效能,那為什麼不增加更多的CUDA單元呢?畢竟核心面積以及電晶體規模相比Pascal顯示卡大幅增加了,原本該有足夠的空間增加CUDA核心才對。這個問題就要說到NVIDIA在圖靈架構上的野心了,這也是NVIDIA一直強調圖靈顯示卡為什麼是有史以來架構變化最大的GPU了,因為它增加了AI運算單元及RT光線追蹤渲染單元。
先說AI單元,實際上叫做Tensor Core(張量核心),這是Volta架構上首次增加的新單元,圖靈架構繼承了Tensor Core設計,每個SM單元中有8個Tensor Core核心,總計576個Tensor單元,不過RTX 2080 Ti實際啟用的是544個。
相比一般的CUDA核心,Tensor Core主要用於執行神經網路、推理訓練等深度學習相關的運算,特點就是對效能要求很高,但對運算精度沒這麼高,因此圖靈架構大砍了FP64雙精度運算,僅為FP32單精度的1/32,反正對遊戲來說FP64單元沒什麼意義,只會增加功耗。
增加專用的Tensor Core核心之後,圖靈顯示卡的AI效能大幅提升,以RTX 2080 Ti為例,其FP32浮點效能為13.4TFLOPS,FP16浮點效能翻倍到了26.89TFLOPS,FP16 Accumulate效能高達107.6TFLOPS,INT8、IN4效能更是可以達到215.2TFLOPS、430.4TFLOPS,這是現有Pascal顯示卡不支援的運算。
圖靈顯示卡增加了Tensor除了可以用於AI加速運算,NVIDIA也在加速推動遊戲支援AI加速的過程,這次還推出了NGX軟體工具,通過它可以在圖靈顯示卡上實現DLSS(深度學習超級取樣)抗鋸齒,INPAINTING圖形修補、AI Slow-Mo慢動作、AI Super Rez超級解析度等功能。
以DLSS抗鋸齒技術為例,在RTX 2080顯示卡上,DLSS技術不僅能帶來更精細的畫質,基於Tensor Core強大的AI加速能力,RTX 2080實現DLSS的速度比GTX 1080顯示卡可以高出一倍之多。
AI加速在遊戲顯示卡上的應用還是初級階段,不過它已經顯示出了極具競爭力的前景,後續還需要NVIDIA與遊戲開發商合作推動更多遊戲支援AI加速功能。
圖靈架構的重點之二:新增RT Core,一切為了光線追蹤
如果說圖靈架構增加Tensor Core是把專業技術帶到消費顯示卡上來,那麼圖靈架構真正給遊戲市場帶來變化的改進則是RT Core,也就是專門的光線追蹤渲染核心。在8月底的科隆遊戲展釋出會上,NVIDIA創始人、CEO黃仁勳提及最多的就是光線追蹤了,他表示圖靈顯示卡的RT效能是Pascal顯示卡的6倍多,是提升最明顯的。
光線追蹤也是遊戲玩家常聽到但又非常陌生的技術,在電影工業光線追蹤技術已經應用很多年了,但在遊戲卡一直是雷聲大雨點小,在圖靈GPU之前顯示卡跑RT運算的效能非常弱,並不足以支撐良好的RT光線追蹤體驗。
為此NVIDAI在圖靈顯示卡中改變了RT渲染的工作流程,將其從Shader渲染器中獨立出來,變成了單獨的RT Core,專門用於RT運算,每個SM單元有一個專用的RT Core,RTX 2080 Ti顯示卡上總計68組RT Core,帶來了10+ Giga Rays/s的光線追蹤渲染能力,而現在的Pacal顯示卡的渲染能力只有1.2 Giga Rays/s,效能提升了10倍,而老黃現場宣佈的6倍光線追蹤渲染效能還是很謙虛的了。
從後續公佈的RT渲染測試來看,圖靈顯示卡的光線追蹤效能確實很強大,GTX 1080 Ti顯示卡渲染單光源的延遲可以做到11毫秒,但2-16光源的情況下延遲大幅提升,不具備可行性了,圖靈顯示卡在單光源、雙光源乃至8光源下都能將延遲控制在10毫秒內,效能提升了四五倍,這是有史以來首次有遊戲卡能夠達到這樣的光線追蹤渲染效能。
對遊戲玩家來說,RT光線追蹤技術的進入使得遊戲畫質更上一層樓,這個技術多年來一直被視為3D圖形技術的一次革命,將極大地改變遊戲以及電影工業的渲染方式,通過追蹤光線的軌跡來計算物品對光線的反射和折射,更真實地還原物品在現實中的顏色,帶來了更真實的光影效果,從而達到夢寐以求的“以假亂真”效果,讓玩家真正融入到遊戲中。
在圖靈顯示卡釋出之後,RT光線追蹤技術也成為新一代3A遊戲大作的選擇,包括戰地5、古墓麗影以及國內的逆水寒、劍俠3等11款遊戲都宣佈支援光線追蹤技術,這個名單目前來說還不多,但是等到RTX 2080顯示卡上市、普及之後,支援RT渲染的遊戲會越來越多。
圖靈顯示卡視訊記憶體:不只首發GDDR6,還有高效壓縮
隨著GPU計算效能的增加,對頻寬的要求也越來越高,在圖靈架構上NVIDIA也升級了視訊記憶體子系統,首發支援了GDDR6視訊記憶體,這是7年來GPU架構首次從GDDR5升級到GDDR6,不過圖靈GPU在視訊記憶體改進上做的不只是頻寬大幅增加,還改進了記憶體壓縮技術。
在視訊記憶體選擇上,現在的顯示卡大部分選擇了GDDR5,這是成熟標準,不過速率很難超過8Gbps,搭配256bit位寬的話,頻寬可達256GB/s,如果最求效能會上HBM 2視訊記憶體,4096bit位寬下頻寬可達1024GB/s,但是HBM 2的成本比GDDR5視訊記憶體貴太多了,一顆4GB HBM2視訊記憶體成本就要80美元,8GB HBM2視訊記憶體成本就要160美元了,光這一項就佔了高階顯示卡的1/3到1/2價格,實在是用不起。
NVIDIA在去年的Volta架構上就首發了HBM 2視訊記憶體,所以技術上使用HBM 2不存在問題,NVIDIA沒用HBM 2顯然還是出於成本控制原因,再加上今年GDDR6視訊記憶體也開始商業化了,這次的圖靈GPU就首發了GDDR6視訊記憶體。
GDDR6是現有GDDR5記憶體的繼任者,在保持工藝、規格大部分相容的情況下進一步提高了視訊記憶體速率,通過16bit資料預取、單通道升級雙通道等方式將資料頻率從GDDR5時代的不超過8Gbps提升到了JEDEC標準的12-16Gbps,而三星、美光還在研發速度高達18Gbps及20Gbps的GDDR6視訊記憶體。
圖靈顯示卡首發的GDDR6視訊記憶體頻率為14Gbps,考慮到GDDR6視訊記憶體還是首發,這個頻率還是可以的,相比目前8Gbps的GDDR5視訊記憶體速率已經提升了75%,同樣在256bit或者384bit位寬下能帶來448GB/s、672GB/s的頻寬,效能非常接近HBM 2視訊記憶體了,要知道AMD的RX Vega64顯示卡使用的HBM 2頻寬也不過484GB/s,Vega 56甚至只有404GB/s。
全新的記憶體壓縮演算法
GDDR6記憶體帶來記憶體頻寬大幅提升,不過NVIDIA還從源頭進一步降低了對頻寬的消耗,圖靈顯示卡支援更先進的記憶體壓縮演算法,全新的GPU壓縮引擎可以自動匹配最合適的演算法以便在不同的材質上尋找最有效的壓縮方法,與GP102核心的GTX 1080 Ti顯示卡相比,RTX 2080 Ti的記憶體壓縮能夠提升50%的效率,與頻寬更高的GDDR6一起為圖靈架構的SM單元效能提升50%保駕護航。
圖靈顯示卡的SLI進化:迎接NVLink時代的到來吧
如果說NVIDIA的圖靈顯示卡中最讓人意外的技術升級,那肯定非NVLink莫屬了,因為NVLink原本是NVIDIA聯合IBM開發的高效能匯流排技術,主要用於伺服器市場上,目前已經發展了兩代標準。
相比現在的PCIe 3.0匯流排,NVLink的優勢就是延遲更低、頻寬更高,NVLink 1.0的頻寬就可達160GB/s,NVLink 2.0的頻寬更是高達300GB/s以上,遠遠超過現在的PCIe 3.0 x16匯流排的16-32GB/s頻寬。
正是因為NVLink技術的超高效能,所以原本沒期待消費級的RTX 2080系列顯示卡能用上NVLink,不過NVIDIA竟然真的在圖靈顯示卡上開放了NVLink技術,不過消費級的NVLink技術頻寬也沒有那麼誇張,TU102核心的RTX 2080 Ti以及專業級的Quadro RTX 8000/6000顯示卡的NVLink頻寬100GB/s,RTX 2080顯示卡NVLink頻寬50GB/s,RTX 2070顯示卡遺憾不能支援NVlink。
由於NVLink的超高頻寬,圖靈顯示卡SLI之後可以玩出更多花樣,比如支援5K 75Hzueu,支援4K 144Hz環繞屏模式,還可以支援8K視訊,RTX 2080 Ti更可以做到8K環繞屏模式。
不過NVLink還需要搭配額外的NVLink橋,這個東西也是單獨出售的,有3插槽及4插槽兩種版本,售價79美元,摺合人民幣也要500多塊。
圖靈顯示卡視訊及介面改進:支援雙8K,VittualLink對VR更友好
在I/O介面上,圖靈顯示卡也帶來了全面的升級,最大的變化就是首發支援了VitualLink介面,它的物理介面為USB Type-C,也就是現在電腦及手機上開始普及的USBC介面,而VitualLink則是NVIDIA、AMD以及微軟、Oculus、Valve等公司聯合制定的VR裝置專用介面,有望能簡化這些線纜的需求,提供更簡單、統一的體驗,而不僅僅是效能,據說新的介面還能為更低的延遲時間作出優化。
VitualLink介面將是未來VR裝置的統一介面,因此圖靈顯示卡對VR裝置更加友好,以後用它來玩VR裝置更合適,而USBC物理介面還能提供15-27W的供電能力,支援DP視訊及USB 3.1 Gen 2資料傳輸,是個萬能介面。
在視訊介面方面,圖靈顯示卡除了支援HDMI 2.0之外,還支援了DP 1.4a標準,支援雙8K 60Hz輸出能力,雖然目前的8K顯示器還是鳳毛麟角,不過圖靈顯示卡在技術上已經做好了準備。
最後,圖靈顯示卡在還升級了用於視訊編碼解碼的NVENC單元,新增支援H.265 8K 30fps編碼,同時提供H.265格式25%的位元速率節省,H.264格式也能節省15%位元速率,而解碼效能也更快,支援的格式更多。
總結:
NVIDIA宣稱他們的Turing圖靈架構是一次技術飛躍,儘管其中不乏宣傳的味道,但是從圖靈架構的改變來看,這代顯示卡的技術亮點還真不少,等待了兩年多的N飯並沒有白等,CUDA核心效能大增50%、新增RT Core及Tensor Core將原來行業級的技術帶入到了消費級顯示卡中,同時首發了GDDR6視訊記憶體,增加了USB-C輸出介面,升級幅度要比之前的歷代NVIDIA GPU更為明顯。