吃掉NPU的驍龍!高通版Tensor Core成AI大殺器,855技術細節揭露
昨天 DT 君提到,高通將會引入硬體化的 AI 計算單元,作為對抗其他兩家已經邁入 7nm 工藝競爭產品的最大武器,不過在峰會第二天議程中正式公佈的 AI 計算細節,卻不是一如業界期待的 NPU 計算單元,而是改名為 Tensor 計算單元,不過雖然名稱不同,但骨子裡其實是差不多的東西。
而在原來 Hexgon DSP 中增加 Tensor 核心,其實和 NVIDIA 在 GPU 當中增加 Tensor Core 的作法的目的相當類似,那就是在不捨棄原本計算單元的過往相容能力,以及可程式設計能力的前提下,增加更有效率的硬體計算單元,使整體計算能力更為往上提升,同時也滿足未來 AI 應用將無所不在,但同時又要兼顧低功耗持續計算的特性。
通過包含 DSP、GPU 以及 CPU 等綜合算力的提升,加上 Tensor 核心的匯入,高通驍龍 855 的整體 AI 算力超過 7TOPS,遠遠把麒麟 980 和蘋果的 A12 拋在後頭,後二者都只有 5TOPS 左右。
不過 AI 算力的增加還只是整場 Keynote 中的一個小亮點而已,驍龍 855 不愧是高通親兒子,不只在硬體功能方面更加精進,也把 Arm 的生態策略玩到淋漓盡致,引入更多軟體應用、AI 演算法、終端設計,以及更豐富的應用情境,當真有成為手機界至尊魔戒的氣勢。

圖|一加 CEO 劉作虎是驍龍技術峰會第二天的開場嘉賓。

圖|高通驍龍技術副總裁 Keith Kressin 將本日驍龍技術細節訴求分成五大塊。
更強化的整體連線能力
首先,做為手機晶片,連線能力還是重中之重,也因此,高通在驍龍 855 中,強化了包含 LTE 連線能力、WiFi 連線能力,以及最重要的,也就是作為整個峰會的主軸—5G 連線能力。

圖|一言以蔽之,不論是 LTE、5G 或者是 WiFi,都能達到數個 G 以上的傳輸效率。

圖|作為目前最主流的 LTE 連線能力,驍龍 855 內建的 X24 調變解調器支援高達 7X 的 CA 合併頻寬,最高可達 2Gbps 的傳輸速度,符合 Cat.20 規格。

圖|同時,驍龍 855 也支援了 8x8 MIMO 技術,可更好的對應不同環境下的無線傳輸需求,並且支援了更安全的 WPA3 加密機制。

圖|驍龍 855 更是業界首個引進 60GHz 的 802.11 ay 連線技術的手機晶片,同時也支援 802.11 ad,最高可提供達 10Gbps 的傳輸效能表現,而極低的傳輸延遲可和有線網路相提並論。DT 君認為,這對於未來基於高通計算平臺的無線 AR/VR 裝置連線所需要的頻寬和低延遲特性,可帶來立竿見影的效果。

圖|當然,作為最先進的手機晶片,2019 年即將迎來 5G 的大爆發,高通也早就準備好最佳武器,提供在能耗、效率,以及機構大小都能達到最均衡的方案,幫助其客戶面對市場對傳輸需求的挑戰。

圖|配合更有效率的天線設計,以及多工 RF 元件,驍龍 855 可以同時處於 4G 與 5G 工作模式之下,不需進行網路的切換。
CPU 和 GPU 的巨幅強化
麒麟 980 和蘋果 A12 通過最新 CPU/GPU 架構的引進,在效能方面分別達到 iOS 與 Android 平臺的一時之選,當然,高通作為傳統 Android 平臺的第一方案,效能方面自然要儘可能達到頂級的條件。

自從驍龍 820 之後,高通就已經放棄從零開發自有 CPU 架構,畢竟 CPU 每年架構改朝換代速度極快,自研已經趕不上市場的需求,但為了取得與市場其他競爭者的差異化,高通也不可能直接把公版架構搬進自家 SoC 之中,而是經過極大的調整和優化。

新的 Kryo 核心分為四個大核以及四個小核,不過與傳統直接分成兩組大小核的作法不同,高通引進了新的 Prime Core 概念,變成三組配置,分別是一個超高速大核,三個高效能大核,以及 4 個高能效小核。時鐘速度分別是 2.84GHz、2.42GHz 以及 1.8GHz。
而 Prime Core 的三叢集配置方式,應該就是來自 Arm 的 DynamIQ 技術。
由於使用了新的核心,以及採用了新的工藝,Kryo CPU 核心的整體效能比前一代產品高出 45%,考慮到整個驍龍 855 有太多革命性的技術的引入或規模的擴增,能在規模或時鐘速度沒有明顯增加的情況下達到這樣的效能成長,的確是相當不簡單的事情。

另外在GPU方面,Adreno 640 得益於 7nm 帶來的規模擴大,ALU(算數計算單元) 數量增加了 50%,雖然基本架構並沒有太大的改變,但效能也成長了 20%,畢竟 GPU 規模的增長還是要配合匯流排以及快取設計的優化,驍龍 855 還需要考慮其他非常複雜,而且多元化的計算單元設計,所以 GPU 能有這樣的效能增長,其實也已經相當不錯,要期待更大的效能成長,可能要下一代全新設計的 Adreno GPU 核心了。
Hexgon DSP 的異構化:引進硬體 Tensor 核心

過去 Hexgon 只是個傳統 DSP,只能進行純量與向量的計算工作,但通過 Tensor 核心的引入,Hexgon 如今也能以硬體處理神經網路計算工作,效率要比過去的半軟半硬方式高出極多。同時也能更好的處理更高層次的 AI 計算工作。

圖|新引進的 Tensor 核心在概念上與 NVIDIA 的 TensorCore 概念類似,都是要在不改變原本 DSP 過往相容性以及可程式設計彈性的前提下,增加對神經網路計算的效能優化。

圖|而與其他號稱 Tensro 的計算單元有著相似的地方,那就是以推理計算工作為主,可執行 INT16、INT8 以及混合精度的計算工作。

圖|通過 CPU、GPU、DSP 和 Tensor 核心的搭配,驍龍 855 可完成各種需要不同精度的計算工作,在應用適配能力上達到前所未有的高度。


圖|通過整體架構的優化,驍龍 855 可輸出的 AI 算力高達 7TOPS 以上,是前代驍龍產品的 3 倍,也是對手 7nm 產品的兩倍以上。
高通也與驍龍 855 同步發表了第四代 AI Engine 軟體套件,可以為神經處理器 SDK、Google Android NN-API 以及 Hexagon NN 和 Math Library 帶來使用效率和開發易用性的明顯提升。
對於更廣範圍網路精度的優化和神經網路類別,能夠實現對終端側 AI 語音、拍攝、遊戲和 XR 體驗的支援,目前上述許多體驗已經可以通過高通 AI 軟體生態合作伙伴實現,並將在即將上市的驍龍 855 終端上獲得支援。


圖|高通的 AI 平臺已經在短短兩年間成長到規模極為龐大的生態。
高通也在峰會上強調,其軟體生態系統合作伙伴正在不斷拓展,本次公佈出來的新增合作伙伴包括思必馳、AnyVision、科大訊飛、大象聲科、Nalbi 等。
更強大的影象視訊處理能力
除了計算能力的改善,在多媒體處理能力上,驍龍 855 也有極大的改善,通過新的 Spectra 380 ISP 架構,在硬體計算特性上有著極大的改進,不僅可以硬體解壓未來視訊編碼主流 H.265 以及 VP9,本身也整合了傳統計算機視覺的相關處理機能,同時也可和驍龍 855 的 AI 計算單元配合進行復雜的計算工作,達成更復雜的相片與視訊的即時處理能力。

圖|驍龍 855 支援硬體加速的 H.265/VP9 編解碼能力,並已經獲得廣泛的應用支援。
Spectra 380 包括基於硬體的深度感測,支援在 4K HDR@60fps 的狀態下即時進行視訊拍攝、物件分類和物件分割。
這意味著使用者可以拍攝一段視訊並且精準地對選定的物件或背景進行實時替換,而這一切操作都可以在能夠表現超過 10 億色的 4K HRD 解析度下獲得實現。
不僅如此,Spectra 380 ISP 還是首個支援 HDR10+視訊拍攝的 ISP,可以在攝影、錄製視訊,以及輸出呈現超過 10 億色的顏色深度。

圖|高通對其最新的 Spectra 380 ISP 給出了計算機視覺 (CV)IS 的定位。

圖|新的機器視覺 ISP 可帶來極大的能效優化效果。
遊戲效能與遊戲體驗的共同優化
與其他競爭業者使用特定優化作法來改善遊戲效能不同,高通選擇通過硬體效能/功能的改善和強化,來達到更好的遊戲畫面效果以及穩定的效能輸出,同時,通過其強調的低延遲高頻寬無線傳輸能力,以及包含音效與畫面上的整體優化,為玩家帶來更好的遊戲感受。
除了實打實的底層改善工作外,高通也為其遊戲環境打造了多個針對遊戲過程的優化工具,包含遊戲瑕疵避免工具、反作弊工具、畫面重清率同步、快速載入及網路延遲降低管理等有助於遊戲體驗優化的工具,並且使用定製演算法來解決大部分的掉幀問題,打造真正對遊戲玩家友善的執行平臺。而不是單純以犧牲畫質換取流暢度的作法。

圖|高通以硬體功能的增加和改善,配合一系列定製工具來改善整體遊戲體驗,對於遊戲畫面毫不妥協。