安卓旗艦晶片驍龍855效能初探:略顯不足?
上個月初,高通在夏威夷召開的第三屆驍龍技術峰會上,正式推出了萬眾矚目的驍龍 8 系列旗艦移動晶片 Snapdragon 855。正如大多數機友所知,驍龍 855 將會是 2019 年新一代頂級旗艦智慧手機標配的移動晶片。 那麼,這枚晶片與上一代相比究竟帶來怎樣的效能改進呢?本月中旬,知名評測站 AnandTech 釋出了驍龍 855 晶片的首測報告,我們一同來看看。
在開始效能評測之前,還是要把驍龍 855 的效能引數複習一遍。高通驍龍 855 是一枚 7 奈米工藝八核心設計的晶片,這次高通的核心結構設計主要基於 ARM 的 DynamIQ CPU 叢集,具體為 1 大核 + 3 中核 + 4 小核的設計。大核基於 ARM 最新 Cortex-A76 設計,可以提供非常高的峰值效能,3 箇中核同樣也是 Cortex-A76 定製,4 個小的核心基於 Cortex-A55。
與此同時,與上一代驍龍 845 晶片相比,驍龍 855 並沒有大幅提升 CPU 核心的時鐘頻率。高通強調,自家的 Kryo 485 CPU 叢集由於是基於 ARM 最新的 Cortex-A76 進行半定製設計,大核心配備了更大的 512kb 的 L2 快取,頻率達到 2.84GHz 峰值頻率,高通稱效能相比上一代還是提高了 45%。
驍龍 855 中的三個中核頻率為 2.42GHz,並各有 256kb 的 L2 快取,4 個 1.8GHz 主頻小核的每個核心各有 128kb 的 L2 快取。此外,驍龍 855 還集成了新一代圖形處理單元 Adreno 640 GPU,高通官方稱能夠帶來高達 20% 的圖形渲染速度提升,同時還能繼續保持業界領先水平的每瓦特能效。
AnandTech 這一次拿到手的驍龍 855 裝置並非任何一個品牌的零售機型,而是高通所準備的參考設計機型 Snapdragon 855 QRD。經上手,他們認為今年高通 QRD 測試機的設計可能是有史以來最接近於上市新機的一次,外殼更加美觀,也更加堅固,讓人很難注意到這本是一款參考裝置。
而在硬體方面的效能表現,高通已經明確表示,任何情況下對 QRD 裝置的效能測試結果,都只會是一種接近於正式零售機型的成績而已,手機廠商真正釋出的旗艦機成品將可能與此有明顯偏差,因為改進軟體底層設計也會對效能有所優化。
AnandTech 稱,他們真正對這款高通 QRD 裝置的實際裝置操作時間是有限的,所以儘管已經進行了大量的測試,但仍會遺漏掉某些測試,因為某些些測試很耗時間,例如 GPU 連續效能測試環節。
驍龍 855 的最大問題在於記憶體延遲
AnandTech 稱,去年高通在驍龍 845 上引入一個奇怪的設計,就是在記憶體控制器前引入一個系統級快取大小為 3MB 的新快取層次結構。這個新模組主要是為各種 IP 模組充當 SoC 更寬的緩衝範圍,從而減少對 DRAM 執行記憶體訪問量,達到提高系統能效的目的。除了提高能效水平,理論上該模組理應還能起到效能助推器的作用。因為行業早有先例,最著名的就是蘋果自主設計的 A 系列晶片,自 A7 以來蘋果的晶片就開始充分利用這一系統緩衝模組。
作為去年的旗艦,高通在驍龍 845 中引入這樣一個 IP 模組相當令人興奮,但是這也是一把雙刃劍,因為直接導致了 30% 的 DRAM 記憶體延遲(相比驍龍 835),從而限制了基於 Cortex-A75 定製核心的某些效能。不幸的是,最新的驍龍 855 在這方面似乎沒有做出任何明顯改進,因為高通已經確認這一 IP 模組與驍龍 845 中使用的相同。
AnandTech 表示,為了研究驍龍 845、855 和麒麟 980 之間的差異,首先根據延遲測試中繪製圖表瞭解記憶體層次結構,也就是通過視覺化的圖示更好的分析層次結構之間的各種延遲跳躍。
在驍龍 845 與驍龍 855 晶片之間,最新的 Kryo 485 大核 L2 快取增加了 512KB,相比上一代的效能核心增加了 256KB,同時 L2 延遲得到了改善,只不過兩枚晶片在 2.8GHz 頻率下彼此接近。驍龍 845 與驍龍 855 的 DSU L3 快取大小相同,在這部分快取層次結構上,兩個晶片之間的延遲幾乎是相同的,但有趣的是,這與 華為 麒麟 980 的 4MB 大小的 L3 形成鮮明對比,後者雖然更大,但似乎慢了 20%。
在另一張線性圖上,可以更清楚地看到 DRAM 記憶體延遲的差異。驍龍 855 似乎確實比 845 稍微改善了記憶體延遲。不過,這可能是其他元件帶來的功效,因為新款參考裝置配備的是 2133MHz LPDDR4X 記憶體,而去則為 1866MHz 記憶體,新記憶體在頻率上就已提高了 14%。關鍵是與麒麟 980 晶片相比較,麒麟 980 採用了與驍龍 855 相同的 CPU 微架構和 2133MHz 頻率記憶體,但在這方面高通這一旗艦晶片的記憶體延遲表現似乎並不理想。
針對 CPU 效能和效率的 SPEC 2006 測試
AnandTech 繼續針對高通驍龍 855 裝置進行了 SPEC 2006 測試,並稱 SPEC 這個測試軟體權威性更足,可作為確定 CPU 和系統的微觀體系結構方面的巨集觀基準測試,或者說是一個重要的行業標準化的 CPU 測試基準套件。當然了,儘管 SPEC 2006 已被棄用,取而代之的是 SPEC 2017,但 AnandTech 認為編譯的 SPEC 2006 對於移動平臺來說仍然是一個很好的基準測試工具。
在 SPEC 2006 測試中,驍龍 855 的表現出色,與華為麒麟 980 的表現不相上下,不過這個結果應該不太令人驚訝。
在 SPECint 2006 測試中,驍龍 855 的效能相比驍龍 845 提升了 51%,同時能效提升了 39%。而與麒麟 980 相比,驍龍 855 僅略微領先 4%,可以說在 Android 陣營之中,麒麟 980 和驍龍 855 是目前效能表現最接近的競爭對手。
在 SPECfp 2006 測試中,高通驍龍 855 比驍龍 845 提升了 61%,而且比華為麒麟 980 表現更好,9% 的頻率優勢即是領先優勢。
不過,在所有這些測試結果中,能效方面的資料同樣非常之重要。由於高通上個月在夏威夷釋出驍龍 855 時,並沒有在 CPU 能效方面發表任何有意義的說明,這不免讓人擔憂。幸運的是,這種擔憂是多餘的,因為驍龍 855 似乎已非常高效,即便是在頻率高達 2.85GHz 的大核表現上。
其實深入到測試的成績去分析,最有趣的肯定還是高通驍龍 855 與麒麟 980 的效能比較。驍龍 855 的時鐘頻率高了 9%,並且官方表示經過一些微結構特性的調優改善了 IPC 效能,而麒麟 980 則又有更大的 L3 快取和記憶體延遲優勢。
在絕大多數負載測試中,這兩種晶片基本並駕齊驅,只是在一些關鍵方面存在差異。某些對執行記憶體需求較少的負載測試中,驍龍 855 更容易展現出其高頻率的優勢。而在延遲敏感的負載測試中,這種差異會縮小或逆轉。其中在 462.libquantum 測試專案中,驍龍 855 表現相對優異,按照高通方面的解釋,該晶片之所以在這方面的領先,主要是得益於 CPU 核心的定製功勞,不過高通沒有具體說明是哪個方面帶來的提升。
測試專案 458.sjeng 顯示出了兩者最大的效能表現差異,這個差距達到了 13%。該項基準對核心分支機構的錯誤預測最為敏感,高通宣告他們對核心的分支機構資料結構進行了更改。而比較讓人覺得奇怪的結果是 429.mcf 測試專案,該項驍龍 855 表現出色,儘管晶片存在記憶體延遲的缺陷,但結果卻與此相悖,AnandTech 認為驍龍 855 在這項比麒麟 980 效能更好,有可能是因為有更出色的 L3 快取延遲。
再深入 SPECfp 2006 的測試結果,可以非常明確地將結果分為兩組。在其中一組專案測試中,驍龍 855 明顯優於華為麒麟 980,在 447.dealII 和 453.povray 這兩項測試中分別領先了 17% 和 22%。而在另一組測試中,驍龍 855 則與麒麟 980 並駕齊驅,因為這些負責測試專案對記憶體較為敏感。
跑完這些測試,AnandTech 表示,總體而言,驍龍 855 的 CPU 效能並不令人失望,平均效能領先於華為麒麟 980,只不過不是很多。在大多數情況下,兩晶片組的基本並駕齊驅,這主要取決於兩枚晶片針對不同負載專案的工作量。
當然了,AnandTech 還認為驍龍 855 晶片的能效一流,因為其能效表現超出了實現更高頻率的預期。不過,既然是 QRD 參考平臺,很多資料就仍可能存在一定程度的不確定性,不代表真正上市的品牌零售手機,但如果確實有代表性,那麼 2019 年安卓旗艦將能提供更出色的續航效能。
AI 人工智慧“理論”效能很出色
除了大量改進 CPU 和 GPU,驍龍 855 另一重要的改進就在於 AI Engine 人工智慧引擎。高通驍龍 855 晶片通過內部改進 Hexagon 技術,並增加了相應的運算能力,可以實現每秒超過 7 萬億次運算(7TOPs)
簡單的說,驍龍 855 的 Hexagon 690 在上一代包含有 4 個標量處理單元和 2 個 1024b 的 HVX 向量處理單元(Hexagon Vector eXtensions)的基礎上,將 HVX 向量處理單元數量提升到了 4 個,使其處理能力是之前兩倍。不僅如此,高通還首次引入了全新的 HTA(Hexagon Tensor Accelerator)張量加速器,為特定的複雜機器學習任務提供更高的吞吐量。
不過,AnandTech 在詢問高通關於全新 HTA 張量加速器的進一步細節時,高通並不願透露更多關於這一新模組的效能,只是簡單的提到了 AI 運算效能達到 7 TOPs,但具體每一個單獨的單元效能如何高通不會提供具體數字。
AnandTech 稱,其實最糟糕的情況是關於最新 HTA 張量處理器的 API 開放情況,畢竟要等到年底的 Android Q 釋出之後才會公開提供 NNAPI,而當前相關 API 僅限於內部公開。這就意味著,當涉及到 AI 運算效能測試的環節,無法實測出最新 HTA 張量加速器效能如何,實測數字更多還是體現在 HVX 向量處理單元的改進上。
- AiBenchmark
首先,從 AiBenchmark 效能測試開始。AnandTech 認為,這一來自瑞士蘇黎世聯邦理工學院計算機視覺實驗室的新工具,足已經足以展開 AI 效能的廣泛測試,因為這個工具是第一個廣泛利用到 Android 最新 NNAPI 的測試工具,而不是依賴於每個 SoC 晶片廠商的 SDK 工具和 API,所以理應能夠更好地如預期那樣準確測出基於 NNAPI 應用程式的效能。
AnandTech 將 AiBenchmark 的測試結果劃分為好幾組,在第一組測試中,高通驍龍 855 的表現良好,只是沒有非常突出的某一項。這裡的 AI 執行效能更多還是受到了系統排程程式的影響,而且由於負載測試是短時間突發的性質,主要測試的是 CPU 允許以多快的速度達到其最大效能點。
接下來轉到 8 位整數量化模型測試,這些測試模型適用於大多數硬體加速的裝置。高通驍龍855 在這一組所有基準測試中表現都處於領先。在 Pioneers 這項的基準測試中,可以清楚地看到得益於 HVX 加速單元的效能翻了一番,完成測試的時間不到上一代晶片驍龍 845 的一半。
這部分 AI 效能基準測試,主要體現出 NNAPI 基準測試中 API 和驅動程式方面的表現。結果顯示,驍龍 855 比上一代以及競爭對手都出色,擁有更優異的加速度。這可能是因為高通明顯改善了這裡的驅動程式,所以與過去的驍龍 845 晶片相比,新一代能夠更充分地利用硬體。
再到 FP16 的負載測試,終於看到高通的一些競爭出頭了,其中麒麟980 的 NPU 硬體加速在這裡得到了體現。其實按照以往,高通的晶片應該利用 GPU 效能來處理這些工作負載,顯然驍龍 855 在這方面取得了巨大的進步,因為新平臺對 NNAPI 功能支援更加成熟了。
最後到 FP32 負載測試,這一組測試也能看出驍龍 855 顯著的改進,高通驍龍 855 終於能夠充分利用 GPU 加速了,所以新一代晶片在這項測試中擁有相當大的領先優勢。
- 魯大師 AIMark
AnandTech 稱,與 AIBenchmark 相比,AIMark 仍然算得上是有用測試工具。這個基準測試沒有利用到 NNAPI,但利用到了高通的 SNPE 框架進行加速測試。因此,這也為能夠與蘋果 iPhone 進行比較提供了的難得機會。
總的來說,在魯大師測試中,高通驍龍 855 的 AI 效能相比驍龍 845 提高了 2.5-3 倍。
AnandTech 表示,在高通當天的釋出會活動中,官方還展示了執行 InceptionV3 的內部基準測試,該測試充分體現了 HVX 向量處理單元單元和最 HTA 張量加速器的效能。根據當時提供的資料顯示,這款驍龍 855 參考裝置可以達到 148 inferences/s 的 AI 運算效能。
總的來說,儘管在 AI 效能基準測試中沒有能直接測試 HTA 張量加速器的效能,但驍龍 855的 AI 推理效能非常出色,這一點主要基於其驅動程式得到了很大的改進,而且 Hexagon 690 的向量執行單元也增加了一倍。不過測試歸測試,如何利用和處理這種效能才是關鍵,希望接下來能夠看到基於 AI 的更出色、更令人興奮的相關應用程式。
綜合系統性能:略顯不足?
AnandTech 稱,任何裝置在現實世界常規的實際負載測試都更具參考意義,因為其實際效能不僅取決於硬體的原生效能,還取決於軟體,例如 CPU 排程和系統 API 之類的因素會對裝置的實際效能產生非常大的影響。
這部分測試首先從 PCMark 的 Web Browsing 2.0 測試開始,不過高通驍龍 855 開局不利。由於某些原因,驍龍 855 QRD 參考裝置難以與驍龍 845 正式零售機型拉開差距,甚至與華為 Mate 20 的麒麟 980 相近的預期也沒能達到。
Video Editing 測試部分驍龍 855 的分數也很一般,但原因很大程度上受限於這個測試本身的瓶頸,大多數裝置在這份排名之中已經很多體現出顯著差異。
Writing 2.0 這項測試是 PCMark 中最重要的測試之一,幸運的是,驍龍 855 QRD 裝置與華為麒麟 980 相比效能差距終於在預期的範圍之內。
Photo Editing 2.0 這一測試比較能夠突顯 RenderScript 負載的爆發性能。結果顯示高通驍龍 855 QED 裝置效能表現良好,不過去年正式零售的驍龍 845 機型還是排在第一。
最後,在單執行緒繫結的資料處理測試結果中,高通驍龍 855 的效能表現很好,但仍然與華為麒麟 980 裝置差不多,並且落後於 Pixel 3,畢竟谷歌親兒子手機的排程程式非常激進。
總的來說,高通驍龍 855 QRD 裝置在 PCMark 測試中的得分是比較高最高,但是這樣的成績有點令人失望,因為當前來看似乎沒有達到驍龍 845 手機谷歌 Pixel 3 的高度,而且部分排名華為麒麟980的 Mate 20 也比它領先。
AnandTech 表示,他們與高通討論了上述情況,看到這樣的資料高通方面也很驚訝,不過高通表示,他們將會對此進行深入瞭解,並認為手機廠商掉正式零售機型排程程式和軟體堆疊,可能會提供更高的效能。無論如何,還要等驍龍 855 零售機型上市之後才有最後結論。
在另外兩項基於網路瀏覽器的基準測試 Speedometer 2.0 和 WebXPRT 3 之中,高通驍龍 855 參考裝置也只跑出了類似上述相對較弱的成績。AnandTech 認為,在這部分本來預期高通驍龍 855 會表現得非常好,畢竟驍龍 845 如此突出,然而驍龍 855 進步非常非常小,特別是在考驗吞吐量負載的 Speedometer 2.0 測試專案中。結果來看,驍龍 855 僅比上一代提升了 17%,與麒麟 980 相比也有顯著的差距。
CPU 排程載入機制分析
AnandTech 從去年開始引入這一新的測試專案,之前在針對 iPhone XS 的評測中就曾詳細比較過歷代 A 系列晶片,結果顯示執行 iOS 12 系統之後每一代機型的排程程式和 DVFS 響應能力都有明顯不同。
在這部分測試中,驍龍 855 QRD 從睡眠空閒到滿載峰值效能的狀態,其排程機制讓其只要大約 100ms 就能實現。AnandTech 還將搭載驍龍 845 的三星 Galaxy S9+ 和 谷歌 Pixel 3 進行了比較,在這之中 Pixel 3 的排程非常激進,而 Galaxy S9 + 則是呈階ti 化的頻率提升方式,這兩款裝置的感知響應有明顯差異。
高通驍龍 855 參考裝置的 CPU 排程機制介於兩者之間。需要注意的是,驍龍 855 負載情況下,在大約 40ms 的時間內就能提升到 2.45GHz 頻率,啟用“高效”的大核心,這必須是一種非常快速的響應能力了。
再將高通驍龍 855 與麒麟 980 進行比較,可以看出驍龍 855 在達到峰值效能狀態方面並沒有變慢,但這些成績的奇怪之處在於,當從小核心轉移到其他核心時,負載過程中會出現明顯約 2.4ms 的暫停狀態。當然了,這只是高通為其參考裝置定製排程機制而已,其他廠商的驍龍 855 正式零售機型如何排程還需進一步研究。
AnandTech 表示,總的來說,高通 855 在現實世界中的效能,或者說實際效能比預期的要低一。目前還不太能確定這是什麼原因,但在 CPU 排程機制方面,經驗證其負載的升頻速度並不比華為麒麟 980 慢。現在另一種可能合理的解釋是,驍龍 855 的 L3 快取較小乃至 DRAM 延遲較高,所以在實際效能中暴露出了某些缺點。
無論如何,各大手機廠商正式零售的驍龍 855 旗艦機型,最終效能肯定會與高通的參考裝置有所差異,不同的廠商對裝置的效能都有不同的調整。
GPU 效能測試
GPU 圖形處理單元一直是高通旗艦晶片的強項,這一次驍龍 855 所整合的 Adreno 640 GPU 雖然變得更強勁了,但提升幅度上仍有所保守,僅能夠帶來高達 20% 的圖形處理速度提升,更像只是利用了 7 奈米工藝製程的進步而已。不過,這可能是因為高通在保持 GPU 模組面積不變大的情況下,又增加了 50% ALU(算術邏輯單元)數量的緣故。
首先來看最新 GFXBench 5 Aztec Ruins 測試工具的成績如何。AnandTech 宣告稱,由於時間有限,這次測試並非非常完整的測試,在以往既包含峰值效能又提供持續效能成績的情況下,這次測試只簡單的測試了峰值效能。
在 Aztec Ruins 場景之下,無論是高階模式還是普通模式下,驍龍 855 的 Adreno 640 GPU 效能提升幅度基本與高通官方宣稱的不一致,實際是比 20% 的提升有所下降的。同時,這一效能成績也落後於蘋果的 A11 和 A12 晶片,當然峰值效能的功耗不同。
說到功耗,就來看看跑 Manhattan 3.1 場景的效能和負載能效情況。如下面兩圖可以看到,在峰值效能的能效方面,高通驍龍 855 處於領先地位,不過還是落後於蘋果最新的 A12 仿生晶片。比較明顯的改善下雨,驍龍 855 的總功耗與驍龍 845 相比有所下降了,目前約為 4.4W,而之前驍龍 845 手機通常為 5W。
最後是 T-Rex 場景的效能,由於畫素和填充率限制比較大,所以在此場景的效能提升比較有限。這可能是因為受到了某些方面的 CPU 限制,但不確定這是否是問題的答案,因為 GFXBench 基準測試一直以來對 CPU 的要求都非常低。
T-Rex 場景的能效方面,在效能略微提高的情況下,驍龍 855 相比驍龍 845 能效提升了 30% 左右。
AnandTech 表示,總的來說,驍龍 855 內建 Adreno 640 GPU 初始效能和效率成績,已經比較讓人滿意了,主要是上一代驍龍 845 在某些方面有點令人失望,因為去年高通選擇通過提高峰值功率來實現更高的效能,相比驍龍 835 的做法相當消極。不過,雖然驍龍 855 這枚新晶片並沒有完全恢復到驍龍 835 晶片的低功耗水平,但至少已經達到了一半,而且與驍龍 845 相比效能確實有了顯著的改進。
最終小結
AnandTech 表示,對於高通和上一代旗艦晶片驍龍 845 來說,2018 年是非常成功的一年。因為作為晶片裝置供應商,高通為各大廠商提供了一枚非常可靠和全面的 SoC 系統級晶片,有助於廠商更輕鬆的構建自家的旗艦裝置。從這方面來看,新一代晶片驍龍 855 仍將會延續這一趨勢不變。
AnandTech 一直對高通採用的 1+3 的 CPU 配置是否具有優勢持懷疑態度,但在看到新一代晶片主要核心的初步效能和能效測試資料之後,他們對此不再那麼擔心。不過,AnandTech 稱他們不會就參考裝置的整體表現過早下結論,因為他們還沒有時間來測試非主要核心的效能和能效,不確定他們在競爭中是否處於領先位置。
在效能方面,AnandTech 稱驍龍 855 的表現有點奇怪,只有在 SPEC 中相對穩定的負載測試中,驍龍 855 的效能似乎表現非常好,效能持平或超過華為麒麟 980。不過,高通對 CPU 微架構的改良通過測試成績還是能表現出來的,可以說已經是不錯的壯舉了。但不幸的是,驍龍 855 記憶體子系統沒有得到改進,仍然存在一些 DRAM 延遲的情況,這主要是高通系統級快取的問題所在。
同時,雖然驍龍 855 晶片在現實應用測試中的效能足夠出色,但並沒有達到 AnandTech 對效能的預期。無論出於什麼原因,至少高通對晶片的改進在對參考裝置的測試中沒有明顯體現出來。令 AnandTech 更為好奇的是,在幾乎所有實際應用的負載測試中,華為麒麟 980 都能夠擊敗了驍龍 855,而且高通表示 CPU 微體系結構的改變能夠幫助提升web瀏覽器效能,但在這方面測試又落後於競爭對手,目前不清楚是不是限制系統快取或系統快取延遲造成的結果。
AnandTech 表示,上述一切就是他們非常典型的晶片測試過程,但在一些效能測試中,驍龍 855 表現有點不理想,高通可能會對此進一步調查並改進,或許在正式零售機型釋出之前能解決這些問題。但無論正式零售裝置的系統性能能否得到改善,驍龍 855 改善最明顯還是功耗,其能效看起來非常出色。高通今年沒有公開談論驍龍 855 能效水平,這不免讓人擔心,實際經過測試發現其能效非常不錯,2019 年的旗艦相比去年理應能夠帶來更長的續航時間。
在 GPU 效能方面,高通對驍龍 855 的 GPU 效能改進相當保守,僅 20% 的效能提升比預期低。不過,AnandTech 認為這可能是因為高通有了更多的內部目標,例如將改進的重點放在整體功耗的降低上,希望能夠將之前驍龍 845 較高的 GPU 功耗水平上降下來。
AnandTech 最後表示,總的來說,驍龍 855 是高通又一枚打造得非常出色的 SoC 系統級晶片,非常期待能快點去驗證這一結論,但真正的定論,還要等到在首批正式商用的零售旗艦上市並測試後才能得出。