跑分超麒麟980,聯發科即將釋出的P90勝在哪?| 獨家解密
撰文 | 四月
“P90目前的分數為19453分,已經超過其他家的高階旗艦晶片水平”,聯發科無線通訊事業部產品規劃季行銷資深總監李彥奇談道。
這裡的“其他家”,指的是三個月前華為釋出的7nm旗艦高階晶片麒麟980。在蘇黎世聯邦理工學院最新推出的AI Benchmark公佈的主流AI晶片測試榜單中,聯發科“P80”(最終型號名稱定為P90 )的AI部分得分超過麒麟980。
P90的AI計算能力最主要支援來自於NeuroPilot2.0。在P90即將釋出的前夕,機器之心與聯發科相關的產品與研發高管進行交流,共同探討了NeuroPilot2.0架構的特性與研發邏輯,事先獲得不少一手獨家資訊。
一向只能在“中低端”段位奪食的聯發科在今年扳回了重要的一局,成為AI晶片領域的大贏家。
2018年第三季度,聯發科營收創下了七個季度以來的新高,達到670億新臺幣(約21.7億美金)。在全球十大IC設計公司的營收排名中,聯發科迎來3%的營收增長,與競爭對手高通0.1%的下降形成鮮明對比。
聯發科一路的高歌猛進很大原因來自於人工智慧Helio P60晶片受到市場肯定——採用P60的數款產品OPPO R15、vivo X21i等的熱銷拉動了聯發科業績創收。
P60之所以被稱為“人工智慧晶片”,因為它是聯發科首款採用Neuro Pilot AI技術的系統級晶片,內建人工智慧處理單元APU。一般來說,晶片廠商在加入AI時會考慮獨立一塊晶片專門處理人工智慧方面的任務,而聯發科則採用兩塊(雙核APU),並且多核多執行緒的APU可以同時進行工作。
Neuro Pilot2.0升級:剪枝和量化
隨著年底P90的即將到來,Neuro Pilot AI也進階到2.0版本。
聯發科計算與人工智慧技術群處長吳驊介紹,NeuroPilot 2.0沿襲了1.0的計算加速思路,將CPU、GPU、APU2.0等異構計算單元的優勢內建到SOC中,同時提供谷歌安卓神經網路API(AndroidNNAPI)和聯發科NeuroPilot擴充元件,能夠讓開發人員和製造商能以更加貼近硬體的方式編碼,以提高效能和省電效率。
在面向開發者的工具包(Toolkits)中,NeuroPilot 2.0包括深度神經網路的修剪和量化、平臺感知深度神經網路設計的自動化,以及系統層面的AI優化,優化的關鍵指標包括髮熱量、計算效能、功率、記憶體等。
此外,NeuroPilot2.0還支援各種主流AI應用的DNN框架,包括人臉識別、美顏、背景虛化、手勢識別、聲音識別、Benchmark等。
基於平臺感知深度神經網路設計的自動化技術,AI能夠基於具體應用的特點搜尋到傳輸速率、時延、功耗等引數最適合的網路架構,即通過AI設計一個最適宜的計算加速神經網路。
DNN的冗餘性決定了引數個數不會對網路的精度造成影響。傳統的DNN演算法通常採用32位浮點數格式,但是大部分演算法,比如SGD(Stochastic Gradient Descent)所需要的精度僅為6~8bit,因此合理的量化網路也可保證精度的情況下減小模型的儲存體積。
NeuroPilot 2.0的深度神經網路量化過程主要採用資料訓練時量化。值得注意的是,與改變密度類方法不同,量化類的方法屬於改變網路多樣性的方法,容易造成精度損失。量化後需要針對精度和準確度校核。
官方資料顯示,NeuroPilot 2.0量化後準確度不變,能耗從90.2mJ下降到8.4mJ,降低近1/10,佔記憶體量降低到1/4。
在深度神經網路減枝(Pruning)方面,基於NeuroPilot2.0的工具包,執行MobileNet時可減少35-40%的計算量,功耗下降25-30%,準確率提升0.06%;執行ResNet-34時可減少25-30%的計算量,功耗下降25-30%,準球率不變。
此外,NeuroPilot2.0中除了安卓系統最新P版本提供的39個API外,聯發科還會整合了當下AI主流的應用API。
升級邏輯:從低功耗出發
2012年,深度學習領域大牛Hinton發表論文《ImageNet Classification with Deep Convolutional Neural Networks》為計算機視覺領域帶來了一場“革命”,憑藉一項名為“深度學習”的新技術首次將ImageNet的準確率提升至85%。
聯發科計算與人工智慧技術群的吳驊正是從彼時開始關注深度學習。
“2014年,我們正式切入到深度學習技術在晶片加速方面的應用。”吳驊談道,“經過AlphaGo等重要事件的影響,產品部對我們的研發越發重視。”
吳驊認為,除了終端載體本身存在記憶體有限、發熱量不宜過高,電池容量有限等客觀限制。目前在手機端應用深度學習還面臨四個層面的挑戰:
1)網路模型的複雜度,僅僅只是在手機端執行的MoblieNet也有6億次的加減運算。
2)網路層級更深,特徵點多,需要更大的記憶體規模。
3)從最基本的AI辨識到影像處理,音訊處理,AI衍生出越來越多的應用,對網路提出多工處理的能力。
4)續航能力的保證,要求應用處理過程中的更低功耗。
與此同時,消費者以及手機客戶對於晶片層面的心理期待還包括低延時、隱私性、安全性、穩定性等要求。綜合以上考慮,吳驊表示,手機AI晶片的研發應該首先從低功耗出發,最終聚焦於功能與效能的平衡。
談到在NeuroPilot2.0中首次採用的深度神經網路壓縮技術,自然很容易聯想到國內知名的AI創業團隊深鑑科技。去年5月,聯發科還曾參與了深鑑科技的A輪投資,今年7月深鑑科技被FPGA晶片巨頭賽靈思收購,目前深鑑科技團隊併入賽靈思的工程部門。
那麼,聯發科此次NeuroPilot2.0所植入的網路減枝和量化技術與前者有何不同呢?
吳驊向機器之心介紹,聯發科此前的投資主要是資本層面的動作,並沒有引入深鑑科技的技術,P90上採用的壓縮技術為聯發科自研。與一般的深度神經網路壓縮技術不同的是,聯發科採用減枝技術的過程中,還需要硬體架構的配合,在壓縮計算量的同時還減少了頻寬,能夠使效能比進一步提升。
與之對應的,傳統通過軟體演算法實現的減枝並沒有硬體層面的配合,運算量降低或者演算法加速時並沒有頻寬層面的調整,對整體運算效能的提升並不大。
將AI算力賦能到手機只是聯發科的第一步,吳驊表示,面對一年15億臺的出貨量(包括專利),聯發科的產品路線是首先將NeuroPilot植入手機端,明年放會在智慧家居產品上落地,比如幫助電視改善畫像品質,加速音箱等語音智慧助理等,再進一步,聯發科將會在車載晶片端發力AI。
談道P60為聯發科今年在財報和業績上帶來的收益,聯發科無線通訊事業部產品規劃季行銷資深總監李彥奇認為貢獻主要來自兩個方面:
一是出貨量超過預期,直接反映在財報資料上的提升;
二是晶片落地到手機上的效能和功耗表現,比如OPPO R15等,這大幅提升了聯發科在手機晶片市場的品牌印象和口碑。
結語:“更加靠近高階市場”
年初,聯發科一套“P60+NeuroPilot”的組合拳為AI晶片市場帶來有力的衝擊,而經過大半年的檢驗,NeuroPilot的軟硬合體戰略為聯發科獲得了市場與口碑的雙贏。隨後,P22、P70的追加發布,也預示著聯發科乘勝追擊的野心,尤其在競爭對手高通今年局勢不利的背景下。
“如果有一個高階硬體作為基礎當然是理想化的”,吳驊談道,“但是當我們在硬體條件受到限制的時候,尤其在某些產品定位不允許有專門的加速器,而是基於通用的硬體架構時,我們只有最大程度地挖掘軟體加速和優化的能力”。
“沒錯,這是我們此前一直以來對於晶片研發的要求”,李彥奇進一步補充道,但是接下來的P90將會是一款更靠近高階晶片的產品,在硬體和軟體層面都追求達到旗艦產品的能力。