AI與AI晶片:2019哪些參賽者能衝雲破霧?
近日,高通釋出了最新的AI晶片——驍龍855,憑藉搭載第四代AI人工智慧引擎,驍龍855效能提升至驍龍845的3倍,每秒可處理7萬億萬次運算(7TOPs),AI開放性更高,可以程式設計、有專用硬體加速器、相容性高,高通宣稱驍龍855遠超另外兩家7納米SoC晶片友商……2018年AI及AI晶片領域的競爭不可謂不激烈,從晶片製造商、平臺和基礎設施提供商、模型和演算法設計者,以及企業解決方案提供商、垂直工業解決方案提供商,你爭我奪,在技術與市場的競賽中難分高下。
任何技術的興起都是市場需求、技術迭代與產業發展合力推動的結果,AI與AI晶片的變革亦是如此。AI演算法對晶片運算能力的要求上升到傳統晶片的百倍以上,傳統處理器已無力支援智慧家居、自動駕駛和智慧終端等應用場景的巨大算力需求,基於傳統CPU搭建出新的架構就顯得迫在眉睫。隨著AI技術的發展,從基礎演算法,底層硬體,工具框架到實際應用場景,目前人工智慧已經全面開花。
回顧2018, AI晶片也取得了諸多成績。
國際
CEVA:1月,釋出了用於前端裝置深度學習推理,而且功能強大的專用人工智慧(AI)處理器系列NeuPro™。
英偉達:6月,釋出全新AI晶片Jetson Xavier,包含了六顆處理器,每秒可執行 30 萬億次操作。
Google:7月,釋出新版AI晶片微型AI加速器Edge TPU,用於邊緣計算,可實現物聯網裝置上的機器學習模型運算。
蘋果:9月,釋出A12仿生晶片,採用開創性的7 納米晶片,其CPU部分的核心數也升級到了六個,分為兩大核和四小核。
AMD:11月,釋出新一代Radeon Instinct MI60、Radeon Instinct MI50,均基於7nm工藝的升級版Vega架構核心,全球首個7nm GPU。
亞馬遜:11月,釋出首款雲端AI晶片——Inferentia,其計算力將會高達幾百TOPS,多晶片組合後算力可達數千TOPS。此外,Inferentia支援FP16、INT8精度,並支援TensorFlow、Caffe2、ONNX等流行機器學習框架。
高通:12月,高通正式推出支援5G的AI晶片驍龍855,是全球首款5G商用晶片。驍龍855是高通首款7nm工藝晶片,將支援5G網路上的“千兆位”資料速度,比上一代驍龍845高出三倍的AI效能,並將增加一個新的專用計算機視覺處理器ISP,用於增強計算攝影和視訊捕捉。
……
國內
中科寒武紀:5月,釋出新一代雲端AI晶片,Cambricon MLU100雲端智慧晶片和板卡產品、寒武紀1M終端智慧處理器IP產品。
中星微:5月,推出了第二代人工智慧晶片——星光智慧二號。
百度:7月,釋出國內第一款雲端全功能AI晶片"崑崙",其中包含訓練晶片崑崙818-300,推理晶片崑崙818-100。
地平線機器人(Horizon Robotics ):10月,首次展示基於旭日2.0處理器架構的XForce邊緣AI計算平臺。 旭日1.0處理器去年已量產,而旭日2.0晶片預計在2018年底量產流片。
華為:9月,釋出麒麟980,全球首款量產的7nm手機晶片、雙NPU,實現基於ARM Cortex-A76 CPU架構進行商業開發,首款搭載最新的Mali-G76 GPU架構的移動端晶片,通訊方面率先支援LTE Cat.21,峰值下載速率1.4Gbps達業內最高,攝影方面,記憶體方面支援全球最快的LPDDR4X顆粒,主頻最高可達2133MHz。
10月,釋出AI晶片昇騰910和昇騰310,昇騰910是目前單晶片計算密度最大的晶片,計算力遠超谷歌及英偉達,而昇騰310晶片的最大功耗僅8W,是極致高效計算低功耗AI晶片。
……
2018年,AI晶片領國外晶片巨頭佔據了絕大部分市場份額,不論是在人才聚集還是公司合併等方面,都具有領先優勢。同時隨著人工智慧晶片的持續發展,AI技術的應用領域也隨時間推移而不斷向多維方向發展。智慧手機、ADAS(高階駕駛輔助系統)、CV(計算機視覺)裝置、VR裝置、機器人、語音互動裝置、機器人六大方向成為目前業內的主流應用。
△AI晶片應用領域
有資料表明,到2022年為止,AI晶片市場將以每年59%的成長速度增長,屆時市場規模有望達到330億美元。在此發展過程中,AI及AI晶片還將面臨哪些問題以及趨勢的顯露呢?
目前主流 AI晶片的核心主要是利用 MAC(Multiplier and Accumulation,乘加計算)加速陣列來實現對 CNN(卷積神經網路)中最主要的卷積運算的加速。這一代 AI 晶片主要有如下 3個方面的問題:
(1)深度學習計算所需資料量巨大,造成記憶體頻寬成為整個系統的瓶頸,即所謂“memory wall”問題。
(2)與第一個問題相關,記憶體大量訪問和MAC陣列的大量運算,造成AI晶片整體功耗的增加。
(3)深度學習對算力要求很高,要提升算力,最好的方法是做硬體加速,但是同時深度學習演算法的發展也是日新月異,新的演算法可能在已經固化的硬體加速器上無法得到很好的支援,即效能和靈活度之間的平衡問題。
可以預見,下一代 AI晶片將有如下的5個發展趨勢:
趨勢一:更高效的大卷積解構/ 複用
在標準 SIMD的基礎上,CNN 由於其特殊的複用機制,可以進一步減少總線上的資料通訊。而複用這一概念,在超大型神經網路中就顯得格外重要。如何合理地分解、對映這些超大卷積到有效的硬體上成為了一個值得研究的方向。
趨勢二:更低的 Inference 計算/ 儲存位寬
AI 晶片最大的演進方向之一可能就是神經網路引數/計算位寬的迅速減少——從 32 位浮點到16位浮點/定點、8位定點,甚至是4位定點。在理論計算領域,2位甚至1位引數位寬,都已經逐漸進入實踐領域。
趨勢三:更多樣的儲存器定製設計
當計算部件不再成為神經網路加速器的設計瓶頸時,如何減少儲存器的訪問延時將會成為下一個研究方向。通常,離計算越近的儲存器速度越快,每位元組的成本也越高,同時容量也越受限,因此新型的儲存結構也將應運而生。
趨勢四:更稀疏的大規模向量
神經網路雖然大,但是,實際上有很多以零為輸入的情況,此時稀疏計算可以高效的減少無用能效。來自哈佛大學的團隊就該問題提出了優化的五級流水線結構,在最後一級輸出了觸發訊號。在Activation層後對下一次計算的必要性進行預先判斷,如果發現這是一個稀疏節點,則觸發 SKIP訊號,避免乘法運算的功耗,以達到減少無用功耗的目的。
趨勢五: 計算和儲存一體化
計算和儲存一體化(process-in-memory)技術,其要點是通過使用新型非易失性儲存(如ReRAM)器件,在儲存陣列裡面加上神經網路計算功能,從而省去資料搬移操作,即實現了計算儲存一體化的神經網路處理,在功耗效能方面可以獲得顯著提升。