AI晶片架構競相走向邊緣 | 半導體行業觀察
來源:本文由 公眾號 半導體行業觀察(ID:icbank)翻譯自「Semiconductor Engineering」,謝謝。
各大公司競相將各種晶片架構作為將AI推向邊緣的首選武器。
隨著機器學習應用開始出現在終端裝置和物聯網網路邊緣,實現AI的加速器可能看起來更像FPGA和SoC模組,而不是英特爾和英偉達目前的資料中心繫結晶片(data-center-bound chip)。
人工智慧和機器學習需要功能強大的晶片來從大資料集中計算答案。大多數AI晶片——包括訓練和推理——都是為資料中心開發的。然而,這種趨勢很快就會改變。其中很大一部分處理將發生在邊緣,即網路的邊緣或感測器和感測器陣列的內部或附近。
幾乎可以肯定,訓練將留在雲端,因為對於這一大塊資源的最有效產品是英偉達的GPU,它主導著這一部分市場。儘管資料中心可能會承擔包含大量資料集的訓練部分,但推理可能最終會交給邊緣。市場預測似乎同意這一點。
Tractica公司研究主管、邊緣裝置AI報告的作者Aditya Kaul說:“推理硬體市場是一個新市場,但變化迅速。資料中心有一些機會,並將繼續存在。基於雲的資料中心AI晶片市場將繼續增長。但是推理處於邊緣,這裡開始變得引人注目。至少有70家專業人工智慧公司正在研究某種與晶片相關的人工智慧技術。”
Kaul說:“在邊緣,智慧手機、機器人、無人機、相機、安全攝像頭等所有需要AI處理的裝置都將成為未來的熱點。”

到2025年,基於雲的AI晶片組將帶來146億美元的收入,而基於邊緣的AI晶片組將帶來516億美元的收入,是資料中心的3.5倍,邊緣AI晶片組主要由手機、智慧音箱、無人機、AR/VR耳機,以及其他所有需要AI處理的裝置組成。
雖然英偉達和英特爾現在可能主導基於資料中心的機器學習應用的市場,誰將佔據遠離資料中心的邊緣計算AI市場?那些晶片會是什麼樣子?
AI邊緣晶片需要做什麼
根據Semico Research公司ASIC和SoC分析師Rich Wawrzyniak所言,邊緣計算、物聯網和消費終端裝置將需要以相對較低的功耗、價格和較小晶片尺寸進行高效能推理處理。這很困難,特別是因為邊緣裝置處理的大多數資料是龐大的視訊和音訊資料。
Wawrzyniak說:“資料很多,但如果你有監控攝像頭,它必須能夠實時識別出壞人,而不是把一張照片傳送到雲端,然後等著看有沒有人認出他。”

將ML級別的智慧新增到邊緣裝置的一些願望來自於需要將這些裝置上的資料保密,或者降低將資料傳送到雲端的成本。然而,大部分需求來自那些希望裝置位於邊緣計算設施或掌握在客戶手中的客戶,他們不希望裝置簡單地收集資料並定期將其傳送到雲端,以便他們可以直接與公司自己的資料或其他客戶和路人進行實時互動。
NXP半導體AI技術主管Markus Levy表示:“客戶意識到,他們不想把大量處理工作轉移到雲端,因此他們認為邊緣是真正的目標。既然你可以在邊緣實現AI,你就可以把物聯網變成真正具有能力的東西。我們看到消費者物聯網、工業物聯網以及嵌入式的增長非常快,這是我們最大的增長領域。”
據IDC分析師Shane Rau稱,今年接受IDC調查的商業技術客戶表示,他們確定會把機器學習轉移到邊緣裝置上,主要是汽車、智慧家居、視訊監控攝像頭和智慧手機。該公司的客戶調查將這四種裝置列為ML的候選裝置。
邊緣AI架構發展趨勢
邊緣計算的需求範圍可能包括數億計的工業和消費裝置,因此任何單一的架構都不太可能滿足所有這些需求。
NXP的Levy表示:在微控制器和相對低端的晶片上執行推理模型是可以的,但大多數機器學習功能需要從基於FPGA、ASIC和其他SoC配置的一長串可選CPU附加項,以及GPU和CPU的組合,有時還需要由Google的TPU等特殊用途的ASIC來增強。
大部分的增強都是以加速器的形式出現的。這些FPGA、SoC、ASIC和其他專用晶片旨在幫助資源受限的基於x86的裝置通過一層接一層的分析標準處理大量影象或音訊資料,因此app可以正確地計算和加權每個資料的值。
英特爾和英偉達已經向邊緣AI市場發起衝擊。Kaul說,像英偉達的Jetson這樣的產品並不能令人信服。Jetson是一個GPU模組平臺,具有7.5W的功率預算,只有英偉達更典型產品的70W功率的一小部分,但對於一般不超過5W的邊緣應用來說還是太高了。
Levy說:“有很多IP公司正在為神經網路尋求加速,因此有足夠的選擇使加速器開始成為邊緣裝置推理的需求。”

但是,要想在潛在的億萬個裝置上新增ML加速和支援,將需要更多的可定製性、更低的成本,以及更專門針對資源受限裝置上ML應用需求的規範——這意味著,如果要取得成功,整個市場將需要更好的處理器。
神經推理需要數萬億次乘法累加運算,因為模型從其公式矩陣的一層提取資料,儘管每一層可能需要不同的資料大小,而且其中一些裝置可能在輸入設定為8位整數而不是16位整數時執行得更快。
Flex Logix聯合創始人兼執行長Geoff Tate表示:“為了在資料中心獲得良好的吞吐量,大多數架構依賴於必須使用相同的權重集來建立批處理的數十或數百個任務。如果你有28張圖片,你載入圖片,載入第一階段的權重,對第一階段做數學運算,儲存結果,然後載入第二階段的權重。通過在每一層上完成所有28個批次,你可以將權重載入時間縮減到一次只加載一個的1/28。如果載入和管理權重是你不擅長的,那麼你可以通過批處理來解決它。這就是為什麼你會看到基準測試顯示第28批的執行效率低於第1批。如果載入權重的速度很慢,則難以擴充套件。但在資料中心之外的任何地方都必須這樣做。如果你有監控攝像頭,則必須在影象傳入時對其進行處理,以便批大小始終等於1。如果你在測量效能,則資料中心外的批大小始終等於1。”
Flex Logix開發的神經網路引擎可以避免批處理問題。Tate說:“因為我們載入權重的速度非常快,所以我們不需要進行批處理,我們的效能在第1批和第28批時相同,這在邊緣應用中非常重要。”
推理硬體方面的兩項新工作
Xilinx試圖利用其在FPGA和系統級設計方面的經驗,推出新的產品系列和路線圖,以滿足儘可能多的邊緣/裝置市場的需求。
Xilinx在去年春天討論了這個想法,但直到10月才正式宣佈,該公司描述了一個自適應計算加速平臺,該平臺“利用CPU、GPU和FPGA的力量來加速一切應用”。
Xilinx的演示描述了一個廣泛的產品線、使用案例列表和有關其AI引擎核心的詳細資訊,其目標是提供比傳統方法的單位芯片面積高出3~8倍的效能,並提供高效能DSP能力。
與此同時,Flex Logix建立了一個使用低DRAM頻寬的可重構神經加速器。晶片的面積和功率的目標規格將在明年上半年完成,並在下半年流片。推理引擎將充當CPU,而不僅僅是一個更大,更漂亮的加速器。它提供了模組化、可擴充套件的架構,旨在通過減少移動資料的需要以及通過改進資料和矩陣計算的載入方式來減少瓶頸,從而降低移動資料的時間和精力成本。
該晶片將DRAM專用於單個處理器塊,而不是將其作為一個大記憶體池進行管理。DRAM不能同時將資料饋送到晶片的多個部分。Tate說:“將DRAM作為流入一個處理器塊的大記憶體池處理,這是範諾依曼架構的典型特徵,但它不會成為神經網路的成功架構。”
早期
Wawrzyniak表示,Xilinx,Flex Logix和其他公司蜂擁到了一個仍處於發展中的邊緣推理市場,顯示出市場和SoC、FPGA製造商提供良好技術以應對它們的能力的廣泛信心,但這並不能保證他們能夠克服安全、隱私、現狀的慣性和其他無形的問題。同樣,FPGA、ASIC和SoC加速ML的市場仍處於起步階段。
Linley Group的Linley GwenNap表示,當一個新市場發展起來時,看到許多新的參與者和新方法是正常的。FPGA和ASIC供應商也在其中,因為這些技術使一家知道自己在做什麼的公司能夠快速生產出合理的產品。不過,標準最終將在一兩年內迴歸,這將穩定所涉及的參與者的數量和專長,並確保與其他市場的互通性。