AI晶片在5G中的機會
作者:唐杉
來源:StarryHeavensAbove
雖然也算是通訊行業的老兵,但我也已經有段時間沒有跟蹤5G的最新進展了。之前我也看到一些AI和5G結合的討論,當時感覺還有點遙遠。不過最近的一些觀察引發了我對這個問題的興趣,也對AI晶片在5G中的機會進行了一些思考。5G從技術到生態是一個很大的話題,和AI結合的機會也非常多。能力所限,本文只從兩個區域性出發分享一些個人淺見。
•••
AI和5G的交點:MEC(Multi-access Edge Computing)
第一個吸引我注意的點是ARM釋出Infrastructure IP品牌Neoverse時提到的一個目標場景。在這個場景中,大家可以看到5G和ML Accelerator同時出現。
source: www.anandtech.com
ARM所描述的這個解決方案,針對Edge compute,也就是我們常說的邊緣計算。如果我們進一步的研究,可以看到在5G中,一個非常重要的內容就是所謂的MEC。最早,MEC是Mobile Edge Computing的縮寫;後來,在標準化組織ETSI中,叫法改變為Multi-access Edge Computing。兩者基本概念相同,後者更強調除了蜂窩行動網路之外的接入方式,比如WiFi。下圖是ETSI定義的MEC參考架構。
source: etsi.org
對於不熟悉標準語言的讀者,這個圖讀起來比較困難。簡單來說,MEC就是邊緣計算的概念和行動網路結合的產物,主要是通訊運營商提供邊緣服務。出發點也很簡單,就是儘量在離使用者(終端裝置)“近”(通訊上的概念)的地方給使用者提供服務。一個比較貼切的說法是“It’s like having a wireless supercomputer follow you wherever you go.”這樣可以分擔雲端的壓力,減少和雲端大量傳輸資料的需求;更重要的是能夠讓終端裝置以最低的延時獲得服務。同樣的服務,如果是在雲端完成,需要經過很長的通訊路徑,時延和抖動都會很大。這對於某些場景來說是不能接受的,一個最好的例子就是車聯網的應用。比如下圖,如果要實現實時的路況分享,進而輔助汽車駕駛(包括輔助自動駕駛汽車對環境進行感知),則要求很低的延時,必須在最近的位置(比如通訊基站)中進行處理和傳送。一些觀點認為V2X是自動駕駛最終能夠真正實現的關鍵技術之一。
Source: nokia.com
在[2]裡大家還可以看到一些其它MEC和車聯網結合的例子。總得來說,需要高頻寬和低延時的應用都是MEC的目標應用,AR/VR應用也是典型的例子。
MEC框架本身是獨立於具體的接入技術的,4G,5G,WiFi都可以。但是,MEC,特別是和AI結合的智慧化的MEC可以說對5G的成功至關重要。對於這個問題,[2]中有比較詳細的討論。從技術角度,AI和邊緣計算對於5G網路架構的優化有重大意義,邊緣計算結合5G特有的網路切片技術(Network Slicing)能讓5G網路更好的提供滿足多種服務質量的服務。而對於5G網路這種高度複雜的網路來說,AI可以在網路自組織,自優化,動態配置,資源管理,流量優化,成本控制等方面幫助運營商提高效率。從經濟角度,目前通訊運營商面對的一個重大問題是管道化問題,在5G上的巨大投資如何產生收益還帶著一個巨大的問號。因此,運營商希望能夠通過提供差異化的服務或者拓展新的業務來獲得更高的利潤。而MEC和AI是最有前景的方向。通過MEC和AI結合,運營商就有可能在網路裝置(比如基站)“附近”提供更多服務,比如資料的智慧處理等等。如果下圖的願景能夠實現,運營商就有可能從這些新的服務中獲得更高的利潤。
source: nokia.com
到這裡我們回到AI晶片的話題。在未來的5G網路中MEC裝置的需求量應該是相當巨大的,MEC Server可能直接融合在網路裝置中,比如基站(包括小基站);也可能是獨立的裝置。我們看ARM的方案,既包括了5G/4G的基帶處理,又包括多核CPU和網路加速功能。在此基礎之上,主晶片還可以通過高速介面外接其它晶片,實現網路,儲存,安全功能,以及AI功能。這些功能組合起來就可能實現MEC和基站的結合。當然這只是一種方案,相信未來的MEC方案會有多種形式。如果考慮到其它接入方式,未來的WiFi接入點或者Router等裝置也可能增加Edge server的功能,同樣有融合AI處理能力的需求。因此,就如同AI晶片和IP在雲端和終端裝置中越來越普遍,未來AI晶片或者IP在這些Edge裝置當中也會有很多機會。
那麼,下一個問題就是,Edge裝置中的AI晶片或IP有什麼特殊挑戰?我認為一個關鍵的要求是Virtualization(虛擬化)。對於一個Edge Server來說,需要服務的使用者需求是多種多樣,且不斷變化的,特別是考慮到IoT的環境。在這種情況下,如果不能夠實現資源(比如AI運算資源)的虛擬化,就很難實現資源的合理應用和快速切換。其實,目前在雲端,也有資源使用不均衡的情況,很多AI應用包括training和inference都存在很高的peak-to-average rate。而對於Edge Server來說這個情況會更加嚴重。此外,虛擬化還有很多的好處,比如便於業務的部署等等。因此虛擬化也是MEC架構中的一個關鍵技術。不過,要實現虛擬化,特別是專用硬體的虛擬化,並不是簡單的事情。在Edge server中實現對延時敏感的業務的時候,目前常用的虛擬化方法的開銷是無法接受的。總得來說,Edge Computing未來也會是AI晶片和IP的一個重要戰場,對大家也會提出一些新的挑戰,當然也意味著機會。
•••
AI實現5G基帶處理
前一段時間,東南大學的尤肖虎教授等專家撰寫了一篇文章“基於AI的5G技術——研究方向與範例”,“非常完整的梳理了AI技術在5G系統設計與優化方面富有發展前景的若干發展方向,並給出了有關5G網路優化、資源最優分配、5G物理層統一加速運算以及端到端物理層聯合優化等若干典型範例”。其中,在“5G網路優化、資源最優分配”中使用AI技術是比較容易理解和期待的,因為這些複雜優化問題本質上就非常適合用AI方法來解決。但“5G物理層統一加速運算以及端到端物理層聯合優化”這兩個問題是否能用AI來解決就有比較大的疑問了。
有過相關經驗的同學應該知道,目前無線通訊基帶處理(特別是物理層)晶片包括了非常複雜的演算法鏈路,每個部分都經過了大量的研究和實踐優化,基本已經達到了工程實現的極限。用AI方法來替代這種已經高度優化和專業化的硬體架構真能實現效能或效率上的優勢嗎?如上述文章所說“移動通訊系統通常存在效能界(如夏農容量限),現有的方法經過精心設計已經可以充分逼近上述效能界。...這意味著,即使採用先進的AI學習技術,也無法超越這些經典演算法。”“與經典的方法相比,AI學習演算法的計算複雜度通常較高,如果不能帶來效能上的明顯提升,其本身顯然不具備足夠的競爭力。”這其實也是我的第一感覺,所以當時也沒有太認真的思考這個問題。直到最近,我看到CEVA的5G基帶訊號處理方案中專門加入了AI processor(如下圖),這個問題就顯得越來越有趣了。
source: www.ceva-dsp.com
簡單來說,在CEVA的方案中,使用了AI(神經網路)演算法實現了5G NR中的CSI計算和上報功能,並使用專門的AI processor來支援相關的神經網路計算。感興趣的同學可以看看他們的white paper:“PENTAG™ AI PROCESSOR FOR CSI REPORTING IN 5G NR - WHITE PAPER”。這裡我就不討論技術細節了。
在傳統的基帶處理當中,CSI計算有專門的演算法,使用專門的硬體或者DSP來實現。在5G NR當中,由於複雜度的增加,傳統演算法的代價很高,反而不如通過訓練一個神經網路實現的效能和效率更高。
雖然這只是整個基帶訊號處理的一小部分,但它出現在產品級的方案中,還是讓我們有理由開一下腦洞。雖然目前使用AI方法還很難和傳統方法在效能和實現效率(比如完成同樣功能所需要的計算量,或芯片面積和功耗)上競爭,但如果真的能通過合理的神經網路設計和大量的訓練,實現和傳統方法有一定可比性的結構,那麼可能會給這個領域帶來很大的變化。
首先,目前的基帶處理器設計,是非常複雜的工作,需要投入大量資源,還需要大量的現場測試來支援。因此,目前能設計5G NR基帶處理器的公司可以說屈指可數,也都經過了多年的積累。但如果AI方法成功,那麼我們可能就不再需要對各個計算模組進行細緻的優化,而是端到端的直接“訓練”完整的接收機。對於這種端到端的訓練,輸入資料可以直接使用現實環境的訊號,預期的輸出則可使用實際的傳送訊號,訓練資料的獲取並不是很困難。如果這條路能走通,基帶處理器設計的門檻就會大大降低,演算法用神經網路實現,硬體用AI處理器支援。
這樣還帶來另一個好處,硬體設計的問題轉化為AI處理器設計問題,可以充分利用這個領域的技術革新(包括新架構,新器件等等)。而AI處理器的規則結構,要比目前的基帶處理器的高度專用結構具有更好的靈活性和擴充套件性。
最後,傳統的基帶處理器為了簡化問題採取了分層和分塊的設計方法,因此也限制了端到端和跨層優化的可能。也許AI方法能夠改變這種情況,發現新的優化機會。
以上討論雖然有一定的“科幻”成分,但誰又能說AI一定不能在這個領域給我們帶來驚喜呢。
•••