高出GPU伺服器30倍,前NASA專案的超算大拿要做FPGA效能的顛覆者
他們自詡為“搭積木的人”——“FPGA是樂高積木,用最少的積木搭建出整個高樓大廈——這就是我們的能力。”
在大多數晶片從業者看來,因為批量開發難度大和成本過高,FPGA一直作為“技術驗證者”的配角存在。但雪湖團隊試圖打破這一觀念,他們希望憑藉多年的開發經驗積累和自研開發工具將FPGA晶片推向人工智慧舞臺的中央。
“我們不是一家賣Know-how、賣演算法的公司,甚至可以說我們不是一家AI晶片公司。我們把自己定義成一家異構計算公司”——這是張強為雪湖寫下的註腳。
6月底的一個夜晚,北京頤和園被燈光裝點得美輪美奐。這座千年園林里正在上演一場充滿科技感的釋出會,美圖手機宣佈FPGA加速神經網路計算專案正式落地,同時預示著張強團隊和美圖影像實驗室MTlab的合作專案正式投入運營。這是公司創立10個月以來的首個落地專案,它將為美圖的最新款手機帶來30倍的運算速度提升。
在此之前,美圖一直在積極尋覓雲端計算中心的加速方案。“對於大部分以圖片和視訊為主的應用公司而言,雲端計算的核心訴求包括兩個,一是希望專案部署越快落地越好;二是不侷限用晶片方案,但要求價效比最高。”雪湖科技創始人兼CEO張強說道。
在這兩個核心訴求之外,就美圖雲平臺而言,基本門檻是資料中心能夠響應每天高達2.1億張的照片處理需求,並且保證毫秒級低延時完成處理任務。
在美圖考察的專案中,許多團隊都無法滿足快速部署的第一要求,“最少平均要一年時間”,這在競爭激烈、迭代快速的手機行業顯然無法接受。此外,面對如此大規模的計算需求,採用高規格的GPU方案是常規思路,但與之對應的高昂費用又缺少價效比。
這並非一件易事,但對於急需向市場和資本證明實力的雪湖團隊而言——卻是一次不成功便成仁的機遇。
雪湖科技聚焦於提供以FPGA為主的異構計算解決方案,技術優勢體現在的異構計算開發移植、演算法重構與優化、架構優化等方面。基於雪湖自研的FPGA開發框架Ptero Tool,能夠讓AI演算法類專案的開發效率提升3倍,晶片資源利用率提升至98%,對比GPU的雲端伺服器實現30倍的價效比提升。
“投資人很少聽說過這類專案,指標又那麼誇張,所以都認為不可能做得到”,雪湖團隊早期在向投資人介紹專案時碰了一鼻子灰,“我們索性就不跟投資人聊,就埋頭埋頭幹,先把東西做出來。”2017年初,業界普遍認為ASIC架構才是AI晶片的主流,大多數FPAG專案在前期評估階段就被否認商業價值。
“這還是傳統觀念,我們會用20多年積累的異構技術體系打破這個觀念。”張強表示,異構計算的特殊之處在於,它是非馮諾依曼架構,但傳統軟體行業都是建立在馮氏架構之上。所以切換到異構計算之後很多人覺得不適應,FPGA基本上顛覆了大部分人對於晶片的認知。
基於ZYNQ 7020的CNN加速模組
經過4個月的奮戰,張強團隊按照美圖設定的設計需求與晶片規格完成了演算法移植。“Demo演示的時候,他們(美圖)都感到很意外,”張強回憶起當時的場景,在一顆10美金的ZYNQ 7020晶片上運行復雜的CNN演算法即使是現在也沒人敢嘗試。
這次“小考”不僅證明了雪湖團隊的技術可靠性,同時為其爭取到了重要的“啟動燃料”——次日,美圖就向雪湖傳送了投資協議。今年1月,雪湖科技正式完成天使輪融資。
除了雲端計算中心加速和私有云搭建方案,雪湖目前還在大力投入自動駕駛晶片市場。“FPGA晶片在車載領域應用將會是一個主流,我們發現2018年開始從ADAS到L3/L4自動駕駛都開始選擇FPGA作為主要的運算加速平臺。”張強透露,團隊正在與國內一家自動駕駛團隊合作開發基於端側的L3自動駕駛感知層方案,預計明年初將落地。
FPGA信徒
FPGA(FieldProgrammable Gate Array),又稱可程式設計式門陣列,1985年由賽靈思(xilinx)創始人之一Ross Freeman發明。“可重構的計算”是FPGA相比其他架構晶片最為鮮明的特性。但同時對於開發者而言也提出了較高的軟硬體開發門檻,經過34年的發展,FPGA的應用仍偏向小眾。
賽靈思CEO Vitctor Peng曾表示,截止目前,賽靈思培養的全球開發者約1400人。 “國內大概在千人規模左右,而且集中在中興、華為等通訊公司以及部分科研院所”,雪湖科技聯合創始人、COO王韻談道,“真正用FPGA來做加速方案的寥寥無幾”。
作為FPGA在國內的千人開發者之一,張強絕對算得上是一名虔誠的異構計算“信徒”。他前後經歷兩次創業,上海交大電子系畢業後便投身於異構計算的加速應用中,但由於市場環境等原因無疾而終,三年後張強再次重返異構計算的賽場,依舊無比堅定。
早年,張強曾以核心開發人員的身份參與了多個全球性的FPGA科研專案。“我們當時處在高效能運算/超算領域,和美國 NASA、美國國家癌症中心以及國內的科研院所都進行過合作”,張強談道。
在這之中,最值得一提的便是“鐳射打蚊子”專案,該專案曾在2010年TED演講中進行現場展示,並被《時代》雜誌列為“年度十大發明”,和蘋果iPad並列。
2009年,張強有幸參與了比爾蓋斯基金旗下非洲的瘧疾防禦計劃——以鐳射的方式擊打瘧疾的主要傳播源蚊子。張強所在團隊主要承擔鐳射打蚊子的算力部分,對視覺演算法進行加速。
當時的微軟CTO Nathan Myhrvold評估以後,所有基於CPU、GPU的專案都沒法達到指標。“專案要求500幀的攝像頭,每幀同時追蹤4096只蚊子,時延非常低。”張強所在團隊在西雅圖花了三個月時間終於FPGA方案攻克該難題。
張強團隊還參與了全球首個基於FPGA的基因比對計算專案。他回憶,當時美國國家癌症研究院(NCI)的計算量多大30億條鹼基對的比對。
受NCI委託,張強所在團隊將Smith-Waterman演算法移植到Vertex2-6000 FPGA晶片上,以1/300最初的超算方案成本完成計算任務,並將最初需要6個月才能完成的運算時間縮短到了5天。時至今日,Smith-Waterman演算法已經成為FPGA 異構計算平臺計算效能的主流方案。
此外,張強還與NASA頂級研究員Olaf Storaasli博士一同參與了基於FPGA異構計算的有限元分析,通過該平臺,NASA獲取了超過常規計算平臺60-100的運算速度提升。
90年代末21世紀初,高效能運算還是一個陽春白雪的行業,專案看起來都十分前沿和酷炫,但很難創造商業價值。張強回憶,“要從科研機構、政府機構手上專案並從中賺錢,一直到回款,整個過程非常艱難。”
另一方面,民用市場已經成為英特爾奔騰多核處理器的天下,計算能力是完全溢位的,滿世界的聲音都是——“沒有必要買i7,買個i3、i5就夠用了”。“在這種背景下,在民用市場上根本是找不到計算的需求。”張強談道,“所以儘管案例都很有開創性,但專案仍然沒法支撐下去。”
隨後,張強便投身熱鬧的C端市場。在2014年,和朋友等人一起創辦樂蝸VR,推出基於虛擬現實技術的頭盔及軟體應用。該公司在2016年年中被華人文化旗下的微鯨收購。在微鯨,張強遇到了同為半導體行業背景,此前在日本富士通擔任亞太區市場總經理的王韻。
回顧過去十餘年的同構計算髮展路線,工藝與應用規模高速發展,核心架構卻沒有發生太大變化。與此同時,CPU發展所主要依賴的半導體工藝紅利卻在消失。“摩爾定律失效後CPU的發展路線將會平緩,算力將會出現缺口,需要GPU、FPGA、ASIC等異構晶片去填補。”基於同一個判斷,張強和王韻開始了異構計算的創業征途,並找了曾經在超算領域一同打拼的夥伴。
雪湖科技核心團隊,從左往右依次是創始人兼CEO 張強、COO 王韻、系統專家 趙小吾、演算法專家 楊付收
張強認為,基於數十年的研發經驗,雪湖團隊對FPGA的理解更為深刻。“我們是非常早期一批就關注到FPGA應用的人,我們瞭解將演算法本身固化到硬體電路將會對其執行效率帶來的巨大潛力。並且我們通過早期的大量案例證明了這個觀點。”
對於以ASIC為主的另一條AI晶片路線,張強認為ASIC芯片面臨的巨大痛點在於攤銷的成本太大。比如,7nm的研發高達投入3億美金,至少要百萬片的銷量才能攤銷掉高昂的成本。
基於王韻此前在富士通的工作經驗和資源,雪湖團隊首先從雲端計算應用需求強烈的手機客戶切入。 2017年年中的一次機會,雪湖團隊向美圖CTO張偉介紹了其基於FPGA的AI演算法加速技術。張偉頗感興趣,次日便從廈門飛到上海與雪湖團隊當面交流。
為應對美圖10億級的線上使用者的實時需求,美圖近年來重點投入研發力量在神經網路計算加速領域,特別設立美圖影像實驗室MT Lab,在演算法層面取得一定突破。但如何將演算法以較低成本移植到晶片上是當時面臨的一大難題。
在瞭解到美圖的具體需求後,雪湖團隊開始全力投入推進CNN加速接解決方案。與此同時,雪湖科技的公司設立和團隊組建等工作也開始有條不紊地展開。今年6月,美圖的FPGA加速神經網路計算專案正式落地。
雪湖科技FPGA伺服器 該方案正在逐步替代美圖雲端計算中心的昂貴且大功耗的GPU伺服器。張強介紹,“英偉達的資料中心GPU平均在1萬美金左右,算力約為35T;我們即將要升級的伺服器1U算力能達到400T,成本只要3000美金。”
目前,雪湖團隊規模約為20人左右,定位於為上下游賦能,上游對接FPGA晶片廠商,同時連線下游的應用廠商。年初,雪湖獲得美圖天使輪數百萬投資,正在推進Pre-A輪融資階段。
“顛覆”傳統晶片引數
“算力只是一個間接指標,”張強說道。
在算力堪比“石油”燃料的AI時代,一款晶片的算力指標顯然已經成為最核心的參考因素。算力,即單位時間內晶片所能提供浮點計算能力的峰值。理論上看,當晶片設計完,算力就已經固定,不會根據應用場景發生變化。
但在張強團隊看來,一顆晶片在不同應用場景下提供的算力有所不同,比如計算密集型,I/O密集型的不同需求下數值差異很大。 “現在大部分AI晶片公司都在偷換概念,對外宣傳的都是算力峰值”,王韻談道,就像是眼睛一閉油門踩到底能跑出的最快速度,但是缺少實際參考價值。通常來說,由於實際部署下的各種原因,晶片遠不能達到其計算能力的最高理論值。
對於雪湖團隊而言,他們更看重晶片的資源利用率。對於一顆FPGA而言,在核心計算單元執行演算法時,如果從啟動一直到運算結束的每個使用週期都在不停的工作即晶片的理論值,相當於100%的工作狀態,也就是說把該晶片所有的功力都發揮出來了。
“我們能將這個理論率提升到98%,換句話說,100個計算週期裡只有兩個週期在休息。”張強說道 “這顛覆了晶片行業裡的一個標誌性引數。除了雪湖,沒有任何一家公司可以做到。”王韻形象地將描述為“完美地榨乾晶片效能。”
“98%資源利用率”所能帶來的實際價值是——“通常需要賽靈思最高階、售價超過1萬美金的晶片才能實現複雜的演算法。雪湖可以採用10到20元美金的中低端晶片實現同樣演算法。”張強表示,1萬美金與20美金的核心指標差異就在其內部可利用的資源數目。
長久以來,開發難度大、開發週期長,開發者稀缺、培養週期長是橫亙在FPGA發展和應用推廣道路上的難題。“FPGA工程師的培養成本很高,要培養一名真正具備獨立做FPGA開發的工程師通常需要五年的時間。”張強談道。
為此,雪湖團隊研發了一套私有的開發環境和框架PteroTool,以實現更簡潔的晶片工具鏈條,抽象度更高的應用層。
“這是基於我們十幾年的積累,裡邊包括了大量高效穩定、佔用資源很少的庫。”張強介紹,基於Ptero系統抽象層,能夠將系統抽象出來,類似於晶片作業系統,以實現演算法快速移植,可以從一顆晶片快速移植到另一顆FPGA晶片。“這套工具體系很容易上手。按照我們的經驗,經過三個月培訓,一個剛畢業的大學生就上手成為FPGA演算法開發工程師。”
為了對開發工作進行更加細緻地分工,雪湖對開發過程進行了系統化地分解。在雪湖的技術架構下,工程師不再需要同時掌握FPGA開發、寫演算法和程式碼等全鏈條工作,“每人掌握一個環節,通過多人合作,以實現更高效地開發。”
預 判
“我們目前集中私有云、公有云、車載三大塊市場。模組市場優先順序被調低了,因為目前AI在C端市場仍然缺少應用推動。”張強談道。
在雲端計算中心市場,雪湖主要通過私有云GPU替代、FPGA公有云加速兩條路徑推動。對於影象與語音資料呼叫頻繁的AI公司而言,相較於公有云資料可能面臨的安全性問題,搭建一套高性價比的私有云方案正在成為核心訴求。
隨著5G落地步伐的加速,張強認為,雲上的計算需求和市場會會變得更加龐大。受到4G的傳輸速率和網路承受力限制,目前很多計算主要在手機端/在端測完成。但是5G來臨之後,傳輸速率提升十倍以上,手機本地的計算能力會弱化,儲存會變大;通訊能力會變強。
在雪湖團隊與OPPO、美圖等主流手機廠商交流過程中,比較一致的觀點認為,5G時代雲端的資料中心計算需求,特別是人工智慧運算需求將呈現井噴趨勢。相應地,將AI晶片塞到手機的潮流可能弱化。
此外,正處於視窗期的汽車智慧化也是雪湖現階段押下重注的市場。“我們的優勢在於技術方案能夠更快地落地,以幫助車廠或者自動駕駛團隊搶奪時間視窗”,張強認為,相比ASIC的AI晶片公司開發和流片通常需要一到兩年時間,快速落地是雪湖當下最顯著的優勢。
此外,一個更為隱形的優勢還在於,FPGA具備現成的車規級晶片可供選擇,而無需等待遙遙無期的AI晶片通過車規級晶片認證。
目前,雪湖團隊正在幫助一家自動駕駛公司實現前端的視覺資料識別與分析,以取代昂貴和高功耗的GPU伺服器方案。張強表示,該自動駕駛公司近期再次提速研發節奏,“年初方案一旦能夠落地,將成為開創性的自動駕駛解決方案。”