澎峰科技張先軼:做嵌入式AI工業級領域落地先行者
導語:澎峰科技用三年的時間來打磨沉澱自己的技術產品,並在商業路徑上積極探索。下一步目標明確:加速落地,生產嵌入式AI領域最棒的產品,做工業級產品先行落地的供應商。
愛玩少年、科學家、創業者,如果給張先軼人生最近20年裡貼上幾個標籤,這似乎是他身上最鮮活的關鍵詞。從喜歡玩兒遊戲開始迷戀程式碼、到大學選擇計算機專業、博士畢業後海外深造,再到開源矩陣庫OpenBLAS的開創者,現在的他,是一家名為澎峰科技(PerfXLab)的公司創始人兼CEO。
澎峰科技關注的是近年來的風口——嵌入式AI,其產品則是基於ARM/FPGA/GPU/RISC-V等終端平臺的技術解決方案,包括應用演算法、框架、效能庫、硬體板卡等,可應用於手機、無人機、智慧出行、安防等不同場景。
業界共識:商業化落地的能力最能體現一個科技專案的商業價值。澎峰科技作為端上智慧領域的先行者,從2016年開創至今,從未停止在產品路徑和商業路線的升級和探索。
過去的三年裡,從最初想做嵌入式人工智慧的底層軟體,到如今做軟硬體一體的解決方案,從最初提供一個“鏟子或一塊磚”,到如今能提供“一座橋或一座房子”,隨著在AI領域應用端上的產品和技術的逐漸成熟,澎峰科技的市場認知和商業化發展都已步入快車道。
在IP workshop與張先軼4個多小時的訪談中,你會發現他並不是一個“擅長講故事的人”,他身上更多的是學者的嚴謹和質樸。相比較澎峰的優勢,他講得更多的是行業現狀與如何打破瓶頸。
眼下,對於公司的使命,他反覆強調“加速商業化”,工業級產品落地和麵向個人開發者生態構建同時進行。
如今,從安防再到航空航天,澎峰的產品已經在多個場景中開始實測應用,預計2019年年底將實現盈虧平衡。但目標不止步於此,下一步:加速落地,生產嵌入式AI領域最棒的產品,做工業級產品先行落地的供應商。
與嵌入式AI結緣
大四的時候(2005年),通過一場比賽,張先軼與嵌入式AI“結緣”。
微軟舉辦了(Windows Embedded Student ChallengE contest)一個主題叫做Going Beyond the Boundaries “超越邊界”的比賽,這是一場團隊作戰,4個本科生、2個研究生一組,根據不同的主題進行不同的開發設計。張先軼那一組拿到了嵌入式系統的話題,他們的設想是做超市購物車上的一個交易系統,且應用人臉識別技術。
中國大陸地區最後選拔出10組入圍前30名,張先軼團隊名列其中。雖然在那場比賽他們沒能最終獲獎,但對於第一次來美國,參觀了微軟總部,並在歡迎晚宴上見到了主辦方致辭嘉賓比爾蓋茨的張先軼來說,對技術探索與學習的視野已經開啟。這次經歷也為日後他前往美國深造埋下了伏筆。
2005年,張先軼本科畢業並被保研,繼續在北京理工大學深耕計算機專業。在2006年,他再一次與原來的小夥伴組隊參加了《第三屆趨勢科技百萬程式競賽》,主題方向是網路安全,從初賽350支參賽隊伍中脫穎而出了10支隊伍,張先軼所在的Collapsar隊名列其中,並最終斬獲冠軍,還拿了幾個單項獎。
這對於張先軼而言,除了拿到豐厚的獎金,體驗技術與場景結合的實戰,更大的回報則是在技術領域堅定前行的信心。
2007年碩士畢業後,張先軼進入中科院軟體所工作,從事高效能運算、效能優化、矩陣計算等方面的研究工作。2011年讀博期間,在中科院軟體所擔任助理研究員的張先軼帶領團隊開創了開源矩陣計算庫——OpenBLAS,他本人也是該專案的主要維護者。在矩陣計算的細分領域,這是一個優質的開源專案。
OpenBLAS被認為是業界領先的開源矩陣計算庫,支援幾乎全部的主流CPU處理器和常見的作業系統,同時能實現較好的效能優化。它在2016年獲得了中國計算機學會科技進步二等獎,同時也進入了很多主流的Linux安裝包,比如Ubuntu裡包含了OpenBLAS Package。
除此之外,OpenHPC的套件裡也運用了OpenBLAS。其使用者廣泛,從開源專案Julia語言、GNU octave,到深度學習的mxnet、Caffe,乃至IBM、ARM、英偉達等公司也都在他們的產品裡邊使用了OpenBLAS。“特別是嵌入式AI的很多庫,都調了我們的OpenBLAS。”整體上看,從適配的處理器範圍和支援的作業系統,在開源庫中算是最廣泛的實現。
2014年張先軼博士畢業後,他得知UT Austin之前研發GotoBLAS的那支團隊有交流訪問機會,於是他萌生了去美國的想法。此時,深度學習和人工智慧已經逐漸火熱起來。
在2016年,張先軼前往MIT繼續進修。一個機緣巧合,在MIT-CHIEF中國創業論壇上,張先 軼結識了深圳晶泰科技的創始人溫書豪,向他介紹國內正值AI創業風口,這也堅定了他創業的決心。
彼時,人工智慧已經真正進入大眾視野,深度學習演算法成為人們關注的焦點,計算機視覺識別領域在創投界開始獲得追捧。張先軼決定離開MIT,回國發展,2016年底澎峰科技(PerfXLab)創立。
隨後不久,PerfXLab便獲得了紫牛基金與明勢資本注入的天使輪融資。張先軼也完成了人生的一次身份轉換。
找尋商業場景
在AI逐漸探索商業化的道路上,人們逐漸發現,要實現技術的落地,不僅需要效能優越的演算法模型以及可靠的硬體支援,還需要把 AI 技術和硬體環境進行結合,再應用到實際的生活中,以此來滿足使用者需求。
為此,澎峰科技用近三年的時間沉澱迭代自己的技術,從最初想做嵌入式人工智慧的底層軟體,到目前做軟硬體一體的解決方案,並已成為國內在嵌入式AI工業級領域落地的首個供應商。
在框架層,澎峰科技推出了輕量級的深度學習推理框架InferXlite,支援ARM CPU,ARM Mali GPU,AMD APU SoC,以及NVIDIA GPU,相比較目前的傳統通用框架具備小、輕、快的優勢,程式碼<100k,介面支援任何網路模型,可移植任何硬體平臺,幾乎沒有依賴庫,框架設計與效能加速分離,從框架層面對於演算法加速給予了充分的考量。
基於OpenBLAS的成功經驗,團隊打造了PerfBLAS——針對ARM等嵌入式平臺進行深度學習卷積演算法優化,可用於移動平臺,手機、機器人、無人機等領域,提供的主要功能是讓深度學習模型能夠比較流暢地在這些硬體平臺上“跑起來”。也因此,澎峰科技最初的客戶大多是手機廠商或手機相關軟體服務商,比如陌陌、360,都是他的客戶。
“找手機廠變成手機裡邊的一部分”是澎峰科技在2017年最重要的工作之一。但很快,張先軼意識到只是做一個軟體服務商是遠遠不夠的。他一直在思考:“我們可擴充套件商業模式到底是什麼?”
到了2018年,張先軼發現客戶的需求有所變化,更多的是軟硬體結合的方向。“這是一個比較大的改變,背後意味著,可能會有一些比較好的定價(商業)模式。”
張先軼做了這樣一個比喻,在此之前,澎峰科技提供的服務更像一個合適的鏟子或一塊磚,“但面對更大量的客戶,是需要你提供一座橋或者一個房子。這對於我們來說,就需要產品能整合更多東西。”
因此,基於核心的軟體框架和多種計算庫,澎峰科技集成了一體化的硬體產品:嵌入式深度學習開發平臺PerfBox、Perf-FPGA、Perf-APU和Perf-V工程板。
PerfBOX採用64位ARM處理器,集成了InferXLite和PerfBLAS等軟體套件,可用來做為學習、開發、部署深度學習應用的平臺。Perf-FPGA和Perf-APU分別是面向FPGA平臺和AMD嵌入式GPU平臺的深度學習應用部署平臺。
Perf-V工程板則是澎峰科技為RISC-V開源社群設計的FPGA開發板,具備很強的靈活性,移植了多種RISC-V處理器架構,並配備豐富的學習資料,為RISC-V處理器設計和FPGA產品開發提供了一個很好的實驗平臺。
市場反饋和需求的變化都證明,澎峰科技選擇的軟體和硬體相結合的產品路徑決策是符合目前消費端訴求的。
張先軼舉例,在2018年的一個展會上,他團隊帶了一些基於ARM的硬體產品去參展。“行業人士感興趣的程度和我們之前只做軟體展示,明顯不一樣。”
他也意識到,嵌入式軟體單獨去賣錢並不容易的,用的人少、單價低、難以走量,但當把軟體承載到硬體上,使用者可以觸控到產品的時候——無論是板卡或者盒子,軟體的附加值也能有最大的體現。
另一個變化是,張先軼發現手機廠商的集中度越來越高,這也昭示著與客戶的合作需要不斷找尋新的增長點。
新的未來
在成長的過程中,澎峰科技的產品路徑也由原來的純軟體,發展為目前的“軟體+硬體+演算法”結合的做厚模式,圍繞ARM、FPGA/DSP、GPU,三個技術方向發力,而FPGA是其核心路徑並已經商業落地。
對比三個技術方向,ARM具有比較強的事務管理功能,可以用來跑介面以及應用程式等,其優勢主要體現在控制方面。
一段時間以來,ARM曾一度佔據市場90%的份額,最初澎峰科技技術路線是基於ARM的開發,其硬體產品應用於安防領域或某些工業級場景等。但慢慢地,張先軼發現了FPGA和AI結合上正在興起,且強強勁。
FPGA和DSP都可以應用於工業級產品,實時性非常高、對壞境的適應性比較廣。基於此,澎峰科技的核心產品Perf-FPGA,已經開始佈局和用於人臉,行人,車輛等多種目標和物體檢測與追蹤等場景,支援無人機、安防、科研等應用領域。
Perf-FPGA涵蓋了深度神經網路演算法壓縮,定點量化以及根據FPGA部署平臺的生成加速器。壓縮與量化工具DL-Quants可以匯入多種主流深度學習模型, DL-Compiler可以快速生成DL加速器和執行程式碼。DL-Accelerator採用RTL實現,底層針對不同平臺做了適配和優化,使資源佔用和效能達到極致。
張先軼團隊已經把它的產品應用在航空航天領域,比如無人機、野外值守等領域,“我們遇到一個潛在客戶,產品要放在自然保護區。”就如一個電子警察眼,要迅速識別進入相應區域的車輛或人員,這對產品來說有很大挑戰——野外環境複雜,供電難度係數大,環境多變,要求產品更高的可靠性。
張先軼強調這一產品的一大特點是在複雜場景的高速識別——檢測反應速度高達70幀每秒,“需要迅速地辨別出是何種車輛,人員等。能做到這個級別是非常不容易的。”在一業務板塊,澎峰科技與合作伙伴聯合開發並提供可行性解決方案,目前產品已經進入市場應用和測試階段,市場反饋後,將很快進入批量化生產。
在FPGA實現落地的基礎上,DSP相關的技術產品也已經成熟並加速佈局,嵌入式GPU方面也與AMD公司展開合作。
顯然,在國內工業級產品智慧化領域,澎峰科技是首個發力,並率先將產品落地的企業。而這一市場,“規模將是千億元級別的巨大藍海。”澎峰科技已先行一步——從研發到賣產品,需要幾年的時間。現在,這無疑給後來者將帶來一定的市場壓力。
與此同時,澎峰科技正在開發一個面向個人開發者的FPGA AI平臺。“相當於是一個FPGA的開發版。”張先軼說,“這有助於獲客,增進市場容量。讓更多的人越早了解我們技術,才能越早的用我們的解決方案。”
此前,在這一領域,澎峰科技最大的競爭對手是深鑑科技。在2018年下半年,全球最大的 FPGA 廠商賽靈思對它進行了收購。深鑑科技成立於2016 年,一直基於賽靈思的技術平臺開發機器學習解決方案,深鑑科技推出的兩個用於深度學習處理器的底層架構——亞里士多德架構和笛卡爾架構的 DPU 產品,都是基於賽靈思 FPGA 器件。
深鑑科技通過神經網路與 FPGA 的協同優化,提供高性價比的嵌入式端與雲端的推理平臺,應用於安防、資料中心、汽車等領域——這也是澎峰科技一直在做的。
而深鑑科技高價被收購,足以證明FPGA這個領域的市場空間和巨大前景,而這對張先軼團隊而言,也是一個好的預見:在被賽靈思深度繫結之後,一些以前深鑑科技的客戶將尋求新的供應商,而澎峰科技在近一段時間內迅速地成長與佈局,無疑已成為這一業務領域擁有頂尖技術,並且率先實現在工業級場景快速商業化落地的公司。
為此澎峰科技,持續獲得了資本的認可和加持。張先軼透露,在繼Pre-A輪融資後,近期將完成Pre-A+輪融資,將持續加大在工業級落地應用、以及面向個人開發者開源開放平臺/社群的生態培育兩大商業領域的投入和拓展。
“穿透客戶的需求場景是我們要持續地做,在這個基礎上繼續迭代升級,鑄就自己的商業壁壘。”張先軼如是說。