對話雲知聲副總裁李霄寒:從單模態到多模態,以演算法起家的AI晶片公司後勁十足
目前,物聯網和人工智慧(AI)都是發展大勢。而 AI 晶片正處於從通用型向專用型發展和轉化的過程當中,特別是在物聯網邊緣側,通用型 AI 晶片的計算效率較低,繼而帶來了成本和功耗的失配。此外,AI 晶片要面對很多不同場景,很難有一款通用型產品能滿足不同客戶的需求。
目前來看,有越來越多的專用型 AI 晶片或模組的案例湧現出來,如智慧家居、機器人、智慧音箱等,都對專用型 AI 晶片提出了越來越多的需求。
因此,當今做 AI 晶片是符合市場發展需求的,在這方面,越來越多的公司更加務實,將其作為長期的發展戰略,而不是抱著投機的心態去做 AI 晶片。雲知聲就是這樣一家本土企業。2018 年 5 月,該公司正式釋出首款物聯網專用 AI 晶片之後,不足半年的時間,今年 1 月其再次對外宣佈多模態 AI 晶片的研發計劃。


物聯網晶片設計難在哪兒?
隨著應用的發展,物聯網的場景化特點會愈加突出,此時,只提供單一晶片已經很難滿足客戶需求,必須要將晶片、應用,以及服務等有機地融合在一起,從而提供一整套的解決方案,才能滿足實際的應用需求。
與此同時,在 IC 設計層面,與傳統模式和流程相比,會更加複雜,對此,雲知聲聯合創始人/ IoT 事業部副總裁李霄寒博士表示:“在最初的設計階段,就要考慮應用演算法,以及到底需要多大的算力,如何使軟體能更好地執行等因素。這樣,就需要 IC 設計團隊與演算法提供者有更緊密的合作。此時,軟體和硬體的耦合會非常緊密,這會影響到開發流程。傳統的 IC 設計主要是根據應用來設計相關引數,而未來物聯網應用當中的晶片,特別是 AI 晶片,在設計階段,就要根據實際的應用場景,設計出相應的功能,然後再去合理調配軟體和硬體資源,這對設計者的綜合水平和能力提出了更高的要求。”
在物聯網的邊緣側,對 AI 晶片的效能、功耗和成本提出了更好的平衡要求。對此,李霄寒表示,效能仍然是要優先考量的,也是最重要的,在此前提下,再去追求功耗與成本的平衡,而在邊緣側,成本比功耗更加重要一些。
那麼,對於邊緣側 AI 晶片設計者來說,如何能實現以上這些因素的平衡呢?李霄寒認為:首先,設計者的演算法積累很重要,因為好的演算法能讓硬體發揮最大的效能;其次,IC 設計能力自然也很重要,特別是要能與業界實現良好的配合,以挖掘出更多的 IC 設計潛力;還有一點,也是經常被忽略的,那就是對場景的瞭解,即經歷過整個流程,並有產品的量產,才能對很多實際的考量因素有清晰的認知,也就是 KnowHow,其會指導你的晶片設計流程。這一點非常重要。

晶片發展路線
據悉,雲知聲於 2015 年開始量產 IVM 模組,其採用了市場上的通用型晶片。由於當時市場上還沒有通用型的 AI 晶片,所以多是以多核的 CPU 來實現 AI 加速器的功能。也就是在 2015 年,該公司決定自行做 AI 晶片,並開始了相關的規劃和研發工作。
經過兩年多的研發,2018 年5 月,雲知聲釋出了其 UniOne 第一代產品——雨燕,這是一款單模態的語音專用的 AI 晶片。據悉,該公司不僅提供雨燕晶片,還提供相應的開源解決方案,包含晶片、引擎、應用,甚至還有云端服務,以及手機 APP 程式碼。據李霄寒介紹,這樣做,有利於客戶快速部署其產品,省去了找第三方開發各種應用的時間和成本。
據悉,目前已經有近 10 家客戶匯入了雨燕晶片,而且在今年上半年,很快就能在市場上看到相應的量產產品。

當今的 AI 晶片領域,存在著多種架構,每家都有不同的神經網路和機器學習產品,那麼,雲知聲的 AI 晶片是採用怎樣的架構和IP呢?據悉,第一代雨燕晶片採用的是該公司自行研發的 DeepNet 1.0,而其正在研發的新一代多模態 AI 晶片則採用了升級版本—— DeepNet 2.0。

向多模態演進
在物聯網應用初期,很多 AI 晶片都是以單模態功能切入市場的,最為普遍的就是語音應用。但是,未來的應用會是多模態融合的,機器人就是一個典型的多模態應用例項,還有如車載晶片,因此,多模態是市場發展的必然趨勢。雲知聲在原有單模態語音 AI 晶片的基礎上,正在研發多模態晶片,主要針對語音和影象的處理需求,其相應的產品就是基於 DeepNet 2.0的。

據悉,雲知聲以 DeepNet 2.0 IP 為核心的 AI 架構,算力可以達到 4T。DeepNet 2.0 是多模態神經網路處理器 IP,其主要特點是可以支援多種推理網路相容,如 LSTM、CNN、RNN 以及 TDNN 等;支援可重構計算;還支援 Winograd 處理,將乘法計算量降至原先的一半以下,大幅提升了計算效率。李霄寒表示,DeepNet 2.0 是相對通用的 IP 核,既可以滿足音訊應用需求,也可以實現對影象的處理。
另外,DeepNet 2.0 還支援多 NPU 的組網,組成模組化的網路,來支援算力的需求。
對於架構,李霄寒表示,雖然每家的架構都有各自的特點和實現方法,但其上面的軟體會逐步達成統一,也就是說,支援機器學習的演算法會逐漸形成統一的框架。未來,有可能形成在不同 AI 晶片硬體上面,可以執行所有神經網路的模型,這在不久的將來是完全有可能出現的。
一直以來,一提起雲知聲,業內人士第一反應就是:這是一家做語音方案的公司,對此,李霄寒表示:“大家給雲知聲貼的這個標籤是片面的,並沒有反應出我們公司全部能力。實際上,雲知聲在影象處理方面也有多年的技術積累。我們在這塊很早就開始佈局了,並在 2018 年開始發力,將相應的演算法融入到了實際的產品當中。”
據悉,為了在智慧語音、影象處理等多模態技術方面實現快速突破,雲知聲很早便在內部搭建了號稱雲知聲版“TensorFlow + GKE (Google Kubernetes Engine) ”的 Atlas 機器學習計算平臺,基於該平臺可以實現各種演算法的快速迭代,而且可以靈活調整演算法和算力,極大地提升了研發效率。

在核心競爭力方面,雲知聲採用的都是自家多年積累的 IP。對此,李霄寒表示:“我們在研發、推廣晶片產品的同時,逐步建立、鍛煉出了一支強有力的隊伍。我們在做語音專用的 DeepNet 1.0 的時候,市場上還沒有相關的產品,只有自己研發。而且,在推向時候以後,反響不錯,我們才實實在在地意識到這是一款很不錯的產品,非常適合我們的演算法和場景。因此,在此基礎上,我們發展出了 DeepNet 2.0,與 DeepNet 1.0 相比,DeepNet 2.0 在功能上有了極大的增強,特別是算力方面,達到了 4T,另外,DeepNet 2.0 可以支援多種 NPU,這也就意味著可以支援多模態。”

就在今年 1 月初,雲知聲正式對外宣佈,其正在研發數款多模態 AI 晶片,分別是面向物聯網的雨燕-Lite,這是第一代雨燕的升級版本;面向智慧城市的海豚(Dolphin);面向智慧出行的車規級晶片雪豹(Leopard)。

發展三階段
對於雲知聲的發展歷程,李霄寒做出了這樣的總結:公司於 2012 年成立,至今已有 6 年多的時間,該公司將其發展歷史分成了 3 個階段。
李霄寒表示:“公司成立之初的兩年,是技術優勢構建階段。在該階段,雲知聲主要提供軟體演算法、引擎,服務等;從 2015 年開始,我們進入到了產品優勢構建階段,也就是大家所熟知的“雲端芯”的產品體系。從那時起,雲知聲就不是隻提供演算法這麼簡單了,而是開始提供應用產品了,起初以軟體為主,而且是整合了各種軟體服務的產品。而智慧醫療是我們的主戰場,可以提供一整套的軟硬體方案。在 2015 年之前,雲知聲是不具備硬體設計能力的,為了補齊短板,我們在深圳成立了一家分公司,專門進行硬體設計和研發;做出產品以後,我們進入了規模優勢構建階段,基於我們的晶片,實現大規模的量產,而且在相應的應用領域,排名行業第一。我們一直在觀察市場和時代需求,以建設我們相應的能力,進而幫助客戶解決問題。這也是我們於 2015 決定做晶片的主要原因,市場需求在那裡,我們就去做。而且當時市場上還沒有專用的 AI 晶片,為了滿足客戶對軟硬體的整體需求,我們必須自己研發 AI 晶片。”

加快腳步 只爭朝夕
未來,不同的應用場景和領域會對 AI 晶片有不同的規範和標準要求,包括功耗、介面等方面,都會形成相應的標準。“未來,AI 演算法很可能都會有相應的標準出臺”,李霄寒表示:“硬體和軟體之間的演算法介面,很可能在不久的將來制定標準,這樣,就可以實現在同一AI 晶片上執行不同廠家的演算法,這種可能性是完全存在的。而對於我們公司來說,要爭取走得足夠快,爭取成為標準的實際制定者。實際上,我們在家電領域已經實現過類似的目標,雲知聲是第一家在白色家電領域實現專用語音晶片落地的供應商,相應的測試標準實際上是由我們制定的。我們做出測試規範之後,客戶就用該標準去要求所有的供應商。未來我們依然會按照這樣的模式發展,爭取成為更多行業標準的實際制定者。”
對於端和邊緣側 AI 晶片市場,李霄寒認為,邊緣側的 AI 晶片市場足夠大,而且仍然處於發展初期,遠沒有到大家在一個紅海里拼殺的程度。關鍵還是要做好供給側的事情,市場的需求很大,也有很多廠商在跟進,但在現階段,大家的產品做的還都不夠好,雖然雲知聲走在了市場的前列,但依然有很大的提升空間。
“對於雲知聲來說,要只爭朝夕呀!”李霄寒說。
人物簡介

李霄寒博士於 1994 年考入中國科學技術大學少年班, 2003 年獲得中科大訊號與資訊系統博士學位。他曾先後服務於聯想、摩托羅拉中國、 Nuance 中國、盛大語音創新院等國內外知名公司,先後擔任技術經理、主任工程師以及研發總監職位。
他在 2001 年獲得“微軟學者”稱號,在 2005 年參與世界第一款嵌入式非特定人中文語音識別軟體研發並將其廣泛用於摩托羅拉系列產品中;隨後在 2006 年參與世界第一款嵌入式說話人識別軟體的研發。李霄寒博士在 2002 年代表微軟,在 2010 年代表盛大參加“ NIST 國際說話人識別評測”大賽,共獲得七個單項第一、兩次總分第一名的優異成績。
目前他作為雲知聲聯合創始人及 IoT 事業部副總裁,分管產品研發。李霄寒博士負責帶隊研發的業界第一款物聯網 AI 晶片在 2018 年上半年成功流片。