被放進高通驍龍 855 的 AI 通話降噪方案究竟有何特別?
當你置身於人聲嘈雜的酒吧、或者熙熙攘攘的鬧市、或者地鐵呼嘯而過的站臺,一個電話響起,你接起電話,但周圍嘈雜的噪音,讓你即便是大聲講話,手機麥克風也還是會把環境音一起收集進來,讓接聽訊號的對方受到了干擾。
為了提升手機在這種嘈雜背景音中的通話體驗,目前主流的解決方案是,在硬體端採用雙麥克風,一個收集人聲、一個收集環境音,再通過演算法增強將人聲與背景音分離,實現通話降噪。
不過,在 12 月 6 日在高通驍龍技術峰會上,高通現場展示了一個單麥克風降噪解決方案。基於 ofollow,noindex" target="_blank">驍龍 855 平臺的 AI 通話降噪方案 ,在極其嘈雜的環境中,手機通話對方聽到的便是乾淨的人聲,不受噪音的干擾。

這一通話降噪方案採用的是大象聲科 AI 降噪技術,它是世界上第一個利用深度學習和傳統訊號處理相結合的單通道手機通話降噪方案,「可以提供比傳統語音訊號處理演算法更優的語音通話質量。」高通產品管理副總裁 Manvinder Singh 評價道。
大象聲科是一家致力於機器聽覺的人工智慧公司,服務於小米、努比亞、錘子、美圖、51talk、獵豹移動等多家客戶。今年 7 月,大象聲科獲得了小米和高通創投的數千萬人民幣的 Pre-A 輪戰略投資,得到了業界廣泛關注。
在深圳南山留學生創業園的「總部」辦公室裡,我們並沒有看到漂亮的前臺小姐姐,甚至沒有一個光亮的前臺。會議室裡傳來與來訪客人的交談聲,辦公桌上擺滿了各種電子器件。大象聲科創始人兼 CEO 苗健彰常常會引用「不服噪」的口號,去描繪大象聲科腳踏實地的做事風格,以及為打造更加寧靜和智慧的生活方式而不斷努力的奮鬥目標。

////////
那麼,是什麼樣的技術讓這頭「大象」格外引人注目呢?
據苗健彰介紹,大象聲科 AI 智慧通話降噪擁有兩大理論基礎——計算聽覺場景分析理論(CASA)和深度學習技術,CASA 主要關注的領域是聲源分離。這裡的聲源不單是指人的聲音,也可能是其它各種聲音。聲源分離的目標就是將這些聲音分離開。
機器聽覺與人類聽覺最大的差異就在於機器無法準確判斷音源的型別,繼而對音源進行分離和提取。
大象聲科聯合創始人兼 CTO 張學良教授指出,早期解決方式是基於對訊號的理解,採用人工規則編制演算法,把聲音裡面的統計特性提取出來,計算聽覺場景分析則在很大程度上是對人的聽覺特性的模擬。這種方法存在著效能的瓶頸。從而實現實時分離人聲和背景噪聲,從環境噪音中提取清晰人聲。

////////
手機通話是這一技術方案最典型的應用場景。今年 4 月,錘子科技釋出堅果 3 手機,便是運用了大象聲科 AI 通話智慧降噪技術,讓手機通話中,過濾掉周圍嘈雜的背景音,實現清晰的通話。
另一應用場景是手遊通話。今年 11 月努比亞最新發布的紅魔 Mars 電競手機,也是搭載了大象聲科的 AI 語音消噪技術,可以實時分離背景噪聲和人聲,實現在各種複雜噪音環境下的清晰語音提取和訊號增強,從而有效抑制環境噪聲、消除回聲和嘯叫,為手機使用者帶來更優質的通話和遊戲體驗。
也就是說,有了這項「AI 語音消噪」黑科技加持,以後用紅魔 Mars 電競手機玩《絕地求生:刺激戰場》等電競遊戲時,不論是和隊友連麥開語音,還是面對面開黑,再也不用擔心受到周圍環境噪音、回聲和嘯叫的干擾,被其他隊友集體吐槽投訴了。

除了手機通話場景外,大象聲科還將進一步助力智慧家居、智慧車載、可穿戴裝置、智慧安防等行業的發展。
////////
藉著大象聲科深圳釋出會的時機,就今年的成績和明年的展望,深圳灣和大象聲科進行了一次對話。
深圳灣:大象聲科建立兩年,您對現在取得的成績如何評價?
苗健彰 :我覺得達到了我們的預期。大象成立之初目標就很明確,希望成為聲音拾取領域的杜比(Dolby),打造智慧拾音的標準。最近和高通進行聯合釋出,意味著我們向這個目標邁進了一大步。
深圳灣:您認為現在大象聲科 DEMO 的降噪效果,是否已經達到極具核心競爭力?或者認為目前離期待的效果還差多遠?
苗健彰 :目前我們的解決方案在效能和通用化程度上面都具備相當的競爭力。
在效能上, 大象聲科的單通道降噪方案,已經超越了市面上大多數的傳統雙麥降噪演算法 。在與努比亞合作的專案中,我們幫助客戶在一個月內完成了移植除錯,並且解決了客戶困擾已久的遊戲場景下的嘯叫以及噪音抑制問題。
在通用化程度上,我們已經支援了包括高通驍龍在內的超過十餘種不同的軟硬體平臺。比如高通驍龍 8 系列、7 系列和 6 系列平臺。近日在高通驍龍技術峰會上,我們和高通聯合展示了基於 855 最新旗艦平臺的 Vocplus Telecom 智慧通話降噪方案,通過共同優化該方案在高通驍龍平臺上的效能,將進一步幫助 OEM 廠商有效提高軟體移植效率,降低技術接入成本。
但是技術的追求是沒有止境的,大象聲科目前已經驗證了 CASA 和深度學習在語音訊號處理方面應用的前景,這也奠定了行業的發展趨勢,但是距離實現機器像人類一樣聽聲辯音的理想,還任重道遠。
深圳灣:您說過,大象聲科是技術驅動的公司,在技術創新方面,這頭成長的大象,如何做到持續創新?
苗健彰 :大象聲科有一支全球頂級的科學家團隊,首席科學家是全世界首位將深度學習引入語音增強領域的科學家。他們不僅賦予我們很強的技術方向感,也使我們可以不斷吸引到志同道合的技術人才。
持續創新是科技企業的成長原動力,在這方面 Google 是我們的榜樣。我們的企業文化和 Google 也有很多類似的地方,比如開放和關注員工,比如專注和極致。在我們這個團隊中,每一位成員都會被給予充分的信任,我也相信每一個人都擁有無限的潛力。我們在發展企業的同時也要注重社會責任,頂尖人才是靠文化吸引來的,這一點大象一直很重視。
深圳灣:在技術應用方面,目前大象聲科主要的應用案例體現在手機通訊上,我知道在其他領域,尤其是耳機和音箱,大象聲科也在拓展著合作。您認為目前技術落地和商業化的挑戰是什麼?大象聲科又是如何做的?
苗健彰 :技術落地既需要團隊的努力,也需要合作伙伴的信任。大象聲科在技術攻關上面是絕對有韌性的公司,我們花了將近一年的時間,實現了單麥 AI 降噪演算法的技術落地,不僅優化了神經網路模型的泛化效能,還解決包括模型壓縮、低功耗、低延時、定點化等諸多工程問題。在這方面我一直為我們的技術團隊感到驕傲。
合作伙伴方面,我們的運氣一直不錯,總能找到科技嗅覺敏銳的廠商,他們勇於嘗試新技術帶來的產品體驗,而我們的技術也總能接受得住使用者的考驗,不辜負合作伙伴的信任。
深圳灣:這次釋出會的主題是創新攜手共贏,毋庸置疑,這是一個拼朋友圈的時代。您認為對於大象聲科而言,最重要的朋友是誰?
苗健彰 :創新、攜⼿、共贏完整的表達是:與合作伙伴共同創新,與產業上下游強強攜手,與終端使用者達成共贏。朋友應該是肝膽相照,英雄相惜的,所以只要與我們服務使用者,改善人類生活的理念一致的企業都是我們的朋友。
深圳灣:接下來的 2019 年,大象聲科有什麼計劃?
苗健彰 :一方面我們會繼續加大研發力度,豐富我們的產品線;另一方面,我們會進一步加強與高通等合作伙伴的緊密合作,深耕手機和 VoIP 雲通訊行業,同時加快我們智慧通話降噪和智慧語音互動解決方案在耳機、車載、智慧音箱、機器人等智慧硬體上的落地。