中國語音識別大戰又添明星AI公司:依圖聯合微軟、華為推出兩款產品
2018年已經接近尾聲,寒冬之下,中國的AI初創公司仍在擴張邊界。
12 月 11 日,中國計算機視覺領域“四小龍”之一的依圖正式進軍語音識別領域,宣佈與微軟合作推出依圖開放平臺,開放平臺將提供依圖開發的語音識別演算法API,以及大量的資料集。
另外,依圖也宣佈和華為合作釋出智慧語音聯合解決方案,該方案基於依圖語音開放平臺及華為全棧全場景昇騰(Ascend)系列晶片和麵向資料中心側的Atlas 300 AI加速卡,結合雙方的技術研發能力與生態服務能力深度,形成軟硬體一體化的聯合解決方案。

圖丨依圖首席創新官呂昊博士(來源:依圖)
伴隨著兩款產品的釋出,依圖還在現場展示了其中文語音識別演算法的一系列進展:在業內近期公開的 AISHELL-2 的三個測試子集,以及來自第三方的近場口音測試集、近場安靜聊天測試集、語音節目測試集、電話測試集、遠場測試集中,依圖表現突出,且字錯率幾乎全部在 15% 以下,同樣表現突出的還有科大訊飛。其中,在AISHELL2-2018A-EVAL 資料集中,依圖的識別準確率高達 96.29%,字錯率(CER)僅為 3.71%,同樣領先一些業內領軍者。
AISHELL-2 是 AISHELL Foundation 和希爾貝殼宣佈的開源資料庫,資料規模達 1000 小時,是目前全球最大的中文開源資料庫。它由 1991 名來自中國不同口音區域的發言人參與錄製,經過專業語音校對人員轉寫標註,通過了嚴格質量檢驗,資料庫文字正確率在 96% 以上,錄音文字涉及喚醒詞、語音控制詞、智慧家居、無人駕駛、工業生產等 12 個領域。


(來源:依圖)
特別的是,針對不同的場景,依圖採用了同一種語音識別演算法,即單個演算法模型表現了多場景適用性。這種方法與目前市面上針對限定場景開發不同識別演算法的技術路線有很大不同。
依圖科技首席創新官呂昊總結了人臉識別領域的從實驗室走向落地的發展脈絡,他認為,大量的測試和努力能夠打破非常多限制的條件,因此技術落地越來越多,“因為大家變得透明,且競爭比較多之後,整個行業也在往前走。我們也希望語音識別這個行業通過這樣一些活動,通過我們的努力,通過一些嚴謹的測試把這些打通整個行業。”
呂昊所提到的測試,具體體現通過自身開放平臺面世後讓技術經受更大範圍的檢驗,也體現在依圖推出的一款特殊的小程式“聽寫大會”上。據介紹,這款微信能夠讓使用者可以直觀感受到語音識別技術的真實表現,旨在讓所有人“公開透明地體驗各類演算法的水平差異”。受檢驗的演算法不乏百度語音開發平臺、訊飛等知名語音識別技術廠商。

(來源:DT君)
除了這樣的公開測試以外,依圖還表示,資料集、演算法api 都是能夠推動語音識別行業發展的重要推動因素。作為行業的一員,依圖呼籲行業公開更多樣的資料集,公開可重複的評測結果。依圖在這樣的測試中也花了很多力氣對接各大廠商,因為其中不少是不免費公開的 api,當然,這些測試更多針對的是現有的產品,各個廠商的能力其實可能無法完全展現。
鑑於目前語音識別在使用者體驗上還遠未到達理想的狀態,技術上的限制仍未清除,依圖希望通過幾款產品的釋出促進整個行業的競爭合作。
目前,幾乎國內所有的語音技術公司都開放了其智慧語音平臺,包括百度、訊飛、出門問問、Rokid 等,這些公司以期為硬體開發者,應用技能開發者提供了語音互動能力,而對於他們自己來說,這也有利於招徠更多的玩家進入到他們建立的生態系統之中。依圖此次的加入,又為這場早已“兵滿為患”的語音識別大戰增加了新的變數。

(來源:DT君)
實際上,依圖自成立以來一直在研究自然語言處理技術,尤其是在其所擅長的醫療領域,在基於電子病歷的自然語言處理上,具有一定的積累。但此次進軍語音識別,依圖透露內部籌劃了不到一年的時間,整場釋出會的重點也不在商業落地上,更像是依圖將智慧的觸角從計算機視覺延伸至語音識別的一次試水。依圖科技首席創新官呂昊博士、依圖科學家吳雙博士在接受 DT 君採訪時並未透露明確的落地方向和野心。
“我們做這個產品也是不斷的嘗試,不是非常有計劃、有目的做的事情。依圖是一家研究智慧或者說是一家研究學習的公司,我們的好奇一直推動我們在這個領域探索,所以從視覺擴充套件到語音識別。我覺得是我們對智慧的根本理解的這麼一個好奇心在驅動”,吳雙說。
在談到今年多家主攻語音識別技術的AI公司紛紛推出專用語音 AI 晶片的浪潮、大有語音識別下階段競爭轉向硬體大比拼之勢時,依圖則表示,把演算法定製化到硬體中,很多時候是商業驅動的,依圖不排除未來自研語音AI晶片的可能。但與之並行的是,依圖也會繼續提升演算法的表現。
“目前的語音識別演算法還遠未到像大白菜一樣,號稱語音識別演算法不再有區分度的,其實都是演算法做不好。在這方面沒有優勢了,才有人會說演算法沒有區分,但是在演算法上還需要很大投入。因為做得好,我們才能看到說當前最好的水平到什麼程度,看到邊界之外是什麼樣的風景”,呂昊說。