依圖科技釋出語音開放平臺 聯袂微軟華為撬動語音市場
人民網北京12月11日電 (記者 董菁)12月11日,人工智慧公司依圖科技公佈了在中文語音識別技術上的最新突破。在全球最大的中文開源資料庫AISHELL-2中,依圖短語音聽寫的字錯率(CER)僅為3.71%,領先原業內領軍者約20%,大幅重新整理現有紀錄。依圖還聯合微軟Azure推出依圖語音開放平臺,並攜手華為釋出“智慧語音聯合解決方案”,將依圖領先的語音識別技術提供給廣泛的第三方應用開發者,共同推動智慧語音行業的進步。
依圖首席創新官呂昊博士
語音識別技術遠未成熟,技術透明度差
近年來,深度學習的爆發驅動了語音識別技術的高速發展,但相較於人臉識別在準確率方面的高增速來說,語音識別的發展仍較為緩慢。儘管一些機構已宣傳達到了人類水平,但大多數情況下都來自安靜、近場等受限場景。對於電話、語音節目、遠場等更復雜場景,則需要針對性地開發不同模型,但實際應用中的不確定性,使理想和現實仍有較大差距,導致應用場景難以得到更大突破。
對語音識別來說,語速、語態、語氣、口音等都會顯著影響識別的準確率。一般認為,字錯率在低於3%時不會影響可讀性,而超過15%則毫無可讀性。這兩個資料可認為是語音識別的兩條紅線,而在不同場景下,不同演算法的表現可能會有很大差異。在中文語音識別技術領域,漢語的博大精深帶來的同音不同意等問題,更對語音識別的處理難度帶來極大挑戰,顯著影響最終的使用體驗。
依圖首席創新官呂昊表示,“語音識別技術經歷了漫長的發展進化,但至今都只能在受限的場景下才能達到較好的使用效果。我們認為,核心技術的突破,依然是當前破局中文語音識別發展的關鍵。在語音識別領域,依圖科技是一名新生,但立志推動行業創新與發展,做世界最好的中文普通話語音識別技術。”
訊飛依圖BAT各家演算法差異巨大,訊飛依圖位列第一陣營
依圖此次推出的中文語音識別演算法,與業內原有領先者相比,不僅大幅提升了識別準確率,且在單個演算法模型上,有極為出色的多場景適用性表現。在業內近期公開的AISHELL-2的三個測試子集,以及來自第三方的近場口音測試集、近場安靜聊天測試集、語音節目測試集、電話測試集、遠場測試集中,依圖均處於業界領先水平,且字錯率幾乎全部在15%以下。其中,在AISHELL2-2018A-EVAL資料集中,依圖的識別準確率高達96.29%,字錯率(CER)僅為3.71%,領先原業內領軍者約20%。通過“聽寫大會”微信小程式,讓使用者可以直觀感受到語音識別技術的真實表現,在業界也屬首次,公開透明的體驗各類演算法的水平差異。
AISHELL-2是AISHELL Foundation和希爾貝殼宣佈的開源資料庫,資料規模達1000小時,是目前全球最大的中文開源資料庫。它由1991名來自中國不同口音區域的發言人參與錄製,經過專業語音校對人員轉寫標註,通過了嚴格質量檢驗,資料庫文字正確率在96%以上,錄音文字涉及喚醒詞、語音控制詞、智慧家居、無人駕駛、工業生產等12個領域。
聽寫大會小程式
中文語音識別機器和人還有差距,產業發展任重道遠
基於在語音識別領域的技術突破,依圖與微軟也宣佈進一步深化合作夥伴關係,聯合推出依圖語音開放平臺。該平臺將基於微軟Azure雲,將行業領先的語音識別技術能力開放給廣泛的第三方應用開發者,並攜手為廣大使用者和客戶提供更全面的服務及更好的體驗。在聯合釋出語音開放平臺之後,依圖與微軟還將在智慧語音領域展開更深層次的合作,共建AI生態。
依圖還攜手華為聯合釋出“智慧語音聯合解決方案”,該方案基於依圖語音開放平臺及華為全棧全場景昇騰(Ascend)系列晶片和麵向資料中心側的Atlas 300 AI加速卡,將雙方強大的技術研發能力與生態服務能力深度結合,形成軟硬體一體化的聯合解決方案。藉助該解決方案,第三方應用開發者可進一步提升開發效率,從業界領先的語音技術中受益。