釋出全球首個“AI合成主播”,斬獲IWSLT2018大賽全球第一,搜狗語音發展如何?
在今天烏鎮的第五屆世界網際網路大會上,搜狗聯合新華社釋出了全球首個合成新聞主播“AI合成主播”,“克隆”出與真人主播擁有同樣播報能力的“分身”,應用於新華社中英文客戶端等產品。
據瞭解, “AI合成主播” 是 提取真人主播新聞播報視訊中的聲音、脣形、表情動作等特徵,運用語音、脣形、表情合成以及深度學習等技術聯合建模訓練而成,輸出視訊中可實現音訊和表情、脣動自然一致,展現與真人主播無異的資訊傳達效果。
在前不久落幕的IWSLT(International Workshop on Spoken Language Translation)國際頂級口語機器翻譯評測大賽*上,搜狗以1.6個BLEU的領先優勢擊敗了包括訊飛、阿里巴巴,APPTEK(美國應用科技公司)、AFRL(美國空軍研究實驗室)以及KIT(德國卡爾斯魯厄理工學院)等國內外多個強勁對手,贏得了2018年IWSLT大賽Baseline Model賽道冠軍。
*IWSLT是國際最具影響力的口語機器翻譯評測比賽,已累計舉辦15屆。 BLEU是一種機器翻譯自動評價的方法,是衡量方案優劣的重要指標,其數值越大意味著越準確。
IWSLT2018大賽Baseline Model賽道最終結果
搜狗參與語音相關大賽表現
搜狗AI戰略是以語言為核心,發展對話、問答、翻譯以及語音的自然互動技術。 2012年,搜狗著手研究語音技術,進行深度學習技術研發,語音技術接入包括輸入法、地圖在內的全線產品。2015年 端到端的神經網路機器翻譯興起,搜狗入局。2016年8月,搜狗推出了語音互動引擎“知音”。基於知音引擎,搜狗又針對可穿戴裝置、車載車間、電視、家居裝置等不同場景搭建了技術產品解決方案知音OS互動平臺。 2017年7月,搜狗推出“智慧副駕”產品,使用者在使用搜狗地圖時,可以全程語音互動;8月,搜狗又推出速記工具“搜狗聽寫”。2018年搜狗先後推出了兩款智慧硬體“旅行翻譯寶”、 “搜狗錄音翻譯筆”。 根據早前披露的三季報顯示,搜狗手機輸入法日均語音請求量達到5億次,是國內最大語音應用。
36氪採訪了搜狗語音技術的研發團隊,以下內容經36氪編輯,有刪節:
Q:在語音識別上,訊飛很早就進入了,搜狗能夠快速地做起來,背後是什麼樣的原因?
A:訊飛是我們很尊敬的一個公司,做得很細緻也很紮實。但是語音識別技術在2010年之前,都是基於GMM-HMM的理論框架來構建整個系統,期間技術是在穩步提升,不斷迭代,但是缺少技術變革,無論是公司還是研究機構,在模型訓練、技術落地的差異性非常強依賴於經驗和技巧。2010年之後,深度學習技術快速變革了語音識別技術,搜狗在2012年在線上將語音識別聲學模型替換成深度神經網路之後,錯誤率快速下降了30%以上,這個提升非常巨大也給了整個行業後入者很好的機會,可以快速地實現彎道超車。
此外在資料上,搜狗比訊飛還要多,我們輸入法的語音識別峰值請求量已經達到了5億次,而深入學習技術特別適合資料發揮威力,結合模型、資料,搜狗在整體能力上是不輸的。另外就是經驗和人才,搜狗對人工智慧投入一直很大,我們團隊同學都非常棒,也非常有熱情。這幾點使得了搜狗在語音識別能力上有突飛猛擊的提升,另外很重要的一點是,搜狗是做2C產品的公司,我們很注重技術和產品的結合,核心要為使用者體驗負責,所以我們持續結合實際場景中的問題,細緻打磨,持續迭代我們的能力,因此語音識別這件事搜狗一定可以做好。
Q:今年看到很多公司都開始做同傳了,包括BAT,搜狗在語音翻譯技術落地方面有什麼新的進展?
A:搜狗目前在語音產品上有很廣泛的佈局,已經在搜狗各項產品中上線,搜狗輸入法大家可以用到我們的語音翻譯、文字翻譯的能力,已經上線很久了,另外在搜狗的瀏覽器、搜尋上都可以實現從文字翻譯到語音翻譯的完整能力。除此以外,搜狗還在拓展語音翻譯的業務邊界,圍繞出行旅遊的領域,搜狗推出了旅行翻譯包和翻譯寶Pro的翻譯硬體以及搜狗翻譯App,另外我們面對大會演講和培訓,推出了搜狗同傳和錄音翻譯筆。此外我們也在不斷地對外輸出我們的語音翻譯能力,目前正在和VIVO、OPPO有語音翻譯的技術合作,技術上我們也在不斷迭代,除了未來會有具有語音翻譯功能的硬體釋出,也會探索同傳怎麼能更多普惠到大眾。
Q:翻譯這塊是大家很期待的,但最近有一些事情讓大家比較失望,您覺得從技術角度什麼時候可以做到代替同傳呢?
A:這個問題我們內部也討論過。同傳這個事到底什麼時候可以超過一般的同傳?我們預估需要3-5年的時間,需要在技術上不斷髮力,力爭做到達到基本同傳能力。從我自己來看,目前我們在做的是希望怎麼能夠更好地將同傳普惠到大眾,不斷擴充套件同傳的應用場景,同時降低同傳的成本。從技術的發展階段看,一定是人獨立做同傳、到人和機器有效結合在一起,最後到機器能夠獨立有效的承擔複雜的同傳任務。
我們跟很多同傳老師都做過溝通發現,一個成熟的同傳用不到機器,因為他在聽、在說,有時候還得記,你這時候再給他加一個螢幕,說你看我的譯文,我翻得特別好,他是沒有時間看這個東西的,因此去顛覆成熟的人工同傳行業是很難的。目前我們面向人機結合的想法第一是先給正在進行同傳學習的人提供幫助,比如特定行業的術語庫參考,希望能夠探索人機有效配合的產品模態;第二是降低目前人工同傳的成本針對能力不足以獨立進行同傳的人員,讓人和機器協同合作共同做好翻譯這件事,而不是“要他沒我,要我沒他。
Q:目前搜狗在語音合成(TTS)上的發展規劃和主要難點?
A:搜狗TTS目標是做到個性化和富媒體化,個性化是指根據每個人的音色特點做到低成本快速的定製;富媒體化是指僅輸入文字就可以合成音視訊結合的內容。合成的主要難點一方面是如何降低模型對於資料質量的要求,目前錄音棚錄製的資料對於合成品質至關重要,如果使用網路抓取的資料、噪聲環境的資料等,合成質量下降非常明顯,這個會大大拉高C端使用者個性化定製音色的成本。此外目前合成還原音色的能力已經非常強,但是如何更好保留髮音人的情感、韻律、風格等,仍需要持續打磨和演算法迭代,這部分真正可以商用的成熟演算法還沒有,我們團隊也正在這些方向上不斷迭代。