微軟Azure認知服務:TTS系統音訊合成媲美人類
微軟的「文字到語音(text-to-speech,TTS)」分析執行系統取得了里程碑式的突破,它可以使用深度神經網路讓計算機合成的聲音酷似人類錄音,達到幾乎無法分辨的地步。這一系統合成的語音擁有與人類類似的神經韻律和吐字發音。神經 TTS 可以在人類與 AI 系統互動時大大減輕聽覺疲勞。
點開音訊,你能聽出哪個是微軟合成的聲音嗎?
本週,微軟的團隊在佛羅里達州奧蘭多的 Microsoft Ignite 會議上展示了神經網路驅動的「文字到語音」轉換功能。這種功能目前可以通過 Azure 認知服務語音服務進行預覽。
預覽連結: ofollow,noindex" target="_blank">https://azure.microsoft.com/en-us/services/cognitive-services/speech-services/
「神經文字到語音」轉換可以讓人與機器人或虛擬助手的互動更加自然、有吸引力。它將電子書等數字文字轉換為有聲書,還可以用於改進車內導航系統。
「文字到語音」轉換取得的進展是微軟團隊在過去兩年中取得的突破之一,他們的貢獻還包括將會話語音識別和 機器翻譯 提升到可以與人類媲美的程度。
微軟的「文字到語音」系統使用了深度神經網路,來克服傳統「文字到語音」系統在匹配口語的重讀和語調(稱為韻律結構),以及將語音單元合成為計算機音訊方面的侷限性。
傳統的「文字到語音」系統將韻律結構分解成由獨立模型控制的語言分析和聲學預測步驟。這將導致合成音訊變得沉悶無趣。微軟的「文字到語音」系統可以同時執行韻律預測和聲音合成,其結果更加流暢自然。
通過使用 Azure 的算力,微軟可以傳送實時的語音流,有助於人與聊天機器人或虛擬助理交流。該功能由 Azure Kubernetes Service 提供服務,保證了很高的可擴充套件性和可用性,並給予使用者在單個端點使用神經「文字到語音」以及傳統的「文字到語音」服務的能力。
預覽服務目前提供兩個預構建的英文版「文字到語音」的助理——Jessa 和 Guy。微軟很快會加入更多的語言,以及 49 種語言的定製服務(面向希望為特定需求構建品牌聲音的客戶)。