1. 程式人生 > >AWS研究人員找到改善Alexa語音和聲音辨識

AWS研究人員找到改善Alexa語音和聲音辨識

ces 觀察 com 口語 vpd 試圖 watermark 大型 開發

AWS發表改善Alexa語音和聲音辨識的兩篇論文,皆是透過機器學習技術,來處理Alexa語音識別的問題。AWS第一個介紹的方法,是針對Alexa接收到來自電子媒體的幹擾問題,像是電視或是收音機的聲音,AWS團隊開發出一套能夠更好地辨識媒體音頻的方法,且能夠長時間持續檢查音頻,幫助Alexa過濾掉非用戶語音的背景聲音訊號。
技術分享圖片
另一個方法則是利用外部數據集,透過半監督式學習法,來訓練出語音事件偵測模型,半監督式學習法是采用小型已標註的訓練數據集,來對照到大型未標註的數據集,尤其是,AWS團隊是用Tri-training的模式,也就是用三種不同的模型來訓練同一個任務,但是使用些微不同的數據集,再用最終輸出的結果,來校正半監督式學習常見的問題,因此,模型的錯誤最終會變改正。AWS的媒體偵測系統是建立在對聲音特征的觀察,不管電子媒體聲音的內容,系統能夠辨識出所有常見的媒體聲音,AWS的網絡模型設計就是試圖要從特定的訓練樣本中萃取出聲音特征,首先,先透過卷積式神經網絡(CNN)作為特征萃取器,接著,就像許多在口語理解領域的機器學習模型,AWS也是用遞歸神經網絡(RNN),該網絡能夠有序地進程列輸入,而每一層網絡的輸出都會影響著下一層的輸入。

AWS研究人員找到改善Alexa語音和聲音辨識