谷歌開源語音識別AI技術,可以從人群中區分每個人的發言
雖然機器語音識別的準確率已經很高,但是從一群人嘈雜的溝通交流中區分每個人說了什麼,對於機器來說還是一個艱鉅的挑戰。Speaker Diarization(發言者語音片段切分歸類)是一個將群組發言中不同人不同時間點的語音樣本劃分和重組為獨特的,同質的片段的過程,分離出誰在何時說了什麼,這對機器來說可不像人類那麼容易,通過訓練機器學習演算法來執行的難度也比想象的大很多。因為強大的Diarization系統必須能夠將新個體與之前未遇到的語音片段相關聯。
但谷歌的人工智慧研究部門在Diarization的高效能模式上取得了令人鼓舞的進展。在一篇新論文(“ ofollow,noindex" target="_blank">全監督演講者Diarization ”)和隨附的 部落格文章中 ,谷歌研究人員描述了一種新的人工智慧(AI)系統,該系統“可以以更有效的方式利用受監督的發言人標籤”。
該論文的作者聲稱核心演算法實現了對於實時應用程式而言足夠低的線上分類錯誤率(DER) – 在 NIST SRE 2000 CALLHOME 基準測試中為7.6%,而谷歌之前的方法為8.8%DER – 目前原始碼已經在 Github上開源 。
上圖:流式音訊上的發言人分類,底部軸的不同顏色表示不同的發言人。
圖片來源:谷歌
谷歌研究人員的新方法通過遞迴神經網路(RNN)模擬發言者的嵌入(即,單詞和短語的數學表示),RNN是一種機器學習模型,可以使用其內部狀態來處理輸入序列。每個發言者都以自己的RNN例項開始,該例項在給定新嵌入的情況下不斷更新RNN狀態,使系統能夠學習在發言者和話語之間共享的高階知識。
“由於該系統的所有元件都可以以監督的方式學習,因此在可以獲得具有高質量時間標記的揚聲器標籤訓練資料的情況下,優於無監督系統,”研究人員在論文中寫道。“我們的系統採用全面監督,並且能夠從帶有時間標記的發言者標籤的示例中學習。”
在未來的工作中,團隊計劃優化模型,以便它可以整合上下文資訊以執行離線解碼,他們期望這能進一步降低DER錯誤率。谷歌團隊還準備直接對聲學特徵進行建模,以便整個發言者diarization系統可以進行端到端的訓練。