亞馬遜新系統 Alexa的話題識別準確率提升
HomePod、Google Home或Echo的使用者往往會告訴你,讓智慧音箱理解你的意思,更不用說搞清楚交談的話題是一件相當困難的事情。但亞馬遜的研究者正讓語音助手能夠反應更敏捷,並且還能聯絡上下文。這很大程度上得益於“話題模型”,例如識別話題來幫助語音助手發出更準確的請求。
在新的研究中,亞馬遜開發出了可以將Alexa的話題識別準確率提升至35%的原型系統。相關論文將在希臘雅典的IEEE口語技術峰會上被公佈。亞馬遜的語言系統科學家Behnam Hedayatnia在部落格中介紹道:“我們的系統使用兩種額外的資訊來源決定語境中的話題。”
為了驗證該人工智慧系統,研究者們使用了超過10萬段註解過的語音請求。註解者用14種對話行為和12種話題標籤來標註訓練資料,例如政治、娛樂、電影、時尚和閱讀,並會特別註釋語音命令中能幫助識別話題的關鍵字。(例如,“古馳是著名的義大利品牌”裡的“品牌”和“義大利”。)
語音模型系統由三種不同的人工智慧架構組成,一是深度適配網路(DAN);二是可以預測暗示主題的關鍵字的DAN變體;三是雙向長短時記憶(LSTM)網路。雙向長短時記憶迴圈神經網路是遞迴神經網路的一種,並能學習長期依賴關係,它還可以讓神經網路結合自身記憶和輸入資料來提高預測準確性。
輸入三種神經網路的資料包含語音控制資訊、對話行為分類以及對話背景,換句話說就是對話中的最後五種變動,每種變動組合了講話者發出的請求和聊天機器人的回覆。DAN會產生詞語嵌入,隨後通過適配詞語植入產生句子嵌入。這些句子嵌入同一適配產生一個單獨的彙總嵌入,它將被附加於現有的語音命令嵌入並且會被傳遞給將嵌入和話題分類關聯起來的神經網路。
同時,DAN會構建一個繪製了所有有關12個話題資訊的的網路,記錄下註解者多久一次將某個詞語同某個話題關聯起來。最後,每個詞語有12個關聯的數字,指出其同每個話題的關聯度。現有語音命令彙總中的詞語相關的載體和之前語音命令彙總結合起來,隨後被傳遞給神經網路用於分類。
在測試中,四個不同的系統版本將語音識別準確率提高至基線以上。其中一種配置實現了74%的準確率,遠高於55%的基線。