出門問問Mobvoi AI Lab:三篇論文入選ICASSP 2019
出門問問是一家以語音互動和軟硬結合為核心的人工智慧公司。2012年創立後,出門問問始終以定義下一代人機互動方式為使命,堅持做AI應用的探索,希望用“AI喚醒生活”,讓每一個人都能夠感受到,以語音互動為代表的AI科技可以給每個人帶來的美好與便利。
技術方面,出門問問擁有全套自主研發的智慧語音互動八大關鍵核心技術,掌握600多項技術專利。從1.前端聲音訊號處理,到2.熱詞喚醒,到3.語音識別,到4.自然語言理解和5.對話管理,到6.垂直智慧搜尋和7.推送,到8.語音合成,在這一整套“聽到-識別-處理-輸出”的人機互動過程中,出門問問可以自主提供所有技術,為需要語音互動的場景提供一整套端到端人機互動解決方案。
出門問問始終堅持產學研高度一體化,在語音互動技術上一直深入探索,由IEEE院士(IEEE Fellow)黃美玉博士領導的出門問問Mobvoi AI Lab,在此次ICASSP 2019提交的論文概述如下。
一、信任正則化的知識蒸餾在遞迴神經網路語言模型上的應用
論文標題:Knowledge Distillation for Recurrent Neural Network Language Modeling with Trust Regularization
作者:Yangyang Shi, Mei-Yuh Hwang, Xin Lei,Haoyu Sheng
簡介:基於遞迴神經網路的語言模型較於傳統的n-gram語言模型,有顯著的效能提升,已經成為語言模型的主流模型,在很多雲端應用中得到廣泛的青睞。然而遞迴神經網路語言模型在實際應用中需要佔據大量的記憶體容量以及計算資源。在很多移動終端,由於有限的記憶體以及功耗,極大的限制了遞迴神經網路語言模型的應用。最近知識蒸餾的方法被用於壓縮遞迴神經網路語言模型並減少它在終端裝置上的計算量。這一篇文章也同樣採用了知識蒸餾的方法,並用信任正則化的方法對知識蒸餾方法做出了改進。文章的實驗表明這種信任正則化的知識蒸餾方法,可以把 Penn Treebank 資料集的遞迴神經網路的模型大小降到原有大小的33%,而仍然得到當前學術界最好的結果。在華爾街日報語音識別的任務中,這篇文章的實驗表明,信任正則化的知識蒸餾方法可以將遞迴神經網路語言模型的大小降到原有大小的18.5%,並且仍然保持和原有模型一樣的效果。
二、基於高階LSTM-CTC的端到端語音識別
論文標題:End-To-End Speech Recognition Using A High Rank LSTM-CTC Based Model
作者:Yangyang Shi,Mei-Yuh Hwang,Xin Lei
簡介:基於LSTM-CTC的端到端語音模型, 由於其簡單的訓練過程以及高效的解碼過程,最近在語音識別領域得到廣泛的關注和應用。在傳統的LSTM-CTC模型中,一個瓶頸投影矩陣將LSTM隱層的輸出向量投影到CTC的輸入向量。研究表明增強這個瓶頸投影矩陣的階數可以提高LSTM模型的表達能力。這篇文章提出用一個高階的投影層替代傳統的投影矩陣。高階投影層以LSTM的隱層的輸出向量作為輸入,經過一系列的投影矩陣以及非線性函式,這個高階投影層的輸出是一系列向量的線性組合。在高階投影層中,這些線性組合的權重也是由模型根據訓練資料學習得到。文章的實驗表明在語音領域普遍採用的WSJ資料集以及Librispeech資料集合上,較於傳統的LSTM-CTC的端到端語音模型,高階的LSTM-CTC模型可以帶來3%-10%相對詞錯誤率的下降。
三、使用對抗性樣例提升基於注意力機制端到端的神經網路關鍵字檢出模型
論文標題:Adversarial Examples for Improving End-to-end Attention-based Small-Footprint Keyword Spotting
作者:Xiong Wang, Sining Sun, Changhao Shan, Jingyong Hou, Lei Xie,Shen Li, Xin Lei
簡介:本文提出使用對抗性樣例來提升關鍵字檢出(Keyword spotting,KWS)的效能。 對抗性樣例近年來在深度學習領域是一個研究熱點,它是指在原來正確分類的樣例上加一個輕微的擾動後即被分類器錯誤分類的樣例。 在KWS任務中,將系統誤喚醒或誤拒絕的錯誤樣例視為對抗性樣例非常直觀而貼切競爭性樣例的概念。在我們的工作中,我們首先建立了一個訓練有素的基於注意力機制端到端的KWS模型,然後使用快速梯度符號法(FGSM)生成了對抗性的樣例,發現這些樣例會顯著降低KWS的效能,最後我們利用這些對抗性的樣例作為增強資料來一起訓練KWS模型。最終在出門問問智慧音響上收集的喚醒詞資料集上進行了實驗。實驗結果顯示,設定閾值在每小時1.0次誤喚醒情況下,提出的方法獲得了相對44.7%的誤拒絕率的降低。
作為AI語音領頭公司,出門問問2018年開始在學術頂會發表重要論文,並在麥克風陣列噪聲消減、口語理解、噪聲環境下的語音識別、帶口音的語音識別中實現重大突破。
未來,出門問問不僅要做人工智慧技術的前鋒探索者,更要做人工智慧應用的奠基人,既保持前端技術的研發能力,同時擁有紮實的落地應用能力,ToC通過AI可穿戴、車載、智慧家居消費級智慧硬體+ToB通過AI企業服務雙輪戰略驅動,繼續探索,用AI喚醒更多人的生活。