詞錯率2.97%:雲從科技重新整理語音識別世界紀錄
10 月 29 日,雲從科技宣佈在語音識別技術上取得重大突破,在全球最大的開源語音識別資料集 Librispeech 上重新整理了世界紀錄,錯詞率(Worderrorrate,WER)降低至 2.97%。這一研究將 Librispeech 的 WER 指標提升了 25%,超過阿里、百度、約翰霍普金斯大學等公司和機構,重新整理原記錄。
雲從表示,這已是雲從在近半年以來第二次宣佈重新整理世界紀錄。今年 4 月,雲從科技跨鏡追蹤技術(ReID)技術在 Market-1501,DukeMTMC-reID,CUHK03 三個資料集重新整理了世界紀錄,其中最高在 Market-1501 上的首位命中率(Rank-1 Accuracy)達到 96.6%,讓跨鏡追蹤技術(ReID)技術在準確率上首次達到商用水平。
據介紹,雲從科技核心技術閉環包括人臉識別、智慧感知與智慧分析三個階段。語音識別技術是智慧感知的重要部分,通過語音識別,機器就可以像人類一樣理解語言,進而能夠展開處理,進行反饋。
近年來,在深度學習技術的幫助下,語音識別取得了很大進展,從實驗室開始走向市場,走向實用化。基於語音識別技術的輸入法、搜尋和翻譯等人機互動場景都有了廣泛的應用。
Librispeech 是當前衡量語音識別技術的最權威主流的開源資料集,它是世界最大的免費語音識別資料庫,包含文字和語音的有聲讀物資料集,由 1000 小時的多人朗讀的清晰音訊組成,且包含書籍的章節結構。錯詞率(Worderrorrate,WER)是衡量語音識別技術水平的核心指標。
在技術研究的「最後一英里」,每 0.1 個百分點的進步都異常艱難。雲從科技在 Librispeech 資料集上重新整理了業內最好的水平,將錯詞率(Worderrorrate,WER)降到了驚人的 2.97%,較之前提升了 25%,已超越人類專業速記員水平。該成果有望推動語音識別技術的大幅進步。
雲從科技此次推出的語音識別模型 Pyramidal-FSMN 融合影象識別與語音識別的優勢,將殘差卷積網路和金字塔記憶模組的序列記憶網路相結合, 能夠同時有效的提取空間和時間上不同粒度的資訊,對比目前業界使用最為廣泛的 LSTM 模型,訓練速度更快、識別準確率更高。
Pyramidal-FSMN 語音識別模型原理解析
雲從科技提出的新型網路結構,能更加有效的提取空間和時間特徵的角度,為語音識別進一步發展提供了一些新的思路: 模型設計採用一種殘差卷積網路和金字塔記憶模組的序列記憶網路相結合的結構;
訓練方式使用 lattice-free 最大互資訊(lattice-free maximum mutual information,LF-MMI/Chain)與交叉熵(crossentropy,CE)損失函式相結合的多工學習技術;解碼部分採取 RNNLM rescoring 的方式,利用 RNN 提取一個句子中的長期語義資訊,從而更有效地幫助聲學模型得到準確的句子。
作者採用了由 6 層 ResidualCNN 和 10 層 Pyramidal-FSMN 相結合的網路結構。前端網路借鑑了影象識別中經典的 Residual CNN 結構,更有效地提取特徵與時間相互的關聯資訊,同時 skipconnection 避免了 CNN 網路加深之後梯度消失和梯度爆炸問題。在金字塔記憶模組中,淺層的網路主要聚焦於音素本身的特徵學習,所以只需抽取短時上下文資訊,而深層的網路由於已經學習到了足夠的固定時間的音素資訊,需要學習長時間包括語義和語法特徵,所以深層抽取長時間的上下文資訊。利用這樣的金字塔結構,既能減少引數,縮小模型結構,也能更加精巧的模擬人類處理語音訊號的過程,提高識別效果。
在損失函式部分,作者採用了基於 LF-MMI 的序列性訓練方式。同時為了解決序列性訓練容易導致過擬合的問題,又引入了傳統的交叉熵損失函式,在 LF-MMI 輸出之外加入另一個輸出層作為一個正則技術,通過設定交叉熵的正則化係數,兩個目標能夠有效地學習並且避免過擬合問題。
最後,作者使用了 RNNLM rescoring 技術對解碼做進一步處理。在沒有 RNNLM rescoring 的情況下,Pyramidal-FSMN 已經達到了目前最好的結果,rescoring 之後又有了更進一步的提升。RNNLM 的訓練資料完全基於通用的語言模型資料集,並沒有額外引入其他的訓練資料這樣的「技巧」性策略。
論文:A NOVEL PYRAMIDAL-FSMN ARCHITECTURE WITH LATTICE-FREE MMI FOR SPEECH RECOGNITION
論文地址:https://arxiv.org/abs/1810.11352
論文介紹
近年來,除了 GMM-HMM 模型,深度神經網路(DNN)已經被用作大詞彙量連續語音識別(LVCSR)系統的聲學模型 [1, 2]。前饋神經網路(FNN)等早期研究 [3] 只將當前時間步作為輸入。迴圈神經網路(RNN),尤其是長短期記憶網路(LSTM),憑藉其迴圈連線 [4] 和序列資訊的使用在語音識別任務中表現出了優異的效能。卷積神經網路(CNN)應用了局部連線、權重共享和池化等技術,效能也超越了之前的研究成果 [8, 9]。
然而,RNN 的訓練依賴隨時間的反向傳播(BPTT)[10],可能因計算複雜而導致時間消耗過多、梯度消失或爆炸 [11] 等問題。教師強制(teacher forcing)或教授強制(professor forcing)訓練可以在一定程度上解決該問題,但也會降低 RNN 的魯棒性。最近有人提出了一個前饋序列記憶網路(FSMN)[14]。該網路可以在沒有任何迴圈反饋的情況下建模長期關係。此外,為了構建非常深的神經網路架構,FSMN 還應用了殘差連線 [15],這是對之前模型的巨大改進。與此同時,時延神經網路(TDNN)[16] 和分解的時延神經網路(TDNN-F)也大量應用了前饋網路。
圖 1:FSMN(a) 和 DFSMN(b) 架構。
傳統的 DNN-HMM 混合聲學模型是根據交叉熵標準訓練的。由於語音識別是一個序列問題,在 CE 訓練後應用了幾個序列的判別訓練標準,如最大互資訊(MMI)[18],最小貝葉斯風險(MBR)[19] 和最小語音錯誤(MPE)[20]。受到 Connectionist Temporal Classification(CTC)在不同識別任務中的應用啟發 [21, 22],我們開發了一種新的方法,稱為 lattice-free MMI(LF-MMI/Chain model)[23]。該方法可以在沒有任何 CE 初始化的情況下使用,因此需要的計算更少。
在本文中,我們提出了一種新的 CNN Pyramidal- FSMN(pFSMN)架構,該架構通過 LF-MMI 和交叉熵聯合訓練而得。金字塔架構被應用於記憶模組中。在該架構中,頂層包含較短的上下文資訊,而深層包含較長的上下文資訊,這採用了適當的時間依賴性,同時減少了引數量。除此之外,每隔幾層新增一次殘差連線。為了從原始的 Mel-Frequency Cepstral Coefficients(MFCCs)中提取更精確的特徵,CNN 層被部署為前端。
雲從科技的研究人員在不同的語音識別任務上評估了該架構的表現。在 300 小時的 Switchboard 語料庫中,我們提出的架構實現了當前最低的錯詞率(WER),僅為 10.89%。而在 1000 小時的 Librispeech 語料庫中,WER 為 3.62%。此外,在我們的實驗中,RNN 語言模型(RNNLM)在解碼和 rescoring 方面取得了進步,與傳統的 N-gram 語言模型相比,該模型獲得了 1% 以上的絕對改進。
表 1:新方法與之前的方法在 Librispeech 和 SWBD-300 任務上的對比。
ofollow,noindex" target="_blank">理論 雲從科技 創業公司 語音識別 深度殘差網路 卷積神經網路