1. 程式人生 > >學習筆記:語音識別 === 雜記

學習筆記:語音識別 === 雜記

這篇筆記,是語音方面的大雜燴,主要用於記錄當前的狀況,然後就是各種學習的資源整合

語音識別技術近年進展

2017 年 3 月,IBM 結合了 LSTM 模型和帶有 3 個強聲學模型的 WaveNet 語言模型。「集中擴充套件深度學習應用技術終於取得了 5.5% 錯詞率的突破」。相對應的是去年 5 月的 6.9%。

2017 年 8 月,微軟釋出新的里程碑,通過改進微軟語音識別系統中基於神經網路的聽覺和語言模型,在去年基礎上降低了大約 12% 的出錯率,錯詞率為 5.1%,聲稱超過專業速記員。相對應的是去年 10 月的 5.9%,聲稱超過人類。

2017 年 12 月,谷歌釋出全新端到端語音識別系統(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),錯詞率降低至 5.6%。相對於強大的傳統系統有 16% 的效能提升。

2018 年 6 月,阿里巴巴達摩院推出了新一代語音識別模型 DFSMN,將全球語音識別準確率紀錄提高至 96.04%,錯詞率降低至 3.96%。

2018 年 10 月,雲從科技釋出全新 Pyramidal-FSMN 語音識別模型,將錯詞率(Worderrorrate,WER)降低至 2.97%,較之前提升了 25%。

資料集:

Librispeech 是當前衡量語音識別技術的最權威主流的開源資料集 ,http://www.openslr.org/12/