- Tacotron

- Deepvoice 3

- Tacotron 2

- Wavenet

- Parallel Wavenet

- Clarinet




語音合成,Text To Speech(TTS),顧名思義就是把一段文字轉換為語音訊號。在人工智慧的體系中銜接了自然語言處理與語音技術,在智慧音箱,兒童聊天機器人,智慧語音客服等語音相關場景中起著非常關鍵的作用。

語音合成技術從上世紀80年代電腦技術普及後就開始研究,經典的語音合成技術主要基於拼接的方法,然後調整語調,停頓,輕重等韻律引數,涉及語音學,聲學等相關知識,對我們半路出家的演算法人員來說有著較高的資料及技術門檻。但2017年3月Google提出端到端的tacotron模型[1]後,顯著降低了語音合成技術門檻,只要對語音內容文字標註後,就可以用seq2seq框架的模型結構來學習文字與語音訊譜直接的對映關係。然後利用Griffin-Lim, WORLD, Wavenet等發聲器演算法將頻譜轉換為語音。本文將對主流的幾種深度神經網路語音合成模型進行介紹。




