1. 程式人生 > >Waveform Modeling and Generation Using Hierarchical Recurrent Neural Networks for Speech Bandwidth Extension

Waveform Modeling and Generation Using Hierarchical Recurrent Neural Networks for Speech Bandwidth Extension

基於遞階遞迴神經網路的語音訊帶擴充套件的波形建模與生成

作者:凌震華老師;成員:Yang Ai , 顧宇, and Li-Rong Dai

摘要

  本文提出了一種基於遞階遞迴神經網路(HRNN)的語音頻寬擴充套件(BWE)的波形建模與生成方法。與傳統的預測寬頻語音波形譜引數的盲式頻帶擴充套件(BWE)方法不同,該方法在不使用聲碼器的情況下,直接對波形樣本進行建模和預測。該模型受一個無條件的神經音訊生成器SampleRNN的啟發,用一個由長短期記憶(LSTM)層和前饋層組成的神經網路來表示每個寬頻或高頻波形樣本在輸入窄帶波形樣本上的分佈情況。長短期記憶網路形成一個遞階結構,並且每個層以特定的時間解析度工作,以有效地捕獲時域序列之間的大跨度依賴關係。此外,還利用基於深度神經網路的狀態分類器獲得窄帶語音的瓶頸特徵等附加條件作為輔助輸入,進一步提高了寬頻語音的生成質量。比較幾種波形建模方法的實驗結果表明,基於HRNN的方法比基於擴張卷積神經網路的方法和樣本級遞迴神經網路方法能獲得更好的語音質量和執行時間效率。我們提出的方法在重建寬頻語音的主觀質量方面也優於傳統的基於LSTM-RNNs的聲碼器盲式頻帶擴充套件(BWE)方法。

關鍵字:語音頻寬擴充套件,迴圈神經網路,擴張卷積神經網路,瓶頸特徵

一、引言

  語言交流在人們的生活中佔有很重要的地位,然而由於通訊通道和語音採集裝置的限制,語音訊號的頻寬通常限在窄頻帶。比如在公共交換電話網(PSTN)中,語音訊號的頻寬小於4kHZ。語音高頻部分的缺失通常導致低自然度和低可懂度。比如很難區分摩擦音和類似的聲音。因此,語音頻寬擴充套件(BWE)是利用寬頻語音訊號的低頻分量與高頻分量之間存在的相關關係來恢復窄帶語音中缺失的高頻分量的方法,引起了許多研究者的關注。盲式頻帶擴充套件的方法不僅可以應用於實時語音通訊,還可以應用於其他語音訊號處理領域,如文字到語音(TTS)合成[1]

、語音識別[2][3]和語音增強[4][5]

  許多研究者在BWE領域做了大量的工作。一些早期的研究採用語音產生的源-濾波器模型,試圖從輸入窄帶訊號中分別恢復高頻殘差訊號和譜包絡。高頻殘差訊號通常用譜摺疊法[6]從窄帶殘差訊號中估計出來。從窄帶訊號中估計高頻譜包絡一直是一項困難的任務。為了實現這一目標,提出了諸如碼本對映[7]和線性對映[4],以及使用高斯混合模型(GMMs)[8]-[11]和隱馬爾可夫模型(HMMs)[12]-[15]的統計方法。在統計方法上,建立聲學模型來表示窄帶譜引數與高頻譜引數之間的對映關係。雖然這些統計方法比簡單的對映方法取得了更好的效能,但由於GMMs和HMMs建模能力不足,可能導致頻譜引數過平滑,從而限制了重建語音訊號的質量[16]

  在最近幾年,深入學習已成為機器學習研究的一個新興領域。深度學習技術已經成功地應用於許多訊號處理任務中。在語音訊號處理中,具有深層結構的神經網路被引入到語音合成[17][18]、語音轉換[19]、[20]、語音增強[21]、[22]等語音生成任務中。在盲式頻帶擴充套件領域,神經網路也被用來預測表徵聲道濾波特性的頻譜引數[23]-[25],或者用短時傅立葉變換(STFT)[26],[27]匯出的原始對數量級譜。所研究的模型結構包括深層神經網路(DNN)[28]–[30]、遞迴時間受限Boltzmann機(RBM)[31]、具有長期短期記憶(LSTM)單元的遞迴神經網路(RNN)[32]等。這些方法比傳統的統計模型(如GMMs和HMMs)具有更好的盲式頻帶擴充套件(BWE)效能,因為深度神經網路能夠更好地建立輸入和輸出聲學引數之間複雜的非線性對映關係。