SEGAN: Speech Enhancement Generative Adversarial Network

資料探勘 · 發表 2018-12-16 12:01:00

摘要：經典的語音增強（speech enhancement）方法有譜減法（spectral subtraction）、維納濾波（Wiener filtering）、統計模型（statistical model-based methods）和子空間演算法（subspace algorithms）。 ...

經典的語音增強（speech enhancement）方法有譜減法（spectral subtraction）、維納濾波（Wiener filtering）、統計模型（statistical model-based methods）和子空間演算法（subspace algorithms）。

論文結合GAN網路提出了SEGAN，並通過實驗發現，SEGAN主要優勢有以下三點：

1、提供一個快速語音增強過程，沒有因果關係是必要的，因此沒有像RNN那樣的遞迴操作。

2、它基於原始音訊做處理，沒有提取特徵，因此沒有對原始資料做出明確的假設。

3、從不同的說話人和噪聲型別中學習，並將他們合併到相同的共享引數中，這使得系統在這些維度上變得簡單和一般化。

二、Generative Adversarial Networks

論文的第二部分，是介紹GAN的，如果有GAN的基礎可以跳過這一節。GAN網路是一種對抗模型，可以將樣本服從Z分佈的樣本對映到服從X分佈的x。

關於GAN的更多解釋：

有人說GAN強大之處在於可以自動的學習原始真實樣本集的資料分佈。為什麼大家會這麼說。

對於傳統的機器學習方法，我們一般會先定義一個模型讓資料去學習。(比如：假設我們知道原始資料是高斯分佈的，只是不知道高斯分佈的引數，這個時候我們定義一個高斯分佈，然後利用資料去學習高斯分佈的引數，最終得到我們的模型)，但是大家有沒有覺得奇怪，感覺你好像事先知道資料該怎麼對映一樣，只是在學習模型的引數罷了。

GAN則不同，生成模型最後通過噪聲生成一個完整的真實資料(比如人臉），說明生成模型已經掌握了從隨機噪聲到人臉資料的分佈規律。有了這個規律，想生成人臉還不容易，然而這個規律我們事先是不知道的，我們也不知道，如果讓你說從隨機噪聲到人臉應該服從什麼分佈，你不可能知道。這是一層層對映之後組合起來的非常複雜的分佈對映規律。然而GAN的機制可以學習到，也就是說GAN學習到了真實樣本集的資料分佈。

三、Speech Enhancement GAN 以及實驗步驟

我們有一個噪聲的輸入語音信$\tilde{x}$，我們想要去除噪聲獲得增強的語音訊號$\hat{x}$，我們打算用SEGAN(語音增強生成對抗網路)來實現目的。G網路來執行增強操作，G網路的輸入是噪聲語音訊號$\tilde{x}$和潛在表示z，其輸出是增強的語音訊號$x=G(\tilde{x})$，G網路被設計成完全卷積的，以至於根本沒有全連線的網路層，這就使得在整個分層的過程中網路要緊密的關注輸入訊號之間的相關性，此外卷積網路還減少了訓練的引數和訓練時間。

G網路的結構類似於自動編碼器(auto-encoder)。在編碼階段，輸入訊號被投影，通過被多個strided卷積層壓縮，其次是PReLUs(引數整流線性單元)，從濾波器的每個步驟獲得卷積結果。我們選擇 strided卷積，因為對於GAN訓練它相對於其他的池化方法更穩定。抽取直到我們得到一個被稱作思維向量c的壓縮表示，它與前夫向量z相連線。在解碼階段，編碼過程通過分數步長轉置卷積(有時稱為反捲積)，進行反轉，之後就是PReLUs。

G網路還具有跳過連線、將每個編碼層連線到相應的解碼層以及繞過在模型中間執行的壓縮特性(圖二)。

圖二：生成器，encoder-decoder

這是因為模型的輸入和輸出共享相同的底層結構，即自然語音。因此如果我們強制所有的資訊流過壓縮瓶頸，那麼為了正確地重構語音波形，可能會丟失許多低階一點的細節。跳過連線直接將波形的細粒度資訊傳遞給解碼階段(例如：相位、對準)。此外，他們提供了更好的訓練行為，因為梯度可以更深地流過整個結構,而不會消失很多 ^[24] 。

G網路的一個重要特徵就是它的端到端的結構，因此它處理16kHz取樣的原始語音，去掉所有的中間變換來提取聲學特徵(與許多常見的管道形成對比)，在這類模型中，我們必須要小心典型的迴歸損失，如平均絕對誤差或均方誤差，如原始語音生成模型WaveNET中所提到的 ^[25] 。這些損失在我們強假設產生的分佈如何成形和強加一些重要的模型限制時起作用（例如不允許多模態分佈和將預測偏向所有可能預測的平均值）。我們克服這些限制的解決方案是使用生成對抗設定。通過這種方式，D負責將資訊傳遞給G哪個是真的，哪個是假的，這樣G就可以朝向真實稍微修正它的輸出波形，去除被D判別是假的噪聲訊號。D可以理解為學習一些損失，使得G的輸出看起來真實。

在初步實驗中，我們發現在G的損失上增加一個次要成分是很方便的，這樣可以使G的世代與乾淨的例子之間的距離最小化。為了測量這樣的距離，我們選擇L1範數，因為它已經被證明在影象處理領域是有效的 ^[20,26] 。通過這種方式，我們讓對抗性元件新增更多的細粒度和現實的結果。L1範數的大小由一個新的超引數控制。因此，我們選擇的LSGAN (Eq. 4)中的G損失變成

四、實驗步驟

4.1 資料集

為了評估SEGAN的有效性，我們使用Valentini等人的資料集[27]。我們之所以選擇它，是因為它是開放的、可用的，而且資料的數量和型別符合我們這項工作的目的:概括了不同說話人的多種噪音。資料集是從語音語音庫 ^[28] 中選擇的30個說話人:28個包含在訓練集中，2個包含在測試集合中。為了建立噪聲訓練集，總共有40種不同的條件被考慮為 ^[27] ，10種類型的噪聲(2種人為噪聲，8種來自於需求資料庫 ^[29] )，每種信噪有4個信噪比(SNR)(15dB、10dB、5dB和0dB)。每個說話人在每個條件下都有大約10個不同的句子。為了建立測試集，總共考慮20個不同的條件 ^[27] ，5種類型的噪聲（全部來自需求資料庫），每個噪聲有4種信噪比(17.5dB、12.5dB、7.5dB和2.5 dB)。每個測試說話人在每個條件下大約有20個不同的句子。重要的是：使用不同的說話人和條件，測試集是完全看不見的(和訓練集不同)。

4.2 SEGAN步驟

模型使用RMSprop ^[30] 對86個epoch進行訓練，學習率為0.0002，有效batch size為400，我們將訓練示例分成兩組(圖3)。

真實的一對(噪聲訊號和純淨的訊號$(\tilde{x},x)$)和偽造的一對(噪聲訊號和增強的訊號$(\tilde{x},\hat{x})$)。為了使資料集檔案符合我們的波形生成目的，我們對原始語音進行下采樣從48 kHz到16 kHz。在訓練期間，我們通過每隔的500毫秒(50%的重疊)滑動視窗提取大約1秒鐘的波形(16384個樣本)。在測試期間，我們基本上在整個測試過程中滑動視窗，沒有重疊，並在流的末尾連線結果。在訓練和測試中，我們對所有輸入樣本都使用了係數為0.95的高頻預強調濾波器(在測試過程中，輸出相應地去加重)。

關於L1正則化的$\lambda $權，經過實驗，我們將其設定為100，用於整個訓練。我們最初將其設為1，但我們觀察到，在對抗性的情況下，G損失是兩個數量級，所以L1對學習沒有實際影響。一旦我們把它設為100，我們就會看到L1中的最小化行為和對抗性的平衡行為。我們假設隨著L1值的降低，輸出樣本的質量增加，有助於G在現實生成方面更有效。

在結構上，G由22個濾波器寬度31且階梯N=2的一維階梯卷積層組成。每層的濾波器數量增加，也就是隨著寬度（訊號在時間上的持續時間）變窄，深度變大。每一層是樣本X特徵的對映，每一層的維度是16384*1、8192*16、4096*32、2048*32、1024*64、512*64、256*128、128*128、64*256、32*256、16*512和8*1024。在這裡，我們從先前的8*1024維正態分佈N (0, I)中取樣噪聲樣本z。如上所述，G的解碼器階段是具有相同濾波器寬度和每層相同濾波器數量的編碼器的映象。然而，忽略連線和新增潛在向量使得每一層的特徵對映的數量加倍。

判別網路D的編碼器採用和生成網路G相同的一維卷積結構。它適用於卷積分類網路和傳統拓撲結構。不同之處在於

1）、得到了16384個雙輸入通道的樣本

2）、在$\alpha=0.3$的LeakyReLU非線性之前，它使用了virtual batch-norm ^[31]

3)、在最後一層激勵層中，有一個一維卷積層(1*1卷積)，其中有一個寬度為1的濾波器，他不會對隱藏層的激勵訊號進行下采樣

後來(3)減少了分類神經元和隱藏激勵線性全連線所需的引數數量。

後來(3)減少了最終分類神經元所需引數的數量，該神經元完全連線到所有具有線性行為的隱藏激勵。這意味著我們將全連線的元件中所需的引數量從8*1024=8192減少到8。並且1024個通道的合併方式可以通過卷積的引數來學習

所有的專案都是用TEnsorflow開發的，程式碼可以在 ofollow,noindex">https://github.com/santi-pdp/segan 找到。我們參考此資源以進一步實現我們的詳細資訊。在 http://veu.talp.cat/segan/ 中提供了增強的語音樣本。

五、結果

4.1 客觀評價

為了評估增強語音的質量，我們計算以下客觀度量(越高越好)。所有度量將增強後的語音訊號與824個未處理的語音進行比較，它們是使用了包含在[1]中的實現來計算的，並可在出版商網站 ² 獲取。

PESQ:語音質量感知評價，使用ITU-T P.862.2[33]中建議的寬頻版本(0.5 - 4.5)。

CSIG：僅關注語音訊號 ^[34] (從1到5)的訊號失真的平均意見評分(MOS)預測。

CBAK：背景噪聲侵入性的MOS預測 ^[34] （從1到5）。

COVL:總體效應的MOS預測 ^[34] （從1到5）。

SSNR：分段SNR ^{[35，P 41]} （從0到1）。

表一：目的比較噪聲訊號與維納增強訊號和分段增強訊號的優劣。

表一顯示了這些度量的結果，為了具有比較參考，如[1]中所提供的，他還顯示了當但直接應用有噪聲信和基於先驗SNR估計[36]使用wiener濾波的訊號時，這些度量的結果。可以觀察到SEGAN如何使PESQ稍微變差。然而在所有其他與語音/噪聲失真相關的度量中，SEGAN優於Wiener方法。它產生較少的語音失真（CSIG）和更有效地去除噪聲（CBAK和SSNR）。因此，它在兩個因素(COVL)之間取得了更好的平衡。

4.2 主觀評價

為了比較SEGAN增強的噪聲訊號和維納基線，還進行了感知測試。為此從測試集中選擇了20個句子，由於資料庫沒有說明每個檔案的噪聲的數量和型別，所以通過偵聽提供的一些噪聲檔案來進行選擇，試圖平衡不同的噪聲型別，大多數檔案具有低信噪比，但也有少數具有高信噪比的檔案。

總共有16名聽眾隨機抽取20個句子，對於每個句子，都按隨機順序給出了以下三種形式：噪聲訊號、維納增強訊號和SEGAN增強訊號。對於每個訊號，聽眾使用從1到5的刻度對總體質量進行評級。在描述這5個類別時，指示它們注意訊號失真和噪聲侵入性(例如，5＝優秀：非常自然的語音，沒有退化和不明顯的噪聲)。聽眾可以聽任意次數的每個訊號，並被要求注意三個訊號的比較率。

在表2中，可以觀察到SEGAN如何優於噪聲訊號和維納基線。然而，由於噪聲訊號的信噪比有較大的變化，MOS範圍很大，Wiener和SEGAN之間的差異不明顯。然而，當偵聽者同時比較所有系統時，可以通過減去所比較的兩個系統的MOS來計算比較MOS(CMOS)。圖4描繪了這種相對比較。我們可以看到SEGAN產生的訊號是如何優選的。更具體地，在67%的情況中，SEGAN優於原始（有噪聲）訊號，而在8%的情況中，有噪聲訊號是優選的（25%的情況中沒有優選）。就Wiener系統而言，53%的案例優選SEGAN，23%的案例優選Wiener（24%的案例不優選）。

表二：主觀評價結果比較噪聲訊號和維納增強訊號和SEGAN增強訊號。

圖4：CMOS盒圖（Seang-Wiener比較中線位於1）。正值意味著SEGAN是首選。

六、總結

本工作在生成對抗框架下實現了一種端到端的語音增強方法。該模型採用編碼器-解碼器的全卷積結構，能夠快速地進行波形塊的去噪處理。結果表明，該方法不僅可行，而且可以代表現有方法的有效替代方案。未來可能的工作包括探索更好的卷積結構並在對抗訓練中加入感知權重，以便減少當前模型可能引入的高頻偽影。需要做進一步的實驗來比較SEGAN與其他競爭方式。

七、致謝

這項工作是由專案TEC2015-69266 P（MiNeCo／FEDER，UE）支援的。

八、參考文獻

[1] P. C. Loizou, Speech Enhancement: Theory and Practice, 2nd ed.Boca Raton, FL, USA: CRC Press, Inc., 2013.

[2] L.-P. Yang and Q.-J. Fu, “Spectral subtraction-based speech enhancement for cochlear implant patients in background noise,” The Journal of the Acoustical Society of America, vol. 117, no. 3, pp. 1001–1004, 2005.

[3] D. Yu, L. Deng, J. Droppo, J. Wu, Y. Gong, and A. Acero, “A minimum-mean-square-error noise reduction algorithm on melfrequency cepstra for robust speech recognition,” in Proc. of the IEEE Int. Conf. on Acoustics, Speech and Signal Processing ICASSP). IEEE, 2008, pp. 4041–4044.

[4] A. L. Maas, Q. V. Le, T. M. O’Neil, O. Vinyals, P. Nguyen, and A. Y. Ng, “Recurrent neural networks for noise reduction in robust asr.” in Proc. of INTERSPEECH, 2012, pp. 22–25.

[5] J. Ortega-Garcia and J. Gonzalez-Rodriguez, “Overview of speech enhancement techniques for automatic speaker recognition,” in Spoken Language, 1996. ICSLP 96. Proceedings., Fourth International Conference on, vol. 2, Oct 1996, pp. 929–932 vol.2.

[6] M. Berouti, R. Schwartz, and J. Makhoul, “Enhancement of speech corrupted by acoustic noise,” in Proc. of the Int. Conf. on Acoustics, Speech, and Signal Processing (ICASS), vol. 4, Apr 1979, pp. 208–211.

[7] J. Lim and A. Oppenheim, “All-pole modeling of degraded speech,” IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. 26, no. 3, pp. 197–210, Jun 1978.

[8] Y. Ephraim, “Statistical-model-based speech enhancement systems,” Proceedings of the IEEE, vol. 80, no. 10, pp. 1526–1555, Oct 1992.

[9] M. Dendrinos, S. Bakamidis, and G. Carayannis, “Speech enhancement from noise: A regenerative approach,” Speech Communication, vol. 10, no. 1, pp. 45–57, 1991.

[10] Y. Ephraim and H. L. Van Trees, “A signal subspace approach for speech enhancement,” IEEE Trans. on speech and audio processing, vol. 3, no. 4, pp. 251–266, 1995.

[11] S. Tamura and A. Waibel, “Noise reduction using connectionist models,” in Proc. of the IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 1988, pp. 553–556.

[12] S. Parveen and P. Green, “Speech enhancement with missing data techniques using recurrent neural networks,” in Proc. of the IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2004, pp. 733–736.

[13] X. Lu, Y. Tsao, S. Matsuda, and C. Hori, “Speech enhancement based on deep denoising autoencoder.” in Proc. of INTERSPEECH, 2013, pp. 436–440.

[14] F. Weninger, H. Erdogan, S. Watanabe, E. Vincent, J. Le Roux, J. R. Hershey, and B. Schuller, “Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR,” in Proc. of the Int. Conf. on Latent Variable Analysis and Signal Separation, 2015, pp. 91–99.

[15] Y. Xu, J. Du, L.-R. Dai, and C.-H. Lee, “A regression approach to speech enhancement based on deep neural networks,” IEEE/ACM Trans. on Audio, Speech and Language Processing, vol. 23, no. 1, pp. 7–19, 2015.

[16] A. Kumar and D. Florencio, “Speech enhancement in multiplenoise conditions using deep neural networks,” in Proc. of the Int. Speech Communication Association Conf. (INTERSPEECH), 2016, pp. 3738–3742.

[17] D. Wang and J. Lim, “The unimportance of phase in speech enhancement,” IEEE Trans. on Acoustics, Speech, and Signal Processing, vol. 30, no. 4, pp. 679–681, Aug 1982.

[18] K. Paliwal, K. W´ojcicki, and B. Shannon, “The importance of phase in speech enhancement,” Speech Communication, vol. 53, no. 4, pp. 465 – 494, 2011. [Online]. Available: http://www.sciencedirect.com/science/article/pii/S0167639310002086

[19] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial nets,” in Advances in Neural Information Processing Systems (NIPS), 2014, pp. 2672–2680.

[20] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros, “Image-toimage translation with conditional adversarial networks,” ArXiv: 1611.07004, 2016.

[21] X. Mao, Q. Li, H. Xie, R. Y. K. Lau, and Z. Wang, “Least squares generative adversarial networks,” ArXiv: 1611.04076, 2016.

[22] A. Radford, L. Metz, and S. Chintala, “Unsupervised representation learning with deep convolutional generative adversarial networks,” arXiv preprint arXiv:1511.06434, 2015.

[23] K. He, X. Zhang, S. Ren, and J. Sun, “Delving deep into rectifiers: Surpassing human-level performance on imagenet classification,” in Proc. of the IEEE Int. Conf. on Computer Vision (ICCV), 2015, pp. 1026–1034.

[24] ——, “Deep residual learning for image recognition,” in Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 770–778.

[25] A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, and K. Kavukcuoglu, “Wavenet: A generative model for raw audio,” CoRR abs/1609.03499, 2016.

[26] D. Pathak, P. Krahenbuhl, J. Donahue, T. Darrell, and A. A. Efros, “Context encoders: Feature learning by inpainting,” in Proc. of the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 2536–2544.

[27] C. Valentini-Botinhao, X. Wang, S. Takaki, and J. Yamagishi, “Investigating rnn-based speech enhancement methods for noiserobust text-to-speech,” in 9th ISCA Speech Synthesis Workshop, pp. 146–152.

[28] C. Veaux, J. Yamagishi, and S. King, “The voice bank corpus: Design, collection and data analysis of a large regional accent speech database,” in Int. Conf. Oriental COCOSDA, held jointly with 2013 Conference on Asian Spoken Language Research and Evaluation (O-COCOSDA/CASLRE). IEEE, 2013, pp. 1–4.

[29] J. Thiemann, N. Ito, and E. Vincent, “The diverse environments multi-channel acoustic noise database: A database of multichannel environmental noise recordings,” The Journal of the Acoustical Society of America, vol. 133, no. 5, pp. 3591–3591, 2013.

[30] T. Tieleman and G. Hinton, “Lecture 6.5-RMSprop: divide the gradient by a running average of its recent magnitude,” COURSERA: Neural Networks for Machine Learning 4, 2, 2012.

[31] T. Salimans, I. Goodfellow, W. Zaremba, V. Cheung, A. Radford, and X. Chen, “Improved techniques for training gans,” in Advances in Neural Information Processing Systems (NIPS), 2016, pp. 2226–2234.

[32] M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S. Corrado, A. Davis, J. Dean, M. Devin et al., “Tensorflow: Large-scale machine learning on heterogeneous distributed systems,” arXiv preprint arXiv:1603.04467, 2016.

[33] P.862.2: Wideband extension to Recommendation P.862 for the assessment of wideband telephone networks and speech codecs, ITU-T Std. P.862.2, 2007.

[34] Y. Hu and P. C. Loizou, “Evaluation of objective quality measures for speech enhancement,” IEEE Trans. on Audio, Speech, and Language Processing, vol. 16, no. 1, pp. 229–238, Jan 2008.

[35] S. R. Quackenbush, T. P. Barnwell, and M. A. Clements, Objective Measures of Speech Quality. Englewood Cliffs, NJ: Prentice-Hall, 1988.

[36] P. Scalart and J. V. Filho, “Speech enhancement based on a priori signal to noise estimation,” in Proc. of the IEEE Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), vol. 2, May 1996, pp. 629–632 vol. 2.