1. 程式人生 > >Speech Bandwidth Extension Using Generative Adversarial Networks

Speech Bandwidth Extension Using Generative Adversarial Networks

owb codec 同時 ephone 參數 listen 註意 nbu 分數

論文下載地址。博客園文章地址。

摘要

語音盲帶寬擴展技術已經出現了一段時間,但到目前為止還沒有出現廣泛的部署,部分原因是增加的帶寬伴隨著附加的工件。本文提出了三代盲帶寬擴展技術,從矢量量化映射到高斯混合模型,再到基於生成對抗性網絡的深層神經網絡的最新體系結構。這種最新的方法在質量上有了很大的提高,並證明了基於機器學習的盲帶寬擴展算法在客觀上和主觀上都能達到與寬帶編解碼器相當的質量。我們相信,盲帶寬擴展現在可以達到足夠高的質量,以保證在現有的電信網絡中部署。

關鍵詞:盲源帶寬擴展,人工帶寬擴展,生成對抗性網絡,客觀質量評價,主觀質量評價,POLQA

一、引言

  直到幾年前,語音通信的質量一直受到100多年前的設計選擇的限制,這導致了8 kHz采樣率實際頻率使用範圍為300-3400 Hz。這種所謂的窄帶(NB)頻率範圍嚴重限制了語音質量。最近業界已開始轉向“高清聲音”和“超高清聲音”技術,它們分別使用寬帶(WB)或超寬帶(SWB)編碼器,使得采樣率分別為16 kHz或32 kHz映射成50-7000 Hz或50-14000 Hz的頻率範圍[1][2]

  然而,WB和SWB部署並不普遍,因為需要大量的成本去開發、測試、和部署支持的服務。此外,端到端的WB/SWB呼叫需要在兩端升級設備.要達到全面覆蓋和手機普及率,可能需要數年的時間,而將固定電話網絡升級到WB/SWB可能需要更長的時間。在此之前,很大一部分呼叫仍將使用遺留窄帶。

  盲源帶寬擴展(BBE)技術就是通過將NB語音轉換為WB或SWB語音來解決這個問題。在本文中為了簡單我們將只關註於WB的情況。

二、背景

2.1 相關工作

  已經提出了各種盲源頻帶擴展的統計方法,從語音0~4kHz的低頻部分(LB)預測4~8kHz的高頻部分(HB)。通常,使用某種形式的譜折疊或統計建模來產生具有寬帶語音[3][4]

一般特征的信號。雖然不能期望完美的預測,但可以獲得合理的高質量的語音。

  矢量量化(VQ)碼本映射可以用來創建語音參數從LB到HB[5][6]的離散映射。基於高斯混合模型(GMM)的方法,通過對語音包絡參數的連續建模,用來保存了LB到HB之間更加精確的轉換。隱馬爾可夫模型(HMM)通過利用語音時態信息來擴展GMMs[8]。基於神經網絡的盲源頻帶擴展方法,如深神經網絡,已經被提出,因為它們可以對高度非線性問題進行更好的建模[9]

2.2 損失函數(Loss)與GANs

  本文所討論的統計模型都是基於回歸問題中最基本的損失函數——均方誤差(MSE),它測量了HB語音包絡特征在預測值和真實值之間的差異。MSE損失函數在一般意義上工作良好,但難以處理恢復缺失語音HB時固有的不確定性,如詳細的頻譜形狀和濁音/清音能量。最小化MSE會發現看似真實的參數平均值,這就是典型的過擬合,因而具有較差的感知質量。

  GANs已在[10]中引入,並已成功地應用於圖像處理領域,如圖像到圖像的轉化[11]、圖像的超分辨率[12]和文本到圖像的合成[13]。GAN訓練階段重建向高概率搜索空間的區域移動,高概率搜索空間包含真實HB語音參數分布,從而接近自然語音HB波形[12]。在這篇文章中,我們研究了GANs在盲源頻帶擴展上面是如何訓練的。

三、盲源頻帶擴展的框架

一般情況下,盲源頻帶擴展框架是建立在經典的源濾波器語音產生模型的基礎上的。利用該模型,窄帶語音信號的寬帶擴展可分為兩個子任務:

  • 高頻譜包絡的估計
  • 窄帶激勵信號的擴展

為了合成高頻語音信號,我們利用EVRC-WB[14]中的高帶寬模型。圖一顯示了我們的盲源頻帶擴展框架的總體圖。

技術分享圖片

3.1 高頻帶激勵

  高頻帶(HB)激勵是由窄帶(NB)激勵通過一個非線性函數產生的,該函數產生保持信號諧波結構的高頻段激勵[14]

3.2 高頻帶譜包絡

  在我們的語音高頻帶HB擴展模型中,對於每20ms的語音幀,使用六階線譜頻率(LSF)對高頻帶HB進行頻譜化,再加上低頻帶和高頻帶之間能量比對應的增益因子[14]

3.3 框架驗證

  對該框架進行了測試,驗證了從原始帶寬WB語音中提取高頻參數HB時所提供的質量不低於AMR-WB 12.65kbps的客觀和主觀性能。因為該框架性能的瓶頸,所以盲源頻帶擴展BBE通常達不到12.65kbps的AMR-WB 12.65kbps的質量。該框架還用於EVRC-WB和高通專有的eAMR WB編解碼器[16]

四、高頻帶HB參數預測

4.1 語音參數

輸入 輸出
10階低頻LSFs + Delta LSFs 6階高頻的LSF
4kHz語音能量 4-8kHz語音能量

表一:預測器輸入輸出參數

  在我們的高頻帶HB預測實驗中使用的參數列於表1。LB LSFs的後向對沖值用於改進預測,而不需要額外的延遲。

4.2.最小均方誤差的統計建模

4.2.1.VQ碼本映射

  最基本的方法是碼本映射。從寬帶語音中提取LB和HB語音包絡參數,並進一步使用諸如K近鄰的聚類方法來訓練VQ碼本。在估計階段,將接收到的窄帶參數與碼本中的LB包絡參數進行比較,然後選擇最接近接收到的窄帶包絡參數的條目。所選條目對應的HB包絡參數用作HB譜包絡參數[5]。在實踐中,最近的碼本條目被內插,加權於它們的LB包絡參數和接收到的窄帶包絡參數之間的距離[6]

4.2.2.高斯混合模型(GMM)

  與碼本映射相比,GMM可以連續地對語音包絡數據進行建模,從而實現軟聚類。訓練使用期望最大化(EM)和最大似然估計(MLE)進行[7]。該概率框架在訓練過程中引入狀態轉移概率矩陣,靈活地融合了語音時域信息,將模型轉化為GMM/HMM混合模型。增加隱馬爾可夫(HMM)分量的主要好處在於它可以隱式地利用先前語音幀中的信息來提高估計精度[8]。文[7]詳細討論了LB參數到HB參數的混合均值和協方差矩陣的變形技術。

4.3.用GANs進行統計建模

4.3.1.生成對抗性網絡框架

技術分享圖片

圖二: BBE-GAN 框架

  GAN[10]包括發生器(G)和鑒別器(D),如圖2所示。這裏,對於我們的BBE-GAN系統,G是一個深度神經網絡,它根據LB參數預測HB參數。D是另一個用作二進制分類器的深層神經網絡,它試圖區分預測HB參數和自然HB語音參數。

  在對抗訓練中,G試圖通過調整其權重和偏置項來愚弄D,從而使D相信它的輸出是自然的。D和G是叠代訓練的,它們都試圖擊敗對方。這種方法導致G生成與自然數據相同分布的輸出,因此可以生成更自然的語音。

4.3.2 MSE Loss的預訓練

  深神經網絡已經被應用於BBE問題,在[9]中使用了MSE Loss。我們以這樣一個模型作為起點。這裏,一個四層DNN網絡高頻帶LSFs和能量的生成器使用標準的MSE Loss進行預訓練,為了使GAN訓練過程有一個好的初始生成器,預訓練是至關重要的,這有助於避免不穩定的問題。

4.3.3 知覺Loss函數

  感知Loss函數$l$的定義對生成器網絡的性能起著至關重要的作用。在SRGAN[12]中的感知Loss函數設計的啟發下,我們將HB語音包絡參數$l{params}$與對抗網絡的Loss$l_{adv}$結合起來,將感知Loss作為加權和,如式(1)所示。

$$l = l_{params}+10^{-2}*l_{adv}$$

5. 實驗

5.1 開始

  我們以NTT 1994多語言語料庫[17]為訓練和驗證數據,采用10倍交叉驗證方案,進行了語音帶寬擴展實驗。數據以16 kHz采樣率采樣,數字化為16位分辨率,采用ITU-TP.341兼容濾波器模擬典型的TX手機響應。我們使用itu-t p.501英國英語[18]作為評估數據集。

  對於BBE-VQ,我們使用單獨的256元素VQ碼本來處理Hb lsfs和增益.三個最近的候選人的加權組合用於預測。

  對於BBE-GMM,我們使用了一個GMM HMM混合模型,該混合模型有64個狀態,每個狀態有4個混合狀態,並且具有完全的協方差矩陣。該算法采用Viterbi譯碼算法的前向路徑,不需要前瞻時延。

  對於BBE-GAN,發生器和鑒別器都是四層前饋(1層輸入層、1層輸出層、2層隱層),每個隱層有1024個神經元.ADAM優化器在培訓期間使用。

  圖3和圖4顯示了在叠代0、100和200的對抗訓練過程中典型有聲段和無聲段的頻譜包絡。我們可以清楚地看到,隨著損失函數的遠離MSE,BBE-GAN輸出正朝著參考WB語音的頻譜移動。GAN培訓過程是提高無聲段的能量,同時清除無聲段期間不需要的HB噪聲。這導致語音質量顯著提高,具有較少的可聽偽影和更高的自然度。

技術分享圖片

圖3:語音輸出與GAN叠代

技術分享圖片

圖4:無聲語音輸出與GAN叠代

5.2 客觀表現

  對於客觀評價,我們遵循了[19]中描述的方法,並在ITU-tp補編中進行了定義。27[20]。為了滿足帶寬需求,我們以ITU-T-501英國英語語音材料為輸入,分別測量了3 GPP RX掩碼[21]的RX頻率響應。在語音質量方面,我們用P.501英式英語測試POLQA[22]的輸出分數,用Amr 12.2kbps編碼。

  我們為BBE算法繪制了POLQA分數以上討論。AMR-NB的評分為12.2kbps,和AMR-WB在8.85kbps和12.65kbps時顯示為參考文獻。結果如圖5所示,其中0dB指示響應遵循掩碼的下限。從BBE-VQ到BBE-GMM都有明顯的改進BBE-GAN,顯示了所使用的統計模型的不斷增強的建模能力。在叠代0處的GAN與GAN之間在叠代200(完全訓練)處,最大POLQA值類似的,但是BBE-GAN在200次叠代時也是這樣以更高的數量更好地保持其POLQA得分帶寬。這是預測質量的良好指示,並且通過減少來自完全訓練的GAN的預測偽影。

技術分享圖片

圖5:POLQA mos-lqo vs帶寬

5.3.主觀表現

  采用ITU-T-P.800方法對本文提出的各種算法的主觀性能進行了評價.一個退化等級(DCR)[23]測試是在一個獨立的測試實驗室進行的。測試使用了32個偵聽器、42個條件和每個條件下192張選票。DCR測試的結果如圖6所示,誤差條表示95%的置信區間。分數與圖5所示的客觀結果一致。

技術分享圖片

圖6:3 GPP掩模水平的P.800 DCR MOS-LQS

  在8.85kbps時BBE-GAN與AMR-WB在統計上等價。在[19]中可以找到更多關於BBE-VQ和BBE-GMM的測試結果(其中它們分別對應於算法BBE3和BBE4)

5.4 Hb衰減與主觀品質

  我們應用了幾個濾波器對培-GaN,以調整Hb水平從5db到-10 dB相對於3 GPP WB RX掩膜。圖7顯示了這些條件的p.800DCR分數。註意,如圖5所示,該級別相對於下掩碼限制,因此-5db表示低於掩碼下限的響應,而5db表示掩碼的上限和下限之間的響應。

技術分享圖片

圖7:DCR MOS vs bandwidth

我們觀察到,如圖5所示的客觀度量結果所預測的那樣,培-GaN即使在更高的帶寬水平上也能保持性能。這也說明了在帶寬和質量上與WB編解碼器完全相當,並再次證實了客觀評價與主觀結果的一致性[19][20]。

六、結論

  本文提出了三代盲帶寬擴展技術,從VQ到GMM到GaN。我們發現,與經典的統計建模技術相比,像GaN這樣的機器學習技術在質量上有了顯著的提高。基於GaN的預測可以使其質量與WB編解碼器相類似,在客觀上和主觀上都達到了相當於Amr-WB 8.85kbps質量的性能。雖然培技術已經研究了很多年,但由於它不能提供與寬帶編解碼器類似的質量,所以還沒有得到廣泛的應用。我們已經表明,使用GaN等機器學習技術可以達到這一質量水平,這有可能加快電信網絡中廣泛采用培的速度。

七、參考文獻

[1] 3GPP TS 26.190, “Adaptive multi-rate wideband (AMR-WB) speech codec; Transcoding functions,” 3rd Generation Partnership Project, Sept. 2012, version 11.0.0.
[2] 3GPP TS 26.441, “Codec for Enhanced Voice Services (EVS); General overview,” 3rd Generation Partnership Project, Dec. 2015, version 13.0.0.
[3] H. Carl and U. Heute, “Bandwidth enhancement of narrowband speech signals,” in Proc. EUSIPCO, vol. 2, Edinburgh, UK, Sept. 1994, pp. 1178–1181.
[4] H. Pulakka and P. Alku, “Bandwidth extension of telephone speech using a neural network and a filter bank implementation for highband mel spectrum,” IEEE Trans. Audio, Speech, Language Process., vol. 19, no. 7, pp. 2170–2183, Sept. 2011.
[5] Y. Qian and P. Kabal, “Wideband speech recovery from narrowband speech using Classified codebook mapping”, Proceedings of the 9th Australian International Conference on Speech Science & Technology Melbourne, Dec. 2002.
[6] J. Epps and W. H. Holmes, “A new technique for wideband enhancement of coded narrowband speech,” in Proc. IEEE Speech Coding Workshop, 1999, pp. 174–176.
[7] K.-Y. Park and H. S. Kim, “Narrowband to wideband conversion of speech using GMM based transformation,” in Proc. ICASSP 2000, pp.1843–1846.
[8] P. Jax and P. Vary, “Artificial bandwidth extension of speech signals using MMSE estimation based on a Hidden Markov model,” in Proc. ICASSP 2003, pp. 680-683.
[9] Y. Wang, S. Zhao, W. Liu, M. Li, J. Kuang, “Speech bandwidth expansion based on Deep Neural Networks,” in Proc. INTERSPEECH 2015, pp. 2593-2597.
[10] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde- Farley, S. Ozair, A. Courville, and Y. Bengio. “Generative adversarial nets,” in Advances in Neural Information Processing Systems (NIPS), pages 2672–2680, 2014.
[11] P. Isola, J. Zhu, T. Zhou, A. A. Efros, “Image-to-Image Translation with Conditional Adversarial Networks,” arXiv:1611.07004.
[12] C. Ledig, et al. “Photo-Realistic Single Image Super- Resolution Using a Generative Adversarial Network,” arXiv:1609.04802.
[13] H. Zhang, et al. “StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks,” arXiv:1616.03242.
[14] 3GPP2 C.S0014-C v1.0 “Enhanced Variable Rate Codec, Speech Service Option 3, 68 and 70 for Wideband Spread Spectrum Digital Systems”.
[15] 3GPP TS 26.090, “Adaptive multi-rate (AMR) speech codec; Transcoding functions,” 3rd Generation Partnership Project, Sept. 2012, version 11.0.0.
[16] S. Villette, S. Li, P. Ramadas, D. Sinder, “eAMR: Wideband speech over legacy narrowband networks,” in Proc. ICASSP 2017, pp. 5110-5114.
[17] N. A. T. Corporation, “Multi-lingual speech database for telephonometry,” http://www.nttat. com/products e/speech, 1994.
[18] ITU-T P.501, “Test signals for use in telephonometry,” Int. Telecommunication. Union, Jan. 2012.
[19] S.Villette, S. Li, P. Ramadas, D. Sinder, “An Objective Evaluation Methodology for Blind Bandwidth Extension,” in Proc. INTERSPEECH 2016, pp 2548-2552.
[20] ITU-T P Suppl. 27, “Application of ITU-T P.863 and ITU-T P.863.1 for speech processed by blind bandwidth extension approaches,” Int. Telecomm. Union, Geneva, 2017.
[21] 3GPP TS 26.131, “Terminal acoustic characteristics for telephony; Requirements,” 3rd Generation Partnership Project, Dec. 2015, version 13.2.0.
[22] ITU-T Rec. P.863, “Perceptual Objective Listening Quality Assessment,” Int. Telecomm. Union, Geneva, 2011.
[23] ITU-T P.800, “Methods for subjective determination of transmission quality,” Int. Telecommunication Union, Aug. 1996.

Speech Bandwidth Extension Using Generative Adversarial Networks