1. 程式人生 > >基於深度卷積神經網路的單通道人聲與音樂的分離-論文翻譯

基於深度卷積神經網路的單通道人聲與音樂的分離-論文翻譯

主體內容:作為當前的一大熱門,語音識別在得到快速應用的同時,也要更適應不同場景的需求,特別是對於智慧手機而言,由於元器件的微型化導致對於語音處理方面的器件不可能很大,因此單通道上的語音分離技術就顯得極為重要,而語音分離正是語音識別的前端部分。而傳統的技術由於資料處理的限制,無法處理訊號中複雜了干擾,因此,近年來通過DNN和RNN的引用,使得分離效果達到了很大的提高。

  • 摘要   單通道語音分離的難點主要在與單通道。在這篇文章中,作者通過採用深度迴圈神經網路DRNN來對混合語音訊號進行有監督的分離,通過在末端採用非線性的模型來分離不同的源訊號。其中損失函式使用的是理想時頻掩蔽,來進行前後對比誤差。後續也可以採用不同的損失函式來增大訊號干擾比。相對於之前的方式,這種方式得到了很大的提高。其中GNSDR在2.302.48dB,GSIR在4.32

    5.42 dB(資料基於MIR-1K dataset.相關的資料集可以直接谷歌搜尋,如果找不到或者下載緩慢請郵件聯絡:[email protected]

  • 介紹   單通道語音分離的使用場景:自動語音識別(ASR)中的去燥;通過分離音樂中的人聲,可以提高和絃識別和音高判斷的準確性等(這個主要是識別樂器和判斷唱歌人的聲音品質–我的想法)。但是目前的方法還遠沒有達到人工識別的準確度,特別是對於單通道而言,差別就更大了。   本文主要關注於人聲和音樂的分離。對於這個目標,目前主流的處理方式[7,13,16,17]都基於一個假設:即人聲和音樂訊號的資料矩陣是低秩且稀疏的(低秩即當前矩陣能夠用更少的資料元來直接加權表示;稀疏即矩陣中存在更多的零值元素--參見文末)   相對於傳統的方式,深度學習的方式少了很多的限制,這種方式能夠通過非線性結構更好的擴充套件模型的表達能力,找到資料的最優化特徵表達。本文中,通過使用連線優化和軟掩蔽函式來搭建一個不同於以往的深度迴圈神經網路。而且,訓練目標可以靈活改變以優化網路的結構,具體流程如圖 1

    圖 1. 網路架構   本文組織如下,第二節主要討論傳統的工作方式,作為方法的引入。第三節主要介紹本文的方法:包括深度迴圈神經網路、深度網路的連線優化、軟時頻掩蔽函式和不同的目標函式。第四節主要是實驗的MIR-1K資料集的設定和分析結果。第五節為本文的總結。

  1. 與以前工作的聯絡   以前的工作主要基於一個假設,即音訊訊號的矩陣低秩和稀疏性,如[7, 13, 16, 17]。但是這個假設並不總是正確的。而且,在分離階段,這些模型都被看作是單層線性網路,通過線性轉換來預測乾淨的頻譜訊號,顯然這個缺陷很大。因此,為了優化這個模型的表達能力,我們採用了深度迴圈的網路,這個網路對資料的低秩和稀疏性都沒有強烈的要求。   通過使用深度架構,在資料的不同抽象等級上,深度學習的方式能夠找到那些隱藏的結構和特徵。近來,深度學習已經使用在相關的領域中,比如語音增強和理想二值掩蔽估計[1, 9–11, 15]。   在理想二值掩蔽估計中,研究人員採用了兩個階段的深度學習框架。第一階段,作者使用d個神經網路來分別預測輸出維數,d即目標的特徵維數。第二階段,通過一個分類器(單層感知機或者SVM),來改善第一階段的預測。但是這種網路有個缺陷,即如果FFT的取樣點是1024個,那麼資料的輸出將是513維,這個神經網路將會很大,而且,相鄰頻率之間將會有很多的冗餘。因此,本文采用了一個普通的框架,能夠用一個神經網路來預測所有的特徵維數。   另外研究員採用了深度卷積神經網路DCNN,來對音訊訊號進行去燥,但是這種模式是不適合這裡的,因為這隻能分離一個源訊號,而我們需要分離出所有的源訊號。而對於我們的方式,如果分離出多個訊號,我們可以通過訊號之間的不同資訊來優化掩蔽和,進而得到更好的區分性訓練。

  2. 本文的方法 3.1 深度迴圈神經網路DRNN   DRNN由兩部分組成,DNN和RNN,這兩種方式都彙集了各自的優勢。RNN通過記憶和遺忘,能更好的捕獲訊號的上下文資訊,從而得出訊號的關聯特徵;而DNN可以通過分層來獲取不同階段,不同時間片段的資訊。DRNN主要有圖2三種模式:最左邊的即單純的RNN,中間為DRNN,但是隻有一層有時序連線,右邊的是每一層都有時序連線。 DRNN架構:其中灰色、黑色、白色分別是輸出、隱藏層、輸入層   我們的DRNN方案如下:對於一個L層的DRNN,在第l層是迴圈層,其中的時間啟用函式如下: enter description here   它的輸出定義如下: enter description here   其中Xt是時間t的輸入,φl是變數的非線性函式,Wl是第l層的權重矩陣,Ul是第l層的迴圈連線權重矩陣,輸出為線性層。   堆疊RNN有多層轉換函式,定義如下: enter description here   其中:hl是時間t,第l層的隱藏狀態,U和W是前一時刻t-1、前一層l-1的隱藏啟用矩陣。當l=1時,ht = Xt。對於啟用函式φ,我們發現實用如下函式f(x) = max(0, x) 2,要比sigmoid和tanh函式要好。對於DNN,時序權重矩陣U是zero矩陣。 3.2 模型結構   網路的輸入為混合訊號的幅度譜,通過網路將t時刻的特徵進行匯聚,然後輸出兩個不同的源訊號,通過兩個不同源訊號的各自前後對比,來更新網路。   我們的目標是分離出所有的源訊號,而不是隻得到一種訊號,所以,我們使用了文獻9的方法,模擬所有的源訊號,具體的架構圖如圖 3。 圖 3. 神經網路架構   損失函式:我們使用的是時頻掩蔽,即二值時頻掩蔽或者軟時頻掩蔽[7,9]。時頻掩蔽函式能夠強制約束預測訊號的資料和等於原始訊號。   時頻掩蔽函式的定義如下: enter description here   其中y是分離的兩個結果訊號,f代表不同的頻率   分別得到時頻掩蔽的值,乘以混合訊號就能夠得到各自的源訊號: enter description here   與以往的不同,我們這裡的時頻掩蔽函式不是作為訓練結果的評估,而是作為模型的連線中介,即時頻掩蔽函式也是一個層,計算公如下: enter description here   其中圓點為矩陣乘法,時域訊號的重構使用ISTFT。 3.3 訓練目標   我們使用了最小均方誤差和常規KL散度來進行度量。公式如下: enter description here   對於一個混合訊號,在每一幀上,都會只有一個源訊號佔多數,即訊號干擾比,所以,使用上述函式,更能夠使得預測訊號近似於原始訊號,同時區別於另外一個訊號。 enter description here   其中λ是訓練時的效能選擇變數。

  3. 進行實驗 4.1 實驗設定   資料集使用的是MIR-1K dataset 6。資料來源於110箇中國人的卡拉ok歌曲(分男女),取樣率為16khz,時間4-13秒,聲音的各種屬性資訊都進行過人工標註。其中只包含一個唱歌聲音和一個背景音,我們的實驗也是基於此。   採用[13,17]的評估框架,文中將資料集分為訓練集和資料集,通過聲道分別提取歌聲和背景音樂,通過0信噪比合成混合訊號用於分離。   實驗結果的評估使用了訊號干擾比SIR、訊號構建比SAR、訊號失真SDR比用於度量。標準SDR如下: enter description here   訓練框架上,為了增加資料的多樣性,我們每次混合訊號時都會對聲音訊號進行變換   輸入特徵採用的是1024取樣點的STFT,重疊率為50%,基於先前的經驗,對數梅爾譜和對數功率譜效果會更差一下。 4.2 實驗結果   主要從五個方面來對神經網路的效果進行對比:輸入資料的大小、迴圈變換步數、輸出格式、DRNN架構以及訓練目標函式的選取   實驗具體配置:3個隱藏層,每個1000個單元,採用均方誤差度量,10000個迴圈轉換步數,輸入視窗為3幀,框架為DRNN-K,即第k個層迴圈層,評估標準為GNSDR. * 第一步:調整輸入視窗大小,分別取1、3、5幀,比較結果如表 1。結果顯示:1幀更好,之後的比較則以1幀為基礎 * 第二步:迴圈轉換步數:50k、25k、10k、0;通過對比,發現有迴圈步驟比沒有迴圈步驟要好很多,但是,提高迴圈步數卻並沒有更大的提高,所以,設定步數為10k * 第三步:輸出格式:單源、雙源無掩蔽、雙源有掩蔽;雙源有掩蔽更好一些。 * 第四步:SRNN架構和評估函式:分別如表4。結果顯示:在第2個隱藏層使用迴圈連線的DRNN效果最好(這裡的架構可以更多樣式) * 第五步:區分度訓練。表5,區分度訓練提高了GSIR,但是降低了GSAR,GNSDR有略微的提高。 最後:作者與傳統的方式做了比較,相對於RNMF13,這種方式獲得了2.302.48 dB GNSDR、4.325.42dB GSIR以及同樣的GSAR。一個分離流程樣例如圖 4。 enter description here enter description here

  4. 總結展望   本文主要探索在單通道上的DRNN實現。特別是,比較了相對於傳統的方式、單純DNN的改進提高,採用連線優化和掩蔽函式來提高效果。最終模型的效果達到了很好地水平:2.302.48 dB GNSDR、4.325.42dB GSIR以及同樣的GSAR。另外,模型還能使用在其他的應用場景,比如主旋律的提取。

  5. 相關關鍵詞   低秩:一個m*n的矩陣,如果秩很低(秩r遠小於m,n),則它可以拆成一個m*r矩陣和一個r*n矩陣之積(類似於SVD分解)。後面這兩個矩陣所佔用的儲存空間比原來的m*n矩陣小得多。即不同的聲源都可以由較少的幾組基因來表示,找到這幾組基因就行了,特有的特徵。

  6. 參考文獻 1 N. Boulanger-Lewandowski, G. Mysore, and M. Hoffman. Exploiting long-term temporal dependencies in NMF using recurrent neural networks with application to source separation. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2014. 2 X. Glorot, A. Bordes, and Y. Bengio. Deep sparse rectifier neural networks. In JMLR W&CP: Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics (AISTATS 2011), 2011. 3 M. Hermans and B. Schrauwen. Training and analysing deep recurrent neural networks. In Advances in Neural Information Processing Systems, pages 190–198, 2013. 4 G. Hinton, L. Deng, D. Yu, G. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. Sainath, and B. Kingsbury. Deep neural networks for acoustic modeling in speech recognition. IEEE Signal Processing Magazine, 29:82–97, Nov. 2012. 5 G. Hinton and R. Salakhutdinov. Reducing the dimensionality of data with neural networks. Science, 313(5786):504 – 507, 2006. 6 C.-L. Hsu and J.-S.R. Jang. On the improvement of singing voice separation for monaural recordings using the MIR-1K dataset. IEEE Transactions on Audio, Speech, and Language Processing, 18(2):310 –319, Feb. 2010. 7 P.-S. Huang, S. D. Chen, P. Smaragdis, and M. Hasegawa- Johnson. Singing-voice separation from monaural recordings using robust principal component analysis. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 57–60, 2012. 8 P.-S. Huang, X. He, J. Gao, L. Deng, A. Acero, and L. Heck. Learning deep structured semantic models for web search using clickthrough data. In ACM International Conference on Information and Knowledge Management (CIKM), 2013. 9 P.-S. Huang, M. Kim, M. Hasegawa-Johnson, and P. Smaragdis. Deep learning for monaural speech separation. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2014. 10 A. L. Maas, Q. V Le, T. M O’Neil, O. Vinyals, P. Nguyen, and A. Y. Ng. Recurrent neural networks for noise reduction in robust ASR. In INTERSPEECH, 2012. 11 A. Narayanan and D.Wang. Ideal ratio mask estimation using deep neural networks for robust speech recognition. In Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing. IEEE, 2013. 12 R. Pascanu, C. Gulcehre, K. Cho, and Y. Bengio. How to construct deep recurrent neural networks. In International Conference on Learning Representations, 2014. 13 P. Sprechmann, A. Bronstein, and G. Sapiro. Real-time online singing voice separation from monaural recordings using robust low-rank modeling. In Proceedings of the 13th International Society for Music Information Retrieval Conference,

14 E. Vincent, R. Gribonval, and C. Fevotte. Performance measurement in blind audio source separation. Audio, Speech, and Language Processing, IEEE Transactions on, 14(4):1462 –1469, July 2006. [15] Y. Wang and D. Wang. Towards scaling up classificationbased speech separation. IEEE Transactions on Audio, Speech, and Language Processing, 21(7):1381–1390, 2013. [16] Y.-H. Yang. On sparse and low-rank matrix decomposition for singing voice separation. In ACM Multimedia, 2012. [17] Y.-H. Yang. Low-rank representation of both singing voice and music accompaniment via learned dictionaries. In Proceedings of the 14th International Society for Music Information Retrieval Conference, November 4-8 2013.