1. 程式人生 > >基於原始波形的端到端DNN中避免說話人過擬合的文字無關說話人驗證

基於原始波形的端到端DNN中避免說話人過擬合的文字無關說話人驗證

Avoiding Speaker Overfitting in End-to-End DNNs using Raw Waveform for Text-Independent Speaker Verification

 

基於原始波形的端到端DNN中避免說話人過擬合的文字無關說話人驗證

Avoiding Speaker Overfitting in End-to-End DNNs using Raw Waveform for Text-Independent Speaker Verification

摘要

 

在本研究中,我們提出一種新的原始波形端到端DNN,用於與文字無關的說話人驗證。對於說話人識別,許多研究都採用說話人嵌入方案,將深層神經網路訓練為說話人識別器,提取說話人特徵。然而,該方案具有固有的侷限性,其中訓練成只對已知說話人進行分類的講話人特徵需要表示未知說話人的想法。由於這種失配,說話人稱謂系統傾向於從已知說話人那裡向看不見的話語推廣,但是適合於已知說話人。這種現象被稱為揚聲器過擬合。本文從減少說話人過擬合的角度出發,研究了正則化技術、多步訓練方案和與匯聚層的剩餘連線,這導致了顯著的效能改進。使用VoxCeleb資料集對來自各種非控制環境的1200多名揚聲器進行技術效果評估。據我們所知,我們是第一個驗證端到端DNN是否成功直接使用文字無關場景中的原始波形。其等錯誤率為7.4%,低於i-向量/概率線性判別不定性分析和使用譜圖的端到端DNN。

 

關鍵詞:揚聲器過擬合,揚聲器嵌入,原始波形,端到端,說話人確認

 

 

 

1、引言

 

隨著近年來深層學習的成功,用深層神經網路(DNN)代替單個子任務的研究在各種音訊領域[1,2,3,4,5,6]中高度流行。這種趨勢也適用於說話人確認。說話人驗證的三個主要子任務(即原始波形預處理、說話人特徵提取和後端分類)分別被基於DNN的方法取代。我們使用一種揚聲器嵌入方案,它訓練DNN作為揚聲器識別符號,並使用選擇的隱藏層作為揚聲器特徵[7,8]。對原始波形處理和後端分類也進行了研究[3, 6, 9 ]。個體DNNs整合為端到端DNNs〔1, 3, 10,11, 12, 13〕。

 

雖然基於DNN的方法已經成功地用於說話人驗證,但是說話人和音訊域之間存在差異。在說話人嵌入方案中,訓練任務(說話人識別)和實際任務(說話人驗證)之間存在任務不匹配。因為說話人識別只對預定義的說話人進行,所以在說話人驗證中,說話人識別符不能推廣到未知說話人。在本研究中,我們討論了這種現象,我們稱之為說話人過擬合,其中說話人嵌入方案的說話人特徵很好地代表了來自已知說話人的看不見的話語,但是卻對已知說話人過擬合。揚聲器過擬合的一個例子如圖1所示,並在第3節中進一步說明。

 

我們一直在構建原始波形DNN,並研究各種技術來減輕揚聲器過擬合。

 

正則化方法〔14, 15, 16〕及近期進展

 

學習技巧〔17, 18, 19,20, 21〕多步訓練方案〔10〕

 

池化的重要性,這是第6節中描述的改進效能的關鍵之一。

 

 

 

採用多種技術,我們提出了一個原始波形端到端系統,其效能優於i-向量/概率線性判別分析(PLDA)系統和頻譜端到端系統。

 

本文的其餘部分整理如下。第2部分論述了前人的研究成果。第3節分析說話人過度擬合。在第4節中,提供了系統描述。在第5節中介紹了減輕說話人過度擬合的關鍵方法。SEC - 6描述了實驗和結果。本文在第7節結束

2、相關作品

 

以往對DNN中原始波形處理的研究、揚聲器層疊方案和端到端DNN為本研究提供了三個基礎。許多研究已經進行直接處理原始波形與DNNS〔1, 3, 4,6, 22〕。其中,Cel-LoBr等的曲折褶皺感受野。[22 ]在這裡使用。

 

本文還使用了一種將DNN訓練為說話人識別符的說話人嵌入方案[7]。在該方案中,選擇隱藏層的線性啟用作為說話人特徵。自提出以來,說話人嵌入方案在基於DNN的說話人特徵提取中得到了廣泛的應用[8,12,23,24]。

 

端到端DNNs正在積極地研究許多工[11, 25, 26 ]。對於說話人驗證,從Heigold等人的工作開始,已經提出了許多端到端DNN[11,12,13]。本文使用輸入原始波形並輸出驗證結果的端到端DNN[6]。

 

 

 

3、揚聲器過擬合

 

在說話人驗證中,廣泛使用從說話人識別符號隱藏層提取說話人特徵的說話人嵌入方案。在該方案中,訓練任務、說話人識別和實際任務(說話人驗證)之間存在任務不匹配。然而,許多成功的使用說話人嵌入方案[7,8,12,23]的系統表明它在任務不匹配條件下工作。

 

說話人特徵應該能夠表示未知說話人的身份,以便進行說話人驗證。然而,在說話人識別中,所有的說話人都是預先定義的,不存在未知的說話人。因此,揚聲器嵌入方案中的揚聲器特徵可以針對已知的揚聲器進行重灌,這很可能引起效能下降。

 

我們把說話人特徵只能代表已知說話人的情況稱為說話人過擬合。我們認為,這是揚聲器嵌入方案中效能退化的主要原因之一。

 

圖1描繪了揭示這種現象的實驗結果。這裡,資料集被分成三個子集:訓練集,包括已知說話者的話語;驗證集,包括已知說話者的不可見話語;以及評估,包括未知說話者的不可見話語。火車組用於訓練說話人識別符號。該模型在兩點上進行評價。首先,使用訓練集和驗證集中的說話人識別丟失來評估已知說話人未看到話語的概括(圖1(a))。其次,使用驗證和評估集的等錯誤率(EER)評估未知說話人的泛化效能和任務失配條件(圖1(b))。結果表明,由於驗證集的EER隨著驗證損失的減小而減小,因此任務失配條件的推廣是成功的。然而,對於未知說話人的泛化並不成功,因為EER在驗證和評估上的差距擴大了。因此,即使在端到端DNN中不存在任務不匹配,因為訓練任務也是說話人驗證,但是說話人過擬合也可能發生。

4、系統描述

 

在實驗中,我們使用原始波形作為輸入來分析說話人過度擬合。這樣,說話人驗證任務完全基於可訓練的引數而不是人為驅動的技術來執行。這允許我們更仔細地觀察減輕說話人過擬合的技術的有效性。

 

 

 

4.1說話人嵌入模型

 

兩個說話人嵌入模型,一個卷積神經網路(CNN)和一個CNN-長短期記憶(LSTM)模型,用於我們的系統(見圖2)。原始波形CNN(RWCNN)模型利用卷積層和匯聚層直接從原始波形中嵌入說話人特徵。RWCNN-LSTM模型使用卷積層和匯聚層從輸入的原始波形中提取特徵圖。然後,利用廣泛使用的用於處理序列資料的遞迴層[27,28]LSTM層進行序列建模並嵌入說話人特徵。兩種模型都從原始波形中提取說話人特徵。然而,在RWCNN-LSTM模型中,時變序列建模由LSTM層進行,而在RWCNN模型中,池層完全進行時變序列建模。RWCNN-LSTM模型是RWCNN模型的擴充套件(詳見第5.2節)。

4.2端到端模型

 

原始波形端到端(RWE2E)模型是RWCNN-LSTM架構的擴充套件版本,使用b-向量方案[9]。該模型以兩個原始波形為輸入,利用RWCNN-LSTM模型的兩個說話人特徵,通過逐元運算合成b向量。元素操作期望表示兩個說話人特徵之間的關係。通過幾個完全連線的層來傳播b向量,以對兩個語音是否來自同一個說話者進行分類。RWE2E模型的總體結構如圖3所示。

 

 

 

5、減輕說話人過度擬合

 

5.1.正規化

 

各種正則化技術(例如,L2正則化和批量正規化)是DNN最近成功的關鍵[16,14,29]。然而,我們認為規則化技術在減輕說話人過擬合方面的重要性更大。在任務不匹配條件下,我們假設規則化訓練任務可以提高實際任務的泛化效能。因此,期望通過規範說話人識別符號來減輕說話人過度擬合。在說話者識別符號訓練期間,通過簡單的L2規則化來提高說話者驗證效能也支援這種說法。

 

 

 

5.2.多階段訓練

 

深度網路常常利用預訓練方案來證明改進的泛化效能。一個這樣的方案是由HEO等人介紹的。〔10〕。該方案將DNN訓練到多個階段,每個階段使用預處理DNN的引數作為初始化。只有擴充套件層才被初始化。RWCNN-LSTM模型中LSTM層之前的層使用RWCNN模型的權重進行初始化。RWE2E模型以相同的方式使用RWCNN-LSTM模型的權值初始化。這一步一步的訓練方案稱為多步訓練。在HEO等人的工作中,多步訓練用於端到端DNS的快速收斂。在本文中,多步訓練有效地減輕說話人過度擬合。第6.3節中所示的經驗結果支援多步訓練是減輕說話人過擬合的關鍵。

5.3.剩餘連線和池合併層

 

剩餘連線[17,18]是最近提出的用於訓練非常深層體系結構的技術,在許多先前的研究中顯示了更好的泛化效能。有了殘餘連線,隱藏層可以學習參考輸入的殘差函式。典型的剩餘塊可以寫成等式1,其中x和y分別是塊的輸入和輸出。W是塊內隱藏層的權重,F(x,w)是殘差函式。

在具有剩餘連線的DNN中,通常用卷積層替換匯聚層。Springberg等人的工作[30]等研究表明,用大步長的卷積層替換匯聚層可以提高DNN的效能。然而,在減輕說話人過擬合方面,池層的使用被認為是關鍵之一。

 

在發生說話人過擬合的任務不匹配情況下,由於匯聚層僅用固定權重減少資訊,而卷積層使用訓練資料訓練,因此匯聚層在泛化上更有效。隨著訓練的繼續,卷積層被訓練以更好地識別給定的說話者,因此可能被過度訓練。

 

相反,彙集層可以獨立於火車集來減少特徵地圖大小。此外,在符號處理中,最大池可以是用於進行更平滑的下采樣的上包絡函式,期望其顯示更好的泛化效能[31]。匯聚層還可以通過顯著減少引數的數量來減輕揚聲器過擬合[29]。

 

 

 

6、實驗

 

1.1.資料集

 

我們使用VoxErravb(13)資料集進行說話人確認實驗。VoxCeleb是用於說話人識別的公共資料集,包括1211個說話人(320小時)作為訓練集,40個說話人(10小時)作為評價集。因此,在一個與文字無關的場景中,對原始波形的端到端DNN進行了探索。資料集分割槽和試用組合與Voxceleb的指導方針相同,這使得我們的系統性能直接與[13]相當,如表3所示。

 

 

 

2.2.實驗設定

 

所有系統使用原始波形的長度為59049(=310)(3.69秒)作為輸入。預加重嵌入,使用具有一個長度為2的核的卷積層和跨步卷積層實現預加重。預加重嵌入的兩個引數初始化為-0.97和1,跨卷積層的核長度和步長均為3。

 

採用隨機梯度下降作為優化器,學習速率為10_3,動量為0.9。採用10×4的L2正則化。在全域性平均匯聚層之後,RWCNN模型只使用了50%的輟學率。在每個模型的每一層都應用了批處理歸一化。RWCNN和RWCNN-LSTM模型採用餘弦相似性評分作為後端分類器。

RWCNN模型由九個卷積塊和兩個完全連線層組成。RWCNN模型採用“原始卷積塊”作為卷積塊,殘差RWCNN模型採用“殘差卷積塊”。在RWCNN模型上,對各種技術的有效性進行了比較,包括L2規則化和殘差連線。在RWCNN-LSTM模型中,使用一個具有512個單元的LSTM層,接著使用具有1024個節點的兩個全連線層和一個輸出層。採用兩種初始化方法對RWCNN-LSTM模型進行訓練,比較多步訓練的效果。一個使用RWCNN的引數,另一個使用隨機初始化。

 

在RWE2E模型中,利用兩個1024維說話人特徵的逐元素加、減和多重複制,組成3072維的b向量。五個完全連線的隱藏層與1024個節點被使用。輸出層有兩個節點,每個節點指示兩個話語是否來自同一個說話者。使用兩種初始化方法訓練RWE2E模型:一種使用RWCNN-LSTM的引數,另一種使用隨機初始化。

 

 

 

3.3結果

 

 

 

從說話人過擬合的角度描述了正則化技術、多步訓練和剩餘連線與合併的有效性。RWE2E-殘差模型,包括用於減輕說話人過擬合的所有技術,與其他最新的系統進行了比較。在表格中,“SID ACC”表示驗證集的說話人識別的準確性,“SV EER”表示說話人驗證的EER。當說話人驗證的效能得到改進時,特別是當在驗證集上沒有相應的說話人識別效能改進時,一種技術被判斷為能有效地減輕說話人過擬合。

 

 

 

L2正則化(即權重衰減)〔16〕有助於減輕說話人過度擬合。通過簡單地對所有隱藏層採用權重衰減,獲得了20%的相對效能改進。結果如表1所示。

 

多階段訓練的有效性見表2.在RWCNN-LSTM模型中,多步訓練降低了驗證集上的說話人識別精度,提高了說話人驗證效能。結果表明,在任務失配條件下,多步訓練有助於減輕說話人過擬合。多步訓練也減輕了說話人過度擬合的端到端DNNs。

 

剩餘連線和池化層的實驗結果如表1和表2所示。表1顯示了AP無連線池的剩餘連線減少了效能。與匯聚層的殘餘連線成功減輕了揚聲器過擬合,支援我們5.3節的假設。此外,還測試了“Inception-res-v2模型”,該模型顯示了影象識別中的最新效能[21],但是在原始波形模型中似乎沒有效果。

 

本文的系統性能直接可與[13]中的結果相比較,因為資料集的配置和試驗是相同的。結果在表3中進行了比較,表明我們提出的RWE2E模型具有L2正則化、與池的剩餘連線以及多步訓練,其效能優於i-./PLDA系統和以頻譜圖為輸入的端到端系統。

7、結論與未來工作

 

在本文中,我們解釋了一個被定義為說話人過擬合的現象,其中從嵌入模型中提取的說話人特徵被過擬合到訓練集中的說話人。剩餘連線的成功採用是通過使用池層,在剩餘網路中經常替換池層。在減輕說話人過擬合方面,還研究了其他技術,從而顯著提高了效能。此外,首次驗證了原始波形端到端DNN在文字無關場景中的有效性。此外,所提出的原始波形端到端DNN比使用VoxCeleb資料集的基於i-./PLDA和基於頻譜的端到端DNN具有更好的效能。

 

然而,諸如改變目標函式或消除說話人過擬合的新方案等直接的基本解決方案尚未被發現。我們未來的工作將致力於尋找這些解決方案。