1. 程式人生 > >基於條件生成對抗網路的I-向量變換在短說話人驗證中的應用

基於條件生成對抗網路的I-向量變換在短說話人驗證中的應用

I-vector Transformation Using Conditional Generative Adversarial Networks for Short Utterance Speaker Verification

基於條件生成對抗網路的I-向量變換在短說話人驗證中的應用

用於短話語說話人驗證的條件生成對抗網路的I向量變換

 

摘要

 

基於I向量的文字無關說話人驗證(SV)系統在短髮音時往往效能較差,因為短髮音中的偏置語音分佈使得提取的i向量不可靠。本文提出了一種使用生成對抗網路(GAN)的i向量補償方法,其生成網路被訓練成從短髮音i向量生成補償i向量,其解犯罪網路被訓練成確定i向量是否由發生器或從長話語中提取的發生器。此外,我們還給GAN分配了兩個學習任務來穩定它的訓練,並使生成的i向量更具有說話者特異性。在NIST SRE 2008“10秒-10秒”條件下進行的說話人驗證實驗表明,應用該方法後,等差錯率比傳統的i向量和PLDA系統降低了11.3%。

 

索引術語:說話人驗證,簡短髮音,i向量轉換,生成對抗網路,多工學習

 

 

 

1、引言

 

近年來,與文字無關的說話人確認技術有了很大的改進。說話人驗證系統從給定的話語中提取說話人特徵資訊,然後驗證說話人ID。[2, 3, 4 ]用作驗證者。雖然這個系統在長髮音時表現良好,但是當只有短髮音可用時,效能會急劇下降[5]。造成這一問題的主要原因是短髮音的語音分佈有偏差,這使得估計的說話人特徵在統計上變得不可靠。然而,在許多真實場景中,使用者可能不願意提供幾分鐘長的發音。

在短語音說話人驗證中,人們已經做出了很大的努力來彌補效能下降。在[6][7][8]中,對短髮音的i-向量的方差進行了修正並用於i-向量歸一化。〔9〕和〔10〕提出了在PLDA模型中利用持續時間資訊的方法。〔11〕利用PHI資訊重建可靠的I向量。

 

在過去的幾年中,深度學習在說話人驗證領域已經非常流行。許多方法使用深度網路來處理I-向量。例如,[12]提出了一種變分自編碼器作為基於i向量的說話人識別的後端,[13]使用去噪自編碼器來補償有噪聲的語音。然而,訓練深層神經網路需要大量的資料[14],而用於說話人驗證的資料量通常非常小。這是構建使用深度學習的端到端說話人驗證系統的最大障礙之一。因此,我們可以通過深度學習來改進I向量和PLDA框架。最近,一種稱為生成對抗網路(GAN)[15]的新結構變得非常流行。GAN可以通過與兩個網路玩零和博弈來學習從隨機噪聲到目標域的對映,生成器tt和鑑別器D:tt試圖生成“真實”樣本,它可以欺騙D,而D試圖確定給定樣本是來自真實資料分佈還是來自tt。

 

本文提出了一種利用條件GAN對基於i向量的短說話人驗證進行改進的i向量變換方法。該方法使用GAN估計生成模型,該模型能夠從不可靠的i向量生成可靠的i向量,其中假設來自長髮音的i向量是可靠的,而來自短髮音的i向量是不可靠的。特別地,我們使用GAN的條件版本,其中生成器和鑑別器都具有來自短髮音的i向量作為條件輸入。生成器tt試圖從不可靠的i向量中生成可靠的i向量,而鑑別器D試圖確定給定的可靠i向量是從長髮音中提取的真實i向量還是由tt生成的偽i向量。為了穩定GAN訓練,在訓練階段使用生成的i向量和目標可靠i向量之間的數值差(餘弦距離)。此外,受[13]的啟發,我們嘗試通過增加額外的說話人標籤預測任務來提高生成的i向量的說話人辨別能力。該多工學習框架能夠更好地指導GaN的訓練。在測試階段,使用tt從短髮音中提取出可靠的i向量,然後將生成的i向量用於PLDA評分。

 

本文的結構如下:第2節簡要介紹了我們的方法的相關工作。第3節提出了用於I向量恢復的基於GaN的結構。第4節描述了兩個NIST SRE任務中說話人確認的實驗評估。第5部分對本文進行了總結。

2.相關作品

2.1.I-vector和PLDA

I-vector和PLDA已被廣泛用於最先進的系統,用於與文字無關的說話人驗證。 i-向量方法旨在基於因子分析模型從給定的話語中提取固定的和低維度的表示。如[1]中所述,將話語投影到包含通道和說話者相關資訊的低維總可變性空間上,作為i向量。給定一個話語,依賴於頻道和說話者的GMM超向量M可以寫成:

M = m + T w,(1)

其中m是取自通用背景模型(UBM)的揚聲器和通道無關的超向量,T是

 總可變性矩陣(TVM)和w是i向量。

概率線性判別分析(PLDA)[4]作為i向量的生成模型應用,可寫如下,

w =w¯+ Ux + V y + g(2)

其中w是i向量的全域性均值,U和V分別是本徵語音和本徵通道矩陣,x和y是說話者和通道因子,g是殘餘噪聲。

給定兩個i向量,通過PLDA模型計算相同說話者和不同說話者假設的對數似然比作為其相似性的度量。

 

2.2。一般的對抗網路家庭

生成對抗網路(GAN)被引入通過對抗過程估計生成模型,其中生成器G嘗試使用隨機噪聲向量z生成樣本,並且鑑別器D嘗試計算給定樣本來自實際資料的概率y G的訓練相當於優化下面的最小 - 最大函式,

對D進行優化,以確定給定的可靠i向量是假(由tt生成)還是真(從長髮音提取)。在測試中,tt用作從測試集中的短髮音中提取的i向量的變換函式。

 

為了防止GAN訓練中出現不穩定的飲食和模型崩潰等問題,我們採用了一種特殊的GAN結構Wasserstein GAN(WGAN)[19]。將x表示為不可靠的i向量,y表示為可靠的i向量,z表示為隨機噪聲,最小最大函式表示為:

對於GAN的訓練資料,需要從短語音和長語音中提取i向量。雖然訓練資料集中只有長髮音,但我們通過將長髮音分割成短髮音來獲得短髮音。I向量從長和短的話語中提取相同的提取器。通過這個過程,我們可以從同一個說話人和會話中獲得一個由兩個i向量組成的i向量對,一個來自短髮音,另一個來自長髮音。在下一秒中使用I向量對。

 

 

 

3.2.面向說話人確認的目標函式

 

為了更好地指導GAN的訓練,並充分利用訓練資料,在GAN框架中增加了兩個額外的學習任務。

SRE 2008[20]在由NIST[21]提供的DETware計算的軌跡上的等錯誤率(EER)和最小檢測成本函式(minDCF)。

 

我們在實驗中比較了我們的方法,稱為“D-WCGAN”(區分WCGAN)與不應用任何短髮聲補償技術的基線i-向量和PLDA系統。為了證明GAN對效能改進的貢獻,我們製作了一個額外的系統,該系統與提出的GAN具有幾乎相同的結構,但不包含鑑別器,也不使用GAN相關的目標函式。在下面的部分中,這個系統被命名為“單G”。

4.1.1. Baseline system

基線系統是在第2節中所示的I向量和PLDA系統。在該系統中,首先將輸入的語音段轉換為從長20ms和10ms移位的幀中提取的60維Mel-頻率倒譜系數(20維特徵後跟它們的一階和二階導數)特徵向量的時間序列。然後,使用高斯混合模型,以2048種混合成分作為通用背景模型(UBM)和總變差矩陣(TVM),從聲學特徵中提取出400維的i向量。在被髮送到PLDA模型之前,長度歸一化作為預處理步驟被應用於i-向量。KALDI語音識別工具包(22)用於執行這些步驟。

 

UBM、TVM和PLDA模型都是性別相關的,並且用SRE08的開發資料訓練,其中包含NIST SRE2004-2006資料、Switchboard和Fisher語料庫。這個資料集作為一個整體,共有34925個來自7275個男性揚聲器。

4.1.2建議的GaN

GAN的訓練資料是上述SRE08發展集和SRE08訓練集的一個子集,總共包含1986名男性發言者。為了製作第4節提到的短髮音對和長髮音對,我們使用了一個20s長和10s平移的滑動雙下角來將一個長髮音切成短髮音。用於提取I-向量的UBM、TVM與基線系統中使用的UVM、TVM相同。最後,我們得到331675個I向量對GaN訓練。提出的GAN中隱藏層的啟用函式(如果不指定)是洩漏ReLU[23],其α值設定為0.3。如上所述,TT生成I向量,TTSUP預測其說話人標籤。tt的輸入層包含450個節點,用於接收50維的400維i向量和隨機噪聲向量,然後是三個隱藏層,包含512個節點。TT的輸出層有400個節點,儲存生成的I向量。TT輸出層的啟用函式為TANH。TTSUP有一個隱藏層,包含1986個節點。ttsup的輸出層也有1986個節點,每個節點的啟用函式為軟極大值,隨機噪聲向量取自高斯分佈,均值為零,標準偏差為0.5。D有四個隱藏層,它的輸入層有800個節點,接受兩個級聯的i向量。D的輸出層只有一個具有線性啟用函式的節點。當我們使用WGAN結構時,重量裁剪是在D上進行的,其中裁剪範圍是0.01到0.01。

 

我們使用TunsFraceCub庫(24)來實現我們的神經網路。利用RMSPROP對網路進行優化

 

〔25〕用64批小批量樣品。學習率設為0.0001。對於G訓練,我們將A、B、C的值分別設為4, 7, 1。

 

在測試階段,對於“短2-10秒”的情況,從測試集中的發音中提取的i向量被tt變換,然後對從註冊集提取的i向量和變換後的i向量進行PLDA評分。最後,在基線系統與所提出的方法之間進行分數融合。對於“10sec-10sec”的情況,幾乎所有步驟都與前一個步驟相同,但是來自注冊集和測試集的i-向量都由tt.I向量提取器和PLDA模型與基線系統中使用的相同。

4.2。結果

 

表1顯示了NIST SRE 2008的“短2-10SEC”條件的EER。該方法的平均EER為5.99%,優於基線i向量PLDA系統的6.50%。平均EER降低7.85%。TAB—BLE 2顯示了NIST SRE 2008的“10SEC-10SEC”條件下的EER。本方法的平均EER為9.43%,優於基線的10.63%,平均EER降低11.29%。儘管我們的方法本身沒有超過基線系統,但是當用基線方法進行分數融合時,它獲得了更好的結果。我們發現,當基線系統的評分權重比為7:3時,效果最好。表3顯示了“短路2-10SEC”和“10SEC-10SEC”條件6的MIDCF。本方法的minDCF在“短2-10秒”內比基線差1.33%,而在“10秒-10秒”內比基線差5.61%。這些結果表明,我們提出的方法可以使I向量在大多數情況下更可靠。然而,在現階段,GAN的訓練資料量不夠,甚至小於PLDA的訓練資料量。如果我們有更多的GAN訓練資料,所提出方法的效能可能變得更好。