1. 程式人生 > >用於重尾PLDA的快變分貝葉斯應用於i-vector和x-vector

用於重尾PLDA的快變分貝葉斯應用於i-vector和x-vector

Fast variational Bayes for heavy-tailed PLDA applied to i-vectors and x-vectors

最小發散增強導致更快的收斂和良好校準的最終結果。再次,pos-

三次精度B¯i是可相互對角化的,每次迭代只需要對B0進行單個本徵分析。

的培訓和評分演算法,該模型的開放原始碼實現,可在github.com/bsxfan/meta-embeddings/tree/主/程式碼/尼科/ MATLAB /清潔/ VB4HTPLDA。

3.Experiments

3.1.HT-PLDA用於i載體

3.1.1實驗設定

我們繼續我們的實驗,在[1]中開始使用i-vector的HT-PLDA建模。在這裡,我們保持相同的實驗設定,除了下面提到的一些細微差別。

如前所述,光譜特徵是60維MFCC,在3秒滑動視窗上應用短期均值和方差歸一化。 UBM是性別獨立的,有2048個對角線元件。 i-vector是維度D = 600.我們對這些i-vector應用全域性均值歸一化(因為我們的HT-PLDA模型沒有平均引數)。將G-PLDA後端應用於具有和不具有長度歸一化(LN)的i-vector。將所有HT-PLDA後端應用於不含LN的i載體。

UBM,i-vector提取器以及高斯和重尾PLDA均在PRISM資料集[14]上進行訓練,其中包含Fisher部分1和2,交換機2,3和交換機手機階段。因此,NIST SRE 2004-2008(稱為MIXER系列)被新增到培訓中。總共,該套裝包含來自16241個說話人的大約100K話語。我們使用了8,000個隨機選擇的檔案進行UBM訓練,並使用全套訓練i-vector提取器。在訓練PLDA模型時,我們過濾掉所有發音少於6個的發聲器,結果只有3429個說話人和73306個訓練話語。

NIST SRE'10,條件5,由英文電話資料組成[15]。此外,我們在NIST SRE'16評估集(男性和女性)上報告結果。以及兩種語言子集,廣東話和他加祿語。作為評估指標,我們使用NIST SRE'16 [16](CPrm)中兩個感興趣的操作點的相等錯誤率(EER,以%為單位)以及平均最小檢測成本函式。

3.1.2實驗和結果

G-PLDA基線的前兩行,有和沒有長度歸一化。 G-PLDA做出的高斯假設。因此,當不應用長度歸一化時,G-PLDA的效能更差。

第三和第四行重複我們的實驗[1]。第3行顯示HT-PLDA,其中ν= 2且F,W僅從G-PLDA初始化。第4行在使用二元交叉熵(BXE)進行額外的判別訓練後顯示相同的模型。在這兩種情況下都沒有應用長度歸一化。在沒有LN的情況下,即使沒有進一步的培訓,在測試時間(第3行)引入重尾機制也能夠顯著改善效能(與第2行相比)。經過嚴格訓練的HT-PLDA,沒有長度規範(線路4)在長度歸一化(第1行)方面做得最好,超過G-PLDA的效能。

如2.3節所述,在HT-PLDA中進行VB培訓。在第5行,鍛鍊與ν並用ν測試做什麼= 2在第6行,訓練和測試有ν= 2。理想情況下,線5和3應該是相同的,但由於respectivement EM和VB演算法的細節,小差異仍然存在,可能是因為演算法在完全收斂之前停止了。雖然VB訓練HT-PLDA變體(線5,6)沒有LN(線2)時,它不管理來提高G-PLDA與LN效能(線1)做的比G-PLDA基線更好,也沒有的有區別訓練的HT-PLDA(第4行)。

3.2.HT-PLDA用於x-vector

3.2.1.x-向量提取器

x-vector系統是[6]中DNN的修改版本。這些特徵是23維MFCC,幀長為25ms,在最多3秒的滑動視窗內進行均值歸一化。能量SAD用於過濾掉非語音幀。 x-vector提取器的前幾層對幀序列進行操作。它們是卷積層的層次結構(僅在時間上卷積),其提供了長時間上下文(23幀,中心幀的每一側11),複雜度降低。彙集通過平均值和標準差在計算中聚合的層。此過程彙總資訊。平均值和標準偏差連線在一起並通過分段級層傳播,最後傳播到soft-max輸出層。非線性都是整流線性單元(ReLU)。

DNN經過培訓,可以對訓練資料中的N個發言者進行分類。訓練示例包括一大塊語音特徵(平均約3秒)和相應的說話人標籤。訓練之後,緊接在合併層之後從仿射層提取x向量(512維)。

該軟體框架已在Kaldi工具包中提供。的示例製法是在Kaldi的主分支在https://github.com/kaldi-asr/kaldi/tree/主/ EGS / sre16 / v2和一個預訓練的x向量SYS-TEM可被下載的http:/ /kaldi-asr.org/ models.html。

3.2.2實驗設定

DNN培訓資料包括電話和麥克風語音(主要是英語)。所有寬頻音訊都被下采樣到8kHz。我們從交換機,費舍爾,攪拌器(SRE 2004- 2010年)彙總的資料,和VoxCeleb3 [17]的資料集從15K說話人產生大約175K記錄。此外,錄音增強(使用噪音,混響和音樂)以產生450K示例。從這個增強的集合中,為每個說話人提取了2到4秒的15K塊,以形成微型計算機(64個塊)。我們對每個說話者進行相同的取樣(即,平衡每個說話者的訓練資料)並訓練3個時期。

G-PLDA和HT-PLDA分類器在增強資料的子集上進行訓練,包括7K說話人和230K記錄。對於所有實驗,我們使用維度d = 150的說話人子空間。為了探索LN對x-vector的影響,我們在有和沒有它的情況下呈現結果。更確切地說,雖然LN包括多個步驟(單位球面上的中心,白化和投影),但我們使用“無LN”符號來表示投影的顏色。我們始終以資料為中心並對其進行白化。最後,使用自適應對稱分數歸一化(assnorm)對分數進行歸一化[18]。

我們報告了SITW核心條件[19]和NIST SRE'16 [16]的粵語子集的結果,以表徵系統在麥克風和電話錄音條件下的行為。這些集合中的每一個都提供了我們用於評估資料和計算特徵的開發資料。 PLDA訓練集始終以其自身的均值為中心,用於估計白化變換。請注意,如果沒有對x-vector應用投影,則此變換不會產生任何影響。此外,對於SRE'16集合,我們還顯示了應用PLDA引數的無監督域自適應[20]的結果。