1. 程式人生 > >深度神經網路,適用於小型指令碼文字相關的語音驗證

深度神經網路,適用於小型指令碼文字相關的語音驗證

DEEP NEURAL NETWORKS FOR SMALL FOOTPRINT TEXT-DEPENDENT SPEAKER VERIFICATION

d-ivector系統優於i-ivector系統。

我們還嘗試了DNN培訓的不同配置。如果沒有maxout和dropout技術,訓練有素的DNN的EER絕對差2%左右。在隱藏層中將節點數量增加到512並沒有太大幫助,而將節點數量減少到128則使得EER更差,為7.0%。將上下文視窗大小重置為左側10幀,右側5幀也將EER效能降低至5.67%。

4.3.報名資料的影響

在d-vector SV系統中,在註冊階段沒有涉及說話者適應統計資料。 相反,後臺DNN模型用於在登記和評估階段為每個話語提取說話者特定的特徵。 在本實驗中,我們研究了d-vector系統中驗證效能的變化,每個發言者的入學話語數不同。 我們使用4,8,12和20個話語比較演講者註冊的表現結果。

EER結果列於表2中。它表明,隨著入學人數的增加,兩個SV系統的表現都會更好。 兩種系統的趨勢相似。

 

4.4.增強穩健性

實際上,開發和執行時條件之間通常存在不匹配。 在本實驗中,我們研究了d-ivectorSV系統在噪聲條件下的魯棒性,並將其與i-vector系統進行了比較。 使用乾淨的資料訓練背景模型。 10 dB自助餐廳噪聲被新增到登記和評估資料中。 DET曲線的比較顯示在圖2的右圖中。如該圖所示,兩個系統的效能因噪聲而降低,但d-ivector系統的效能損失較小。 在10 dB噪聲環境下,d-ivector系統的整體效能非常接近i-vector系統。 在2%或更低的假拒絕概率的操作點,d-ivector系統實際上比i-向量系統更好。

在特徵層面設計,我們在圖3中的初步結果是使用一個名為sum fusion的簡單組合獲得的,該組合對每個試驗的每個系統提供的分數求和。 先前的t-norm階段應用於兩個系統,以促進分數的組合。 結果表明,組合系統在基本上所有可能的操作點和噪聲條件下都優於元件系統。 在EER效能方面,i / d-ivector系統分別在乾淨和嘈雜的條件下擊敗i-vector系統14%和25%相對。

5.結論

在本文中,我們提出了一種新的基於DNN的說話人驗證方法,用於小型文字相關的說話人驗證任務。 DNN經過培訓,可以對具有幀級聲學特徵的說話人進行分類。訓練有素的DNN用於提取說話者特定的功能。然後,與流行的i-vector類似,這些說話人特徵或d-vector的平均值用於說話者驗證。實驗結果表明,與i-vector系統相比,d-ivector的SV系統的效能相當不錯,系統融合比獨立的i-vector系統獲得了更好的結果。這兩個系統的簡單和融合可以改善所有工作點的i-ivector系統性能。在乾淨和嘈雜的條件下,組合系統的EER分別比我們的經典i-vector系統好14%和25%。此外,d-ivector系統對登記和評估資料中的加性噪聲​​更穩健。在低假拒絕操作點處,d-ivector系統優於i-ivector系統。

未來的工作包括改進當前餘弦距離得分,以及嘗試歸一化方案,如原始分數的高斯化。我們將探索不同的組合方法,例如在i-ivector的特徵空間和堆疊的d-ivector上使用PLDA模型。最後,我們的目的是研究增加開發說話人數量的效果以及說話人群集如何影響效能。