1. 程式人生 > >用於獨立於文字的說話人驗證的自我注意說話人嵌入

用於獨立於文字的說話人驗證的自我注意說話人嵌入

Self-Attentive Speaker Embeddings for Text-Independent Speaker Verification

用於獨立於文字的說話人驗證的自我注意說話人嵌入

用於獨立於文字的說話人驗證的自我注意說話人嵌入

Self-Attentive Speaker Embeddings for Text-Independent Speaker Verification

摘要

 

本文提出了一種從深層神經網路(DNN)中提取說話人嵌入資訊的新方法。用於與文字無關的說話人驗證。通常,說話人嵌入是從說話人分類DNN中提取的,該DNN對說話人幀上的隱藏向量進行平均;從所有幀產生的隱藏向量被認為同樣重要。我們放鬆這個假設,計算說話人嵌入作為說話人幀級隱藏向量的加權平均,並且它們的權重由自注意機制自動確定。為了捕捉說話者輸入語音的不同方面,還研究了多個注意頭的效果以捕獲說話者輸入語音的不同方面。最後,使用PLDA分類器對嵌入對進行比較。將該自注意說話人嵌入系統與NIST SRE 2016上的強DNN嵌入基線進行了比較。我們發現,自聚焦嵌入實現了優異的效能。此外,自注意說話人嵌入方法產生的改進與短測試語音和長測試語音是一致的。

 

關鍵詞:說話人識別,深度神經網路,自我關注,X向量

 

 

 

1、引言

 

說話人驗證(SV)是根據給定的語音接受或拒絕說話人的身份宣告的任務。SV系統有兩大類:文字相關和文字無關的SV系統。依賴於文字的SV系統要求輸入語音的內容是固定的,而與文字無關的SV系統則不需要。

多年來,i-向量[1]和概率線性判別分析(PLDA)[2]的結合一直是文字無關SV任務[3,4,5]的主要方法。此外,將訓練用於自動語音識別(ASR)的深層神經網路(DNN)結合到i-向量系統中的混合方法在一些情況下被證明是有益的[6,7,8,9,10]。然而,ASR DNN給i-vector系統增加了相當大的計算複雜度,並且需要轉錄資料用於訓練。此外,種方法的成功主要與英語資料集隔離[11]。另一方面,最近的工作表明,通過直接訓練說話人區分DNN[12、13、14、15、16、17],可以構建更強大的SV系統。HigGod等。介紹了一種用於文字相關的SV任務的端到端系統,該系統被聯合訓練以將幀級特徵對映到說話人嵌入,並學習相似性度量以比較嵌入對[13]。然後,該系統適應於在[15 ]中與文字無關的SV更一般的任務。 [16]中的工作將端到端系統分為兩個部分:一個用於生成揚聲器嵌入的DNN和一個用於比較嵌入對的單獨訓練的PLDA分類器。與端到端方法相比,這種方法需要更少的資料才能有效,並且具有額外的好處,便於重複使用多年來開發的方法來處理和比較i向量。我們在這項工作中繼續使用這種兩階段方法。

 

 

大多數基於DNN的SV系統使用池機制將可變長度的發音對映到固定維的嵌入。在前饋體系結構中,這通常由池化層實現,該池化層對整個輸入發音的幀級DNN特性進行平均。在早期的系統中,如[12]中的d-向量,DNN在幀級訓練,並且通過平均輸入發音的所有幀上最後一個隱藏層的啟用向量來執行合併。[15,16,17]中的工作建議增加一個統計池,該層將DNN隱藏向量聚合到說話者的整個發音上,並計算其平均值和標準偏差。然後,統計向量被連線在一起,以形成段級輸入話語的固定長度表示。從這些段級表示的進一步處理匯出說話人嵌入。然而,在大多數以前的工作中,這種池機制為每個幀級特性分配了相等的權重。張等人,提出了使用注意力模型來組合文字依賴SV應用程式的幀級特徵[14]。注意模型以語音後驗特徵和語音瓶頸特徵為額外來源,學習幀級特徵的組合權重。

 

本文提出了在[17 ]中描述的X向量體系結構的擴充套件。為了在輸入語音中更好地利用說話人資訊,我們提出使用由結構化自注意機制學習併合併到加權統計匯聚層的幀級權重。與[14]中的工作相比,我們的任務是文字無關的,並且訓練和測試資料之間存在語言不匹配,因此語音資訊可能沒有幫助,甚至不可用。自注意機制最初被提出用於提取自然語言處理任務的句子嵌入[18]。基於[S]中的系統,我們將[18 ]中的自我注意機制適應於文字無關的SV。

 

2、說話人確認系統

 

我們比較所提出的方法與兩個基於X向量的SV基線系統。所有系統都是使用Kaldi語音識別工具包(19)構建的。

 

 

 

2.1.X向量基線系統

 

X向量基線是基於(17)中描述的系統。訓練說話人鑑別DNN以產生稱為x向量的說話人嵌入,並且使用PLDA後端來比較說話人嵌入對。

 

輸入聲學特徵是幀長為25ms的23維MFCCs,它們在最多3秒的滑動視窗上進行平均歸一化。採用基於能量的VAD從話語中過濾出非語音幀。

 

在X向量基線系統中使用的DNN如圖1所示。前五層l1至l5採用時延體系結構,它們在幀級工作。St-姿勢T是當前的時間步長。從(T 2)到(T + 2)的幀在輸入層上被拼接在一起。接下來的兩層分別在時間步驟t 2、t、t+2和t 3、t、t+3拼接前一層的輸出。沒有時間上下文被新增到第四層和第五層。因此,在第三層之後的總時間上下文是15幀。

 

統計匯聚層在DNN的幀級輸出向量上聚集,並計算它們的平均值和標準偏差。這種匯聚機制使得DNN能夠從可變長度的語音段產生固定長度的表示。均值和標準偏差被連線在一起,並被轉發到另外兩個隱藏層l6和17,最後是軟最大輸出層。DNN被訓練來對訓練器中的說話人進行分類。訓練後,丟棄軟最大輸出層和最後一個隱藏層,從l6的仿射分量中提取說話人嵌入。該系統使用PLDA後端進行評分,這在第2.3節中進行了描述。所有的神經單元都是整流線性單元(RelUS)

2.2.自我注意的說話人嵌入

 

自注意機制可以有效地將可變長度的序列編碼為一些固定長度的嵌入。受[18]中提出的用於句子嵌入的結構化自我注意機制的啟發,我們將其應用於改進圖1所示的x向量基線系統中的說話人嵌入。

 

在當前的x向量系統中,統計匯聚層平等地對待其先前隱藏層的所有幀級輸出。然而,並非所有幀都向上層提供“相等”的揚聲器鑑別資訊。例如,不幸地通過VAD和短停頓的非語音幀是沒有用的,並且一些語音內容可能更具有說話人區分性。在本文中,統計彙集層被如圖2所示的自我關注層所替代,以便從每個語音段上前一個隱藏層的輸出中去掉加權平均值和標準偏差向量。使用自注意機制學習權重,使整個系統的說話人分類效能最大化。

2.3.PLDA後端

 

我們使用相同型別的PLDA後端作為(16, 17)COM配對成對的嵌入。嵌入是集中的,並且使用LDA來投影,這將維度從512降低到150。在降維後,利用PLDA對錶示進行長度歸一化和建模。分數採用自適應S範數〔20〕也不進行積分。

 

 

 

3、實驗裝置

 

3.1.模型配置

 

 

 

在x向量基線系統中,輸入大小包括上下文115,在前四個幀級隱藏層l1至l4中的每個都有512個節點,而最後一個幀級l5具有dh=1500個隱藏節點。兩個段級層L6和L7中的每一個具有512個節點。對於自關注層,DA設定為500。

 

 

 

3.2.培訓資料

 

 

 

培訓資料主要由英語電話語音(帶有少量的非英語和麥克風語音)、取自交換機資料集、過去的NIST說話人識別評估(SRE)和混合器6組成。交換機部分由交換機2階段1、2、3和交換機Cel-lular組成,它包含大約28k個來自2.6k揚聲器的記錄。SRE部分包括2004-2010年的NIST SRE資料,以及Mixer 6,用於4.4k揚聲器總共約63k個錄音。[17]中描述的四種資料增強技術,即,嘮叨、音樂、噪聲和混響[21],用於增加訓練資料的量並改善系統的穩定性。對嵌入DNN系統的說話人進行純淨資料與增強資料聯合訓練,對PLDA分類器只使用純淨和增強的SRE子集進行訓練。

 

 

 

3.3評價

 

 

 

系統性能評估NIST 2016揚聲器重新評估評估(SRE16)〔22〕。SRE16由粵語和塔加洛語組成。報名時間段長約60秒,考試時間段長約10至60秒。用等差錯率(EER)和官方評估標準DCF16對SRE16[22]進行了效能報告,該標準DCF16分別由兩個操作點PTarget=0.01、PTarget=0.005平均的正規化檢測成本函式(DCF)計算。

4、結果

 

在下面的結果中,“基線”指的是2.1節中描述的x向量基線。標籤“attn-k”表示第2.2節中描述的具有k個注意頭的自注意嵌入系統。

 

 

 

4.1總體結果

 

SRE16結果彙總在表1中。在產生均值結果時,各種系統僅利用一階統計量來產生說話人嵌入。也就是說,“基線”從輸入話語的所有幀中計算簡單的非加權平均值,而“attn-k”使用自我關注層計算加權平均值。另一方面,在平均+STDDEV結果中使用第一階和第二階統計量。

一般來說,自注意系統的效能優於從簡單平均匯聚層派生說話人嵌入的基線系統,並且更多的注意力頭獲得更大的改進。例如,當只使用平均向量時,單頭注意系統在EER中好16%,在廣東話中好3%,在EER中好12%,在Tagalog中好4%。另一方面,5頭系統在EER和DCF16上的效能分別比基線提高了21%和13%,EER和DCF16上的效能分別提高了15%和3%。當兩個語言之間的效能相結合時,最佳自關注系統在EER中比基線效能高16%,在DCF16中比基線效能高6%。圖3顯示了當在廣東話和Tagalog中彙集效能時,僅針對平均值系統的檢測誤差折衷(DET)曲線。

我們還比較了自注意說話人嵌入系統和Snyder等人報道的傳統i-向量系統的效能。〔16〕。綜合各種語言,最優的5頭自關注嵌入系統在EER中比i向量系統好25%,在DCF16中好22%。

 

 

 

4.2.不同持續時間的測試話語結果

 

我們還研究了績效和持續時間之間的相互作用。根據測試的語音持續時間,將測試話語分為3組。表2和表3報告了不同系統在三個不同持續時間組上的平均+stddev效能。我們可以看到,除了少數例外,

(a)自注意嵌入在所有不同時段組中都帶來改善;(b)如所預期的,SV效能隨著發音時間的延長而更好;(c)一般來說,自注意系統隨著腦袋的增多而效能更好。例如,在粵語中,單頭系統在前兩組中語音的EER提高2%,在最後一組中達到9%;DCF16的改善在所有持續時間組中是相當一致的,對於單頭系統,大約是10%。多頭系統獲得更大的收益。5頭自注意系統在所有時段組中EER提高13-16%,DCF16提高11%。在Tagalog上,單頭系統得到最大的改進:在所有持續時間組中,EER改善約5%,DCF16改善2-6%。

 

注意,在我們目前的實驗中,為了給每個說話人提供足夠的訓練例子並增加訓練例子的多樣性,我們已經將訓練發音分成200-400幀的片段。在DNN訓練之後,從整個重新編碼中提取說話人嵌入。因此,在訓練和測試持續時間之間可能存在不匹配。如果可用的資料更多,因此我們不需要對資料進行分塊,則可以實現更好的效能。

5.結論

我們提出了一種新方法,通過在DNN嵌入中引入自我關注機制來提取用於文字無關的說話者驗證的說話人嵌入。 新的揚聲器嵌入在SRE16上進行評估,這是一項具有挑戰性的任務,因為主要的英語培訓資料與粵語或塔加拉族語評估資料之間存在語言不匹配。 我們發現,在不同長度的話語上進行測試時,所提出的自我注意揚聲器的表現優於傳統的i-vector系統和強大的DNN嵌入基線。 通過增加註意頭的數量,進一步獲得了持續的改進。 我們認為,具有大塊語音段的訓練策略可能不是自我關注機制的最佳選擇。 在未來的工作中,我們將修改培訓策略並嘗試更大的培訓語料庫。 我們還將研究多頭注意的不同懲罰條款。