聞聲識人——聲紋識別技術簡介

雷鋒網 (搜索“雷鋒網”公眾號關注) (搜索“雷鋒網”公眾號關注)按：本文轉自騰訊優圖，著重介紹了聲紋識別當中的主流技術。

聲紋識別，也稱作說話人識別，是一種通過聲音判別說話人身份的技術。從直覺上來說，聲紋雖然不像人臉、指紋的個體差異那樣直觀可見，但由于每個人的聲道、口腔和鼻腔也具有個體的差異性，因此反映到聲音上也具有差異性。如果說將口腔看作聲音的發射器，那作為接收器的人耳生來也具備辨別聲音的能力。

最直觀的是當我們打電話給家里的時候，通過一聲“喂？”就能準確地分辨出接電話的是爸媽或是兄弟姐妹，這種語音中承載的說話人身份信息的唯一性使得聲紋也可以像人臉、指紋那樣作為生物信息識別技術的生力軍，輔助甚至替代傳統的數字符號密碼，在安防和個人信息加密的領域發揮重要的作用。本文意在和讀者一起分享聲紋識別中主流的技術以及優圖實驗室在聲紋識別的研發積累中取得的成果，希望能讓讀者對于聲紋識別這個糅合語音信號處理模式識別，且理論研究與工程背景兼具的領域有一個基本又全面的認識。

1.撥云見日–聲紋的基礎“姿勢”

我們常常會用“花言巧語”來形容一個嘴皮子不靠譜的人，但其實這個成語用來形容語音信號也是十分貼切的。人臉、指紋都是基于圖像的二維信號，而語音是一種時變的一維信號，語音承載的首先是語意的信息，即我們說了什么內容，在語意信息的背后才是身份信息的體現。我們講的話可以對應到成百上千個字詞信息，但是這背后卻只對應了一個不變的身份。

圖1.說話人A對應“四”的語音波形

圖2.說話人B對應“四”的語音波形

圖3.說話人A對應“九”的語音波形

如果上方的時域波形不夠直觀的話，那下方的短時語譜圖從二維圖像的角度能提供更多的直觀信息。似乎圖1和圖2的相似度更高一些，圖3因為對應了不同的語意，因此和圖1，2差別更明顯，但實際上圖1和圖3來自于同一個說話人，按照需求，1和3應該被分在同一類別！似乎有點難，那我們干脆不要比較九了，只比較四好了…

因此，從語音字典是否受限的角度上來區分，聲紋識別可以文本無關識別與文本相關識別。文本無關，顧名思義就是說系統對于輸入的語音的內容并不做限制，識別系統應當可以克服語音中字典信息（亦或語意信息）的多變性和差異性，對語音背后的身份做出準確判斷；而文本相關識別，意思是我們預先會限制語音的字典集合的規模。

再往細了區分又有兩種常用的應用場景： 一種是固定口令 ，用戶必須要說“天王蓋地虎”，系統才會去識別聲紋，你說“寶塔鎮河妖”，對不起，不管你是誰，一概不行； 另一種是有限搭配的字典集合 ，系統會隨機搭配一些數字或符號，用戶需正確念出對應的內容才可識別聲紋，這種隨機性的引入使得文本相關識別中每一次采集到的聲紋都有內容時序上的差異。

相較于指紋和人臉等靜態的圖像特征，這種數序的隨機性無疑提升了安全性和防盜取能力。優圖實驗室自研的隨機數字聲紋識別方案已經應用于線上系統中，通過自主研發的人臉識別、活體檢測、語音聲紋的多重驗證手段，在最大程度上保障了用戶的安全，杜絕了仿冒、竊取或復制用戶自身生物信息的可能性.

圖4：優圖人臉核身示意圖

文本相關識別因為限制了可選的字典信息，因此在系統復雜度和識別準確率上都要遠好于文本無關的系統，只要采集相對比較短的一段語音即可實現聲紋的識別；但文本無關的識別系統在某些領域也會有重要的作用，例如刑偵比對，我們可以采集到嫌疑人的一段聲音，但是沒法對聲音對應的內容做限制，這時候文本無關識別就會派上重要的用場。

在過去的20年中，學界研究的重點大部分放在了更具挑戰性的文本無關識別上（科學家の精神…），所取得的突破也都是圍繞著文本無關的識別展開。美國國家標準技術局（NationalInstituteofStandardandTechnology，NIST）從90年代開始都會不定期地舉辦聲紋識別評測競賽（SpeakerRecognitionEvaluation，NISTSRE）[1]，也是針對文本無關的識別進行評測，吸引了學術界和工業界的諸多重量級團隊參與。

2014年，在語音界的學術盛會interspeech上，新加坡的I2R實驗室發布了一套用于評測文本相關識別的標準數據集RSR2015，涵蓋了文本相關領域的多個應用場景[2]。自此，文本相關識別的研究熱度開始漸漸提升，而近幾年大熱的“深度學習”也是最先在文本相關識別上取得了比較大的突破[3]。這里不再過多展開，有興趣的讀者可以參考各大學術數據庫的資源，或者和我們團隊進行交流。

而從識別的場景上考慮的話，聲紋識別又可以分為說話人辨識（SpeakerIdentification，SI）和說話人確認（SpeakerVerification，SV）兩個不同的應用場景：SI指的是我們有了一段待測的語音，需要將這段語音與我們已知的一個集合內的一干說話人進行比對，選取最匹配的那個說話人。

這方面的應用案例是刑偵比對，暗中收集到的一段嫌疑人（身份未知）的聲音，需要與數個可能的嫌疑人身份進行比對，選取最相似的那一個，則我們就可以認為收集到的這段語音在很大程度上就是來自于鎖定的這個嫌疑人，SI是一個1對多的判別問題；而SV指的是我們只有一個目標身份，對于一段未知的語音，我們只需要判斷這段語音是否來源于這個目標用戶即可，SV本質上是一1對1的二分類問題。這方面典型的應用是手機端的聲紋鎖或聲紋驗證工具，對于一段驗證語音，系統只需要回答“通過”或者“拒絕”即可。而SI可以間接分解為多個SV的問題，因此對于聲紋識別系統性能的評測多是以SV的方式進行。

2.動中取靜-從離散信號到特征

前面提到了，聲紋之所以能被識別，是因為每個人的口腔、鼻腔與聲道結構都存在唯一的差異性，但這種差異性既看不到又摸不著，更要命的是，它是一個時刻都在運動著的器官構造。我們只能通過錄音設備采集到的離散語音信號，間接去分析發聲器官的差異性。

既然語音一直在變，那我們該如何去對語音進行分析呢？答案是：語音具備了一個良好的性質，稱為短時平穩，在一個20-50毫秒的范圍內，語音近似可以看作是良好的周期信號。

圖5：圖1中話者A“四”的發聲中截取出的30毫秒長度的信號。

這種良好的平穩性為我們針對語音進行信號處理層面的分析提供了極大的便利。讀者都應該還記得，在音調，響度和音色這三個聲音（注意，這里我用了聲音，而不是語音）的基本屬性中，音色是最能反映一個人身份信息的屬性（講道理，老婆對你吼的時候，響度和音調都可以極速飆升，但老婆的音色是不大會發生劇烈變化的）。

而音色上的差異在信號處理的層面可以表示為在頻域不同頻段能量的差異，因此我們通過抽取不同頻段上的能量值，即可以表示在這個短時語音范圍內頻譜的性質。通常我們會綜合考慮人耳的聽覺屬性（人耳的一個聽覺屬性是在可聽到的頻段內，對于低頻的變化更加敏感，而對于高頻相對弱一些）、均衡不同頻段的能量差異（對于一段8KHz采樣的音頻，盡管語音會分布于0-4KHz的范圍內，但能量更多的集中在相對比較低頻的區域）、噪聲魯棒性（我們希望特征只對語音的變化敏感，而對其他噪聲等無關信息不變）以及后續的計算便利（系數之間盡可能要去除相關性）設計合適的短時聲學特征，通過一系列復雜的信號處理層面的變換，一段20-50毫秒長度的語音（以8KHz采樣為例，這個長度的語音對應著160-400個采樣點）可以映射為一段39-60維的向量。為了充分保留語音中的原始信息，同時不增加計算的負擔，通常會以15-20毫秒為間隔依次取短時段語音，然后提取特征。

圖6：短時聲學特征的提取

在聲紋識別，包括語音識別領域，傳統的聲學特征包括梅爾倒譜系數MFCC、感知線性預測系數PLP、近幾年的逐漸受到關注的深度特征DeepFeature[4]、以及15年公開發表的能量規整譜系數PNCC[5]等，都能作為聲紋識別在特征提取層面可選且表現良好的聲學特征。

綜上，一段語音就被映射為時間軸上一系列的向量集合，這些集合再通過一些規整的操作后，即可成為反映語音特性的特征集合。但僅靠這些特征集合還難以實現聲紋識別的目標，聲學特征可以理解為時間軸上為聲道拍攝的一系列快照，它直接映射的仍然是語意的內容，如何從一堆變化的特征中提取出不變的身份特性呢？接下來，就是統計建模發揮威力的時候了。

3.化繁為簡-聲紋模型的進化路

既然希望計算機能夠識別一個用戶的聲紋，那首先得讓計算機“認識”這個用戶的身份。典型的聲紋識別的系統的框架如下圖所示：

圖7：典型的說話人確認系統流程圖

聲紋識別系統是一個典型的模式識別的框架，為了讓計算機認識一個用戶的身份，需要目標用戶首先提供一段訓練語音，這段語音經過特征提取和模型訓練等一系列操作，會被映射為用戶的聲紋模型。在驗證階段，一個身份未知的語音也會經過一系列的操作被映射為測試特征，測試特征會與目標模型進行某種相似度的計算后得到一個置信度的得分，這個得分通常會與我們人工設定的期望值進行比較，高于這個期望值，我們認為測試語音對應的身份與目標用戶身份匹配，通過驗證；反之則拒絕掉測試身份。因此，識別性能好壞的關鍵在于對語音中身份信息的建模能力與區分能力，同時對于身份無關的其余信息具有充分的抗干擾能力和魯棒性。

盡管每個人的語音看起來千變萬化，但也不是完全沒有規律可循。盡管我們每天會說很多話，但常用的字詞至多只有數千個左右的級別；另外我們也做不到和家里的旺財發出一模一樣的叫聲。這也引出了聲紋識別，同時也是傳統的語音識別框架下的一個很合理的假設：將語音拆分到音素（phone）的級別，狹義的現代漢語只需要32個音素就已經足夠用了。

如果考慮到每個音素的形態還會受到前后音素的影響，構建三音素模型（tri-phone）的話，那至多也只有幾千個備選的三音素集合（不是簡單的32的三次方，我們也會去掉一些稀有的和根本不會出現的搭配），而不同說話人的三音素樣本盡管有明顯的差異，但都能在空間中的某個區域內聚類。由語音和對應的聲學特征的這些性質啟發，1995年DAReynolds首次將混合高斯模型（GaussianMixtureModel，GMM）成功地應用于文本無關的聲紋識別任務，至此之后的20多年，奠定了GMM在聲紋識別中地基的地位，后續聲紋的發展演進都是以GMM作為基礎進行改進和拓展的。

在繼續深入了解建模之前，我們有必要明確聲紋識別，或者把范圍再縮小一些，明確文本無關聲紋識別任務，它的難點在哪里？在前文也提到過，聲紋識別是一個兼具理論研究價值與工程應用背景的領域，聲紋的難點主要在以下幾個方面：

如何在語音多變性的背后，挖掘不變的身份信息。
實際應用中，從用戶體驗和成本的角度上考慮，針對目標用戶可采集到的語料是極其有限的（按照學術上的定義，實際可用的語音是稀疏（sparse）的），如何在有限的數據中完成穩定的建模與識別。
對于同一個用戶，即便采集到的兩段語音內容都是相同的，但由于情緒、語速、疲勞程度等原因，語音都會有一些差異性。如何補償這種說話人自身語音的差異性。
聲音是通過錄音設備進行采集的，不同的型號的錄音設備對語音都會造成一定程度上的畸變，同時由于背景環境和傳輸信道等的差異，對語音信息也會造成不同程度的損傷，一般在研究中將這些外界影響語音的效應稱為信道易變性（ChannelVariability）。我們難以做到針對每一種信道效應都開發對應專屬的聲紋識別系統，那么如何補償這種由于信道易變性帶來的干擾。

明確了需要解決的問題之后，再回過來看GMM，它的優勢在哪里？首先GMM是什么，它是一大堆形狀不定的高斯分量的加權組合。有研究表明，當GMM中高斯分量的數量足夠多的時候，GMM可以模擬任意的概率分布。

圖8：我們只利用了七個葫蘆娃就擬合出了一座山(畫圖真心太累，你們懂了就好_(brvbar;3」∠)_)

從模式識別的相關定義上來說，GMM是一種參數化（Parameterized）的生成性模型（GenerativeModel），具備對實際數據極強的表征力；但反過來，GMM規模越龐大，表征力越強，其負面效應也會越明顯：參數規模也會等比例的膨脹，需要更多的數據來驅動GMM的參數訓練才能得到一個更加通用（或稱泛化）的GMM模型。

假設對維度為50的聲學特征進行建模，GMM包含1024個高斯分量，并簡化多維高斯的協方差為對角矩陣，則一個GMM待估參數總量為1024（高斯分量的總權重數） 1024times;50（高斯分量的總均值數） 1024times;50（高斯分量的總方差數）=103424，超過10萬個參數需要估計（搞深度學習的同學你們中箭了嗎？）！

這種規模的變量別說目標用戶幾分鐘的訓練數據，就算是將目標用戶的訓練數據量增大到幾個小時，都遠遠無法滿足GMM的充分訓練要求，而數據量的稀缺又容易讓GMM陷入到一個過擬合（Over-fitting）的陷阱中，導致泛化能力急劇衰退。因此，盡管一開始GMM在小規模的文本無關數據集合上表現出了超越傳統技術框架的性能，但它卻遠遠無法滿足實際場景下的需求（畢竟95年的技術了...）。

時間來到了2000年前后，仍然是DAReynolds的團隊，提出了一種改進的方案：既然沒法從目標用戶那里收集到足夠的語音，那就換一種思路，可以從其他地方收集到大量非目標用戶的聲音，積少成多，我們將這些非目標用戶數據（聲紋識別領域稱為背景數據）混合起來充分訓練出一個GMM，這個GMM可以看作是對語音的表征，但是又由于它是從大量身份的混雜數據中訓練而成，它又不具備表征具體身份的能力。

那它有什么用呢？

學術圈的人就會告訴你：從貝葉斯框架的角度上來說，這個四不像GMM可以看作是某一個具體說話人模型的先驗模型。形象的比方就是說你準備去相親，媒人給你看了小莉的照片，你耳邊浮現的肯定是小莉各種可能的溫柔的聲音，而不是你家旺財的叫聲。

這個混合GMM就是起到了類似的作用，它對語音特征在空間分布的概率模型給出了一個良好的預先估計，我們不必再像過去那樣從頭開始計算GMM的參數（GMM的參數估計是一種稱為EM的迭代式估計算法），只需要基于目標用戶的數據在這個混合GMM上進行參數的微調即可實現目標用戶參數的估計，這個混合GMM也有一個很洋氣的名字，叫通用背景模型（UniversalBackgroundModel，UBM）。

UBM的一個重要的優勢在于它是通過最大后驗估計（MaximumAPosterior，MAP）的算法對模型參數進行估計，避免了過擬合的發生。MAP算法的另外一個優勢是我們不必再去調整目標用戶GMM的所有參數（權重，均值，方差）只需要對各個高斯成分的均值參數進行估計，就能實現最好的識別性能。這下子待估的參數一下子減少了一半還多（103424-gt;51200），越少的參數也意味著更快的收斂，不需要那么多的目標用戶數據即可模型的良好訓練。（八卦時間：據說DouglasA.Reynolds正是因為提出了GMM-UBM的框架而當選了IEEE的Fellow，如果有誤請忽略）

圖10：基于UBM的MAP用戶模型訓練算法

但GMM-UBM框架夠好了嗎？并沒有（咳咳，2000年前后…），至少有兩個問題GMM-UBM框架仍然沒法解決：

待估的參數仍然還是太多了。在NISTSRE的標準測試中，一個目標用戶的可用語音約在5min左右，去掉靜音段和停頓，大約只能保留1分半到2分半左右的有效長度，看起來已經挺短了，但是你能想象在在實際產品中一個用戶對著手機連續讀五分鐘進行注冊嗎？absolutelyno！這個長度的有效語音對于一個1024個高斯分量組成的GMM模型來說還是太短了，MAP算法只能對其中一部分落在某些高斯分量上的特征進行相應的高斯分量進行參數優化，而另外相當一部分得不到觀測數據的高斯分量怎么辦？那就只能老老實實待在原地不動了。這就造成了目標用戶GMM某些區域具備良好的目標用戶身份表達能力，而另外一些GMM區域則基本和UBM的參數相同，這無疑降低了文本無關識別應用中模型的表達能力；
GMM-UBM缺乏對應于信道多變性的補償能力，直白點說就是它不抗干擾，你拿愛瘋手機在云端注冊模型，換個小米手機拿來做識別，不通過！這下真的發燒了。但了不起的科學家們總有改進的辦法，WMCampbell將支持向量機（SupportVectorMachine，SVM）引入了GMM-UBM的建模中，通過將GMM每個高斯分量的均值單獨拎出來，構建一個高斯超向量（GaussianSuperVector，GSV）作為SVM的樣本，利用SVM核函數的強大非線性分類能力，在原始GMM-UBM的基礎上大幅提升了識別的性能，同時基于GSV的一些規整算法，例如擾動屬性投影（NuisanceAttributeProjection,NAP），類內方差規整（WithinClassCovarianceNormalization，WCCN）等，都在一定程度上補償了由于信道易變形對聲紋建模帶來的影響，這里也不多過多展開，有興趣的讀者們也可以查閱相關文獻或與我們一起討論。

時間繼續前進，為了解決GMM-UBM待估參數過多的問題，學界與工業界可謂費盡心思，忽然有一天，學者們發現了：在MAP框架下，我們都是單獨去調整GMM的每一個高斯分量，參數太多太累了，那有沒有辦法同時調整一串高斯分量呢？我們玩街霸也不用給每個關節都配備一個按鈕，四個按鍵照樣也能發出波動拳啊。

那有沒有這樣一種方法，讓我們只能用少量的參數就能控制GMM中所有高斯成分的變化呢？答案當然是有，我們借助一種稱為因子分析（FactorAnalysis，FA）的算法框架，只用數百個基向量的線性組合（每個基向量的權重就可以看作是在這個基坐標上的坐標點），就足夠能表征全體高斯超向量的變化了，也就是說，我們現在只需要幾百個變量（通常為400-600），就足夠表示一個50000維度的高斯分量均值集合！

其實，這種降維的思想在過去就已經廣泛應用于圖像，語音和數據的壓縮技術中，因為真實數據總是帶著相當多的冗余信息，我們可以做到只損失一小部分精度，甚至不損失精度，就能實現數據的壓縮與降維，而基向量的估計是通過一種稱為基于概率的主成份分析的（ProbabilisticPrincipalComponentAnalysis，PPCA）的類EM算法，基于海量的背景說話人數據學習而來。這下好了，模型參數一下子從50000一下子降到了500，簡直堪比夢中的房價走勢。這樣少量的數據就能實現GMM高斯分量的整體參數估計，隨著數據量的增加，GMM會迅速趨于一個穩定的參數估計。在上面提到的難點中，a,b,c在很大程度上得到了解決。

圖11：基于FA框架的EigenvoiceMAP用戶模型訓練算法

但是，別忘了還有難點d啊，那怎么辦？加拿大蒙特利爾研究所（ComputerResearchInstituteofMontreal，CRIM）的科學家兼公式推導帝PatrickKenny在05年左右提出了一個設想，既然聲紋信息可以用一個低秩的超向量子空間來表示，那噪聲和其他信道效應是不是也能用一個不相關的超向量子空間進行表達呢？

基于這個假設，Kenny提出了聯合因子分析（JointFactorAnalysis，JFA）的理論分析框架，將說話人所處的空間和信道所處的空間做了獨立不相關的假設，在JFA的假設下，與聲紋相關的信息全部可以由特征音空間（Eigenvoice）進行表達，并且同一個說話人的多段語音在這個特征音空間上都能得到相同的參數映射，之所以實際的GMM模型參數有差異，都是由特征信道（Eigenchannel），即信道效應的干擾導致的，我們只需要同時估計出一段語音在特征音空間上的映射和特征信道上的映射，然后撇掉特征信道上的干擾就可以實現更好的聲紋環境魯棒性。

而JFA兩個子空間的聯合推導簡直堪稱是Kenny大神奪目的數學表演，有興趣的讀者可以參考[5]，我估計不是聲紋圈的翻了第一頁和最后一頁就可以直接關閉pdf了。

JFA在05之后的NIST聲紋比賽中以絕對的優勢成為了性能最優的識別系統，但JFA就足夠好了嗎？聲紋領域的天空中仍然漂浮著一小朵烏云，盡管JFA對于特征音空間與特征信道空間的獨立假設看似合理，但天下沒有免費的午餐，現實世界中，盡管任何數據都存在冗余，即數據之間都具有相關性，但絕對的獨立同分布的假設又是一個過于強的假設，你可以說你和你家旺財在長相上沒什么相關性，但你們都有一對兒眼睛一張嘴啊…（也許都很能吃），這種獨立同分布的假設往往為數學的推導提供了便利，但卻限制了模型的泛化能力。

那腫么辦？時間來到了09年，Kenny的學生，N.Dehak，提出了一個更加寬松的假設：既然聲紋信息與信道信息不能做到完全獨立，那干脆就用一個超向量子空間對兩種信息同時建模拉倒！回想下JFA的假設：

同一個說話人，不管怎么采集語音，采集了多少段語音，在特征音子空間上的參數映射都應該是相同的；而最終的GMM模型參數之所以有差別，這個鍋就丟給特征信道子空間來背；
特征音子空間和特征信道子空間互相獨立。

JFA的這種“強”假設在實際使用中已經被驗證必然不會滿足。因此N.Dehak同志說：大家都是戰友，不要再分你的我的，有福同享有難同當啦。這個更寬松的假設就是：既然正交獨立性沒有辦法滿足，那我們就干脆用一個子空間同時描述說話人信息和信道信息。

這時候，同一個說話人，不管怎么采集語音，采集了多少段語音，在這個子空間上的映射坐標都會有差異，這也更符合實際的情況。這個即模擬說話人差異性又模擬信道差異性的空間稱為全因子空間（TotalFactorMatrix），每段語音在這個空間上的映射坐標稱作身份向量（IdentityVector,i-vector），i-vector向量通常維度也不會太高，一般在400-600左右[6]。

這是什么概念讀者們？折騰來折騰去聲紋還是在搞GMM，但一路走來，從最初95年采用的32個高斯分量的GMM，一路飆升到1024、2048、甚至4096（敢這么玩的都是業界土豪）個高斯分量的GMM，模型改改改，公式推推推，折騰到最后一個說話人的聲紋模型只需要保存一個400times;1的向量就夠了？

是的！就是這個樣子，這也是為什么我用化繁為簡來作為文章的副標題，i-vector是如此的簡潔優雅，它的出現使得說話人識別的研究一下子簡化抽象為了一個數值分析與數據分析的問題：任意的一段音頻，不管長度怎樣，內容如何，最后都會被映射為一段低維度的定長i-vector。

我們只需要找到一些優化手段與測量方法，在海量數據中能夠將同一個說話人的幾段i-vector盡可能分類得近一些，將不同說話人的i-vector盡可能分得遠一些。同時Dehak在實驗中還發現i-vector具有良好的空間方向區分性，即便上SVM做區分，也只需要選擇一個簡單的余弦核就能實現非常好的區分性。截至今日，i-vector在大多數情況下仍然是文本無關聲紋識別中表現性能最好的建模框架，學者們后續的改進都是基于對i-vector進行優化，包括線性區分分析（LinearDiscriminantAnalysis，LDA），基于概率的線性預測區分分析（probabilisticlineardiscriminantanalysis，PLDA）甚至是度量學習（MetricLearning）等。

4.迷思-文本相關？文本無關？

既然i-vector在文本無關聲紋識別上這么牛逼，那它在文本相關識別上一定也很厲害吧？No！在看似更簡單的文本相關聲紋識別任務上，i-vector表現得卻并不比傳統的GMM-UBM框架更好。

為什么？因為i-vector簡潔的背后是它舍棄了太多的東西，其中就包括了文本差異性，在文本無關識別中，因為注冊和訓練的語音在內容上的差異性比較大，因此我們需要抑制這種差異性；但在文本相關識別中，我們又需要放大訓練和識別語音在內容上的相似性，這時候牽一發而動全身的i-vector就顯得不是那么合適了。

5.進擊：我們的youtu-vector

盡管學術界喜歡更難的挑（zuo）戰（si），但工業界在很多時候沒法和學術界保持一致。識別穩定，快速，用戶體驗好，才是一個聲紋系統能夠落地的核心評價指標。為此，首選的仍然是文本相關識別的應用，而在文本相關識別應用中，安全性最高的仍然是隨機數字聲紋識別。

盡管i-vector在文本相關上識別上似乎有點水土不服，但畢竟它在擅長的領域上已經展現了強大的性能。因此，如何能將i-vector的實力應用在我們的任務中，讓隨機數字聲紋識別也能發揮出最大的能量，是優圖實驗室一致努力的目標。

針對i-vector弱化語意建模的屬性，我們細化了i-vector的表征范圍，即我們不再用i-vector針對一整段語音進行建模，而是將i-vector拆解為針對每個數字進行建模，這樣i-vector從只表征說話人身份的一段向量細化為了表征身份數字內容的一個向量。

圖12：傳統的i-vector提取框架，并不針對文本差異進行區分

圖13：針對數字內容的差異性進行更細粒度的i-vector提取

這種更細粒度的i-vector劃分為i-vector應用于隨機數字聲紋識別帶來了兩個明顯的改進：

為了驅動i-vector背后的UBM和全因子矩陣，我們不再需要海量的數據，只需要專注于具體的數字片段切分，極大降低了驅動系統所需的訓練數據的規模；
由于每個i-vector只針對數字進行建模，每個數字i-vector背后的數字UBM和數字全因子矩陣，都不需要像文本無關那樣龐大的模型規模，相較于文本無關識別的任務，模型復雜度降低數十倍后，依然能在實際場景下表現出同樣好的性能。

模型的簡化帶來的直接優勢就是計算復雜度和空間復雜度的壓縮，同時，盡管需要提取的i-vector數量比過去多了（目標用戶語音中包含數字的集合數就是目標用戶最終的i-vector集合數），但將提取過程并行化后，這種細化帶來的額外計算與存儲基本上是可以忽略的。

在識別性能上，我們以團隊內部真實環境下采集的數據作為測試樣例將數字i-vector與傳統的i-vector、和RSR2015一起發布的HiLAM文本相關識別框架進行了比較，包括了數萬規模的目標樣本測試與數十萬規模的攻擊樣本測試，實現了等錯誤概率(EER)小于1%，千分之一錯誤率下的召回率大于95%的識別性能。我們自主研發的數字i-vector，性能要遠好于現有的聲紋識別框架。

6.且行且思-關于聲紋的展望與反思

盡管在適配i-vector與文本相關識別中，我們的嘗試與探索有了一些突破，但我們仍然需要看到聲紋識別在應用中的局限：動態變化的發聲器官與聲音，它們的穩定性依然還不及人臉與圖像。除非哪天中風了，很難想像會有什么理由使得人臉識別失靈；但是感冒發燒則會改變我們的聲道結構，自己的聲音也會發生變化。

而聲紋的識別精度相較人臉與圖像還有比較明顯的差距。深度學習的浪潮中，聲紋的演進似乎也還是不溫不火，而聲紋識別的“兄弟”語音識別早已乘著深度學習的航母向前馳騁，這其中的原因有聲紋固有的難點，想啃下這塊硬骨頭，我們要做的事情還有很多。

而優圖在聲紋的深度學習推進中也從未停下腳步，除了隨機數字識別，在文本無關識別應用中，我們自研的從基于DNN的說話人分類網絡中提取的深度特征（也稱為瓶頸特征（bottleneckfeature）），輔助i-vector進行分數層面的融合也讓i-vector的識別性能在過去的基礎上跨進了扎實的一步。在未來，優圖團隊有信心在人工智能的這股浪潮中激流勇進，貢獻出更多更好的產品，服務大眾，讓每個人都能感受到科技為生活帶來的便捷。

參考文獻

[1]http://www.itl.nist.gov/iad/mig/tests/spk/

[2]Larcher,Anthony,etal.quot;RSR2015:DatabaseforText-DependentSpeakerVerificationusingMultiplePass-Phrases.quot;INTERSPEECH.2012.

[3]FuTianfan,etal.quot;Tandemdeepfeaturesfortext-dependentspeakerverification.quot;INTERSPEECH.2014.

[4]Vasilakakis,Vasileios,SandroCumani,andPietroLaface.quot;Speakerrecognitionbymeansofdeepbeliefnetworks.quot;(2013).

[5]Kenny,Patrick.quot;Jointfactoranalysisofspeakerandsessionvariability:Theoryandalgorithms.quot;CRIM,Montreal,(Report)CRIM-06/08-13(2005).

[6]Dehak,Najim,etal.quot;Front-endfactoranalysisforspeakerverification.quot;IEEETransactionsonAudio,Speech,andLanguageProcessing19.4(2011):788-798.

雷鋒網注：本文為騰訊優圖授權雷鋒網發布，如需轉載請聯系授權，并保留出處和作者，不得刪減內容。

Tags: 高斯

文章來源：http://www.leiphone.com/news/201609/BybmDzXINsFxyA