雲知聲聲紋識別技術實戰——平安好醫生聲紋登入系統
近日,中國領先的一站式醫療健康生態平臺平安好醫生(01833.HK)宣佈,平安好醫生客戶端“聲紋登陸系統”在經過多次模型優化和升級迭代後,登陸成功率接近 99%,達行業一流水準。該系統由雲知聲提供聲紋技術支援。
聲紋識別(Voiceprint Recognition,VPR)也稱說話人識別,是一種通過聲音判別說話人身份的技術,分為說話人辨識和說話人確認。 前者用以判斷某段語音是若干人中的哪一個所說的,即“ N 選一”;後者用以確認某段語音是否是指定的某人所說,是“1對1匹配”問題。不同的任務和應用會使用不同的聲紋識別技術,如縮小刑偵範圍時可能需要辨認技術,而銀行交易時則需用到確認技術。
作為國內為數不多具備全棧語音技術能力的人工智慧公司,雲知聲已在聲紋技術領域深耕多年。團隊多位技術骨幹曾在美國國家標準技術署(NIST)主辦的說話人識別技術評測中多次屢次斬獲第一名。
早在 2004 年,尚就職於摩托羅拉公司的雲知聲創始人黃偉博士便帶領團隊研發出世界上第一款手機聲紋認證系統,搭載該系統的相關產品總計銷量超 2 億臺。
近年來,伴隨深度學習的興起,雲知聲在國內率先將這一技術使用到語音識別中,且後續引入到聲紋識別領域,解決了一系列聲紋技術實用難點,並應用到實際產品上。 此次,雲知聲和平安好醫生聯手打造的平安好醫生客戶端使用者聲紋登入系統便是其中一項成功案例。
雖然聲紋識別優勢明顯,但要想準確分辨聲音特徵卻並非易事。 首先,聲紋識別系統性能會受使用者發聲狀態影響,如使用者的身體狀況、情緒等都會影響識別準確度。其次,環境的嘈雜度,以及採集、傳輸音訊的硬體配置,都會在不同程度上對識別系統行成干擾。
為解決上述問題,雲知聲聲紋技術團隊進行了一系列技術攻堅與創新:
-
首先,依託雲知聲強大的語音訊號前端處理技術,如 VAD、語音降噪等,準確地捕捉到人聲並進行背景噪聲消除。
-
其次,雲知聲將 DNN 引入到傳統聲紋識別 ivector 技術框架中,並融合最新端到端聲紋識別技術,基於雲知聲超算平臺和海量聲紋訓練資料,使得模型得以學習到數萬說話人,每人多種發聲的特性,且在雲端針對每個使用者採用說話人自適應技術,達到越用越好的效果。
-
在通道處理上,採用 PLDA 通道補償技術,可將通道影響降到最小。
與此同時,為保障使用者登陸的“安全性”,雲知聲為平安好醫生客戶端聲紋登入系統提供數字串註冊和登入的“文字弱相關”技術,工程難度更高,安全性更強。 與傳統固定口令登入方式不同,該系統採用隨機數字串登入方式,即在使用者進行登入時,系統會隨機下發 8 位隨機數字串,可有效規避錄音攻擊等安全問題。
在同一賬號下,雲知聲聲紋識別產品可支援 6 人註冊。在客戶端雲知聲提供封裝好的 SDK,支援聲紋註冊、登入、解綁等介面,供上層呼叫 API 實現產品邏輯。同時,雲知聲還提供成熟的聲紋服務私有化部署方案,基於在金融、客服、快遞等不同行業豐富的私有云部署經驗,可有效保障客戶資料安全。
在移動醫療領域,雲知聲與平安好醫生已建立深度合作關係——2017 年 12 月,雙方合資成立上海澔醫智慧科技有限公司,共同探索以智慧語音識別等技術為基礎的家庭智慧醫療服務終端建設。
關於平安好醫生
平安好醫生是中國領先的一站式醫療健康生態平臺,致力於通過"移動醫療+AI",為每個家庭提供一位家庭醫生,為每個人提供一份電子健康檔案,為每個人提供一個健康管理計劃。目前,平安好醫生已經形成家庭醫生服務、消費型醫療、健康商城、健康管理及健康互動等重點業務板塊。