1. 程式人生 > >Google開源新AI模型,語音區分準確率92%創新高 | 論文+GitHub

Google開源新AI模型,語音區分準確率92%創新高 | 論文+GitHub

雷剛 發自 凹非寺 
量子位 報道 | 公眾號 QbitAI

一個AI音箱,認得每一個說話的物件。

所謂“千人千面”,此之謂也。小孩說話,它就依照小孩的喜好和模式,老人票友,它的智慧推薦也相應變化……

總之一個音箱,對每一個跟他說話的人,都能分辨清楚——對人類再正常不過的能力,對AI卻並不容易。

幸好,Google今天把這種AI正在追求的能力,又往前推進了一步。

而且論文放出,核心演算法開源,就等你也來試試了。

RNN模型

Google的新方法,是通過遞迴神經網路(RNN)模擬說話者的輸入,只要開始發言,每個說話者都會建立一個屬於他的RNN模型,然後在過程中,不斷更新相應的RNN狀態。

640?wx_fmt=gif

加入我們正在進行一場多人會議,音訊輸入是線性的,但在Google這個模型中,會按照不同音色進行不同標註。

黃色代表一個發言者,紅色又是另一個,然後黃色嘉賓發言者又接著發言了。

之前在進行類似的研究時,通常基於聚類演算法,都是無監督學習的方法,因此給每個發言者打標籤不容易。

另外,發言者混合交織發言,讓無監督學習的模型最終效果亦打折扣。

但RNN不同,在這次研究者中,Google同學專門在中餐廳進行了訓練(其中幾位作者都是中國人)。

640?wx_fmt=gif

在中餐廳中,發言人未知且人數不確定。然後在開始發言後,他們一旦被識別,就會有對應的RNN模型,每個人都被建了一個,然後相應發言者有更新,就會在他的RNN模型上更新。

效果

論文中稱,他們把核心演算法放在資料集NIST SRE 2000 CALLHOME上驗證,最後得出的線上分類錯誤率(DER)低至7.6%。

更早之前,他們舊方法的錯誤率還是8.8%.

那92.4%的準確率意味著什麼呢?

對實時應用程式而言,已足夠高了。

640?wx_fmt=jpeg

意義

或許你會問了,有啥用嘞?

智慧音箱自不必說了,如果你家音箱能認得你家每一個人,自然個性化的AI體驗會好很多很多。

另外在很多會議速記、影視作品配字幕配音的過程中,也能應用。

你可能也會用過一些所謂的“AI速記”產品,但一到多人會議就慘不忍睹了。

所以Google這次開源,可能會幫到他們。

至於更多實現或應用,感興趣的盆友,歡迎自己上手~

傳送門

640?wx_fmt=png

論文地址:

https://arxiv.org/abs/1810.04719

開源地址:

https://github.com/google/uis-rnn

年度評選申請

640?wx_fmt=jpeg

加入社群

量子位AI社群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話介面回覆關鍵字“交流群”,獲取入群方式;


此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。


進專業群請在量子位公眾號(QbitAI)對話介面回覆關鍵字“專業群”,獲取入群方式。(專業群稽核較嚴,敬請諒解)

活動策劃招聘

量子位正在招聘活動策劃,將負責不同領域維度的線上線下相關活動策劃、執行。歡迎聰明靠譜的小夥伴加入,並希望你能有一些活動策劃或運營的相關經驗。相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。

640?wx_fmt=jpeg

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態