Google開源新AI模型，語音區分準確率92%創新高 | 論文+GitHub

阿新 • • 發佈：2018-11-15

雷剛發自凹非寺
量子位報道 | 公眾號 QbitAI

一個AI音箱，認得每一個說話的物件。

所謂“千人千面”，此之謂也。小孩說話，它就依照小孩的喜好和模式，老人票友，它的智慧推薦也相應變化……

總之一個音箱，對每一個跟他說話的人，都能分辨清楚——對人類再正常不過的能力，對AI卻並不容易。

幸好，Google今天把這種AI正在追求的能力，又往前推進了一步。

而且論文放出，核心演算法開源，就等你也來試試了。

RNN模型

Google的新方法，是通過遞迴神經網路（RNN）模擬說話者的輸入，只要開始發言，每個說話者都會建立一個屬於他的RNN模型，然後在過程中，不斷更新相應的RNN狀態。

640?wx_fmt=gif

加入我們正在進行一場多人會議，音訊輸入是線性的，但在Google這個模型中，會按照不同音色進行不同標註。

黃色代表一個發言者，紅色又是另一個，然後黃色嘉賓發言者又接著發言了。

之前在進行類似的研究時，通常基於聚類演算法，都是無監督學習的方法，因此給每個發言者打標籤不容易。

另外，發言者混合交織發言，讓無監督學習的模型最終效果亦打折扣。

但RNN不同，在這次研究者中，Google同學專門在中餐廳進行了訓練（其中幾位作者都是中國人）。

640?wx_fmt=gif

在中餐廳中，發言人未知且人數不確定。然後在開始發言後，他們一旦被識別，就會有對應的RNN模型，每個人都被建了一個，然後相應發言者有更新，就會在他的RNN模型上更新。

效果

論文中稱，他們把核心演算法放在資料集NIST SRE 2000 CALLHOME上驗證，最後得出的線上分類錯誤率（DER）低至7.6%。

更早之前，他們舊方法的錯誤率還是8.8%.

那92.4%的準確率意味著什麼呢？

對實時應用程式而言，已足夠高了。

640?wx_fmt=jpeg

意義

或許你會問了，有啥用嘞？

智慧音箱自不必說了，如果你家音箱能認得你家每一個人，自然個性化的AI體驗會好很多很多。

另外在很多會議速記、影視作品配字幕配音的過程中，也能應用。

你可能也會用過一些所謂的“AI速記”產品，但一到多人會議就慘不忍睹了。

所以Google這次開源，可能會幫到他們。

至於更多實現或應用，感興趣的盆友，歡迎自己上手~

傳送門

640?wx_fmt=png

論文地址：

https://arxiv.org/abs/1810.04719

開源地址：

https://github.com/google/uis-rnn

— 完 —

年度評選申請

加入社群

量子位AI社群開始招募啦，歡迎對AI感興趣的同學，在量子位公眾號（QbitAI）對話介面回覆關鍵字“交流群”，獲取入群方式；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號（QbitAI）對話介面回覆關鍵字“專業群”，獲取入群方式。（專業群稽核較嚴，敬請諒解）

活動策劃招聘

量子位正在招聘活動策劃，將負責不同領域維度的線上線下相關活動策劃、執行。歡迎聰明靠譜的小夥伴加入，並希望你能有一些活動策劃或運營的相關經驗。相關細節，請在量子位公眾號(QbitAI)對話介面，回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

Google開源新AI模型，語音區分準確率92%創新高 | 論文+GitHub

雷剛發自凹非寺量子位報道 | 公眾號 QbitAI 一個AI音箱，認得每一個說話的物件。所謂“千人千面”，此之謂也。小孩說話，它就依照小孩的喜好和模式，老人票友，它的智慧推薦也相應變化…… 總之一個音箱，對每一個跟他說話的人，都能分辨清楚——對人類再正常不

科學家開發新AI系統，可讀取大腦信息並表達復雜思想

人類 2個動作都是編碼預測 alt 個人狀況我們終於找到了一種方法，可以在核磁共振成像的信號中看到這種復雜的想法。美國卡內基梅隆大學的Marcel Just說，思維和大腦活動模式之間的對應關系告訴我們這些想法是如何構建的。人工智能系統表明，大腦意識模塊是由各種

Google開源新的 RISC-V IP核: “BottleRocket”（https://cnrv.io）

-s git link ilog 配置三級 ttl github 非官方 BottleRocket是RISCV RV32IMC的實現。 Google在2017年11月29日在Github上非官方開源了BottleRocket的RTL代碼，同時表明這並不是一個官方支持的G

華為雲EI ModelArts，從0到1開發訓練AI模型，通過“極快”和“極簡”實現普惠AI

預測產生極致各類 bat 華為雲調整 parameter 引擎華為雲EI ModelArts，從0到1開發訓練AI模型，通過“極快”和“極簡”實現普惠AI現如今 AI 技術、概念火爆、落地應用更是繁多，但開發呢？是否困難？到底有多痛？據了解，大部分 AI 開發者的

微軟開源的 AI 工具，讓舊照片煥發新生

![](https://img2020.cnblogs.com/blog/759200/202011/759200-20201125091243369-1122768137.jpg) > 原文地址：[Bringing Old Photos Back to Life](http://raywzy.c

從邂逅到共生：關於AI落地，百度與小米的新碰撞

小米百度很多朋友都會問，每天看到這麽多寫AI的，甚至一大堆標題黨說AI要毀天滅地的，但是AI到底在哪呢？這是個非常好的問題。AI作為一種重構底層，是需要不斷學習和進步的技術。這樣的技術特征，導致AI可能無法像前端技術那樣帶來瞬間的震撼，而是需要消費者在新的人機共存關系中感受和探索AI帶來的價值，與

把機器手臂變成純愛AI戀人，制造開源男友的女碼農到底在想什麽？

AI男友關於那些擁有AI的“羞羞機器人”，已經有很多相關討論了。但在很多人，尤其是女性眼中，AI×××機器人只不過是男權社會的又一款典型產物，只知道滿足生理上的貪欲，簡直是浪費了AI的能力。抱著這樣的心態，來自紐約的設計師+藝術家（同時也是一位開發者）劉菲研發了一套名為Gabriel2052的開源的AI男友系

AndroidP推出多項AI功能，會不會引發新的隱私擔憂？

AndroidP讓谷歌很“傷心”的是，相比蘋果iOS系統的統一，Android系統的碎片化態勢實在太嚴重了。就像已經發布一年多的Android O，其占有率僅有4.6%。主要是因為很多手機廠商都會根據Android系統進行“二度加工”，變成所謂的自家深度定制系統。不僅導致原生系統被摒棄，也讓很多新特性無法落地

AI 一體機，滿足新時代的新需求

AI摘要： AI 變革帶來哪些 IT 的新要求？深度學習的突破和硬件的突飛猛進，使得人工智能“第n春”煥發蓬勃生機。這是歷史上第一次，機器可以在如人臉識別等‘人類’工作上做得比我們人類更好。人工神經網絡有許多‘隱藏’或計算層，實現深度學習要對特定人工神經網絡架構進行一系列的特定配置，可以提供數據讓系統自我

人工智能專業成高校新網紅，深度分析AI行業的前景究竟如何！

實踐項目人類二級被人黃金最好階段成了生產開設人工智能學院如今已在高校中形成一股熱潮。據了解，在2018年認定的首批612個“新工科”研究與實踐項目中，布局建設了57個人工智能類項目。截至2017年12月，全國共有71所高校圍繞人工智能領域設置了86

當語音識別搭配AI之後，我的語音助手更懂我的心了

一定的平均值數據信息均值音頻問題做的在屏幕上要求歡迎大家前往騰訊雲+社區，獲取更多騰訊海量技術實踐幹貨哦~ 本文由騰訊雲AI中心發表於雲+社區專欄我今天演講主要分四個部分，第一個是分享語音識別概述，然後是深度神經網絡的基礎；接下來就是深度學習在語音

Yobe推出AI系統，分離人群中的語音，錯誤率降低85%

現在智慧助手和支援語音的揚聲器比以往更受歡迎。據Voicebot稱，約有4730萬美國成年人使用智慧音箱，超過一半的智慧手機使用者（52％）表示他們在移動裝置上使用語音助手。但普及並不一定轉化為準確性。但從人群中隔離語音時，它們往往效果很差。總部位於馬薩諸塞州波士頓的Yobe聲稱它可以讓

年少痴狂，懷戀曾經的創業歲月，語音識別的應用遠遠未到高潮，本人的軟體原始碼開源，需要的留下Email,我給大家發

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

新一代北汽紳寶X55：將三方面整合AI技術，9月上市

新一代X55將以AI車況管家、AI語音助手、AI安全衛士三大功能為核心。作為北汽紳寶旗下的第三款SUV，新一代紳寶X55在經過三年之後將於今年9月份上市。不過這次X55上最主要的賣點是令人有些意想不到的人工智慧AI技術，所以X55也是北汽大力研發AI技術進入2.0時代的首款產品。三大方面

助力AI開發者，小i機器人新一代智慧Bot開放平臺開啟執行

11月8-9日，由中國IT社群CSDN與矽谷AI社群AICamp聯合舉辦的2018AI開發者大會在北京舉辦，近百位中美頂尖AI專家、知名企業代表以及千餘名AI開發者齊聚北京，進行技術解讀和產業論證，小i機器人解決方案中心副總裁孫欣受邀出席大會並發表主題演講。會上，通過主題為《AI技術創新

Hadoop學習筆記—4.初識MapReduce 一、神馬是高大上的MapReduce 　　MapReduce是Google的一項重要技術，它首先是一個程式設計模型，用以進行大資料量的計算。對於大資料

Hadoop學習筆記—4.初識MapReduce 一、神馬是高大上的MapReduce 　　MapReduce是Google的一項重要技術，它首先是一個程式設計模型，用以進行大資料量的計算。對於大資料量的計算，通常採用的處理手法就是平行計算。但對許多開發

天貓精靈新技能上線，先聲智慧推出AI英語老師

北京2018年11月9日電 /美通社/ -- 雙11即將到來之際，國內領先的人工智慧公司先聲智慧在阿里天貓精靈上推出“先聲學英語”AI老師，與阿里的“螞蟻森林”技能並行上線，學習內容涵蓋成人實用英語和幼兒啟蒙英語。作為業內最大出貨量智慧音箱品牌，這將是阿里首次在AI教育領域、家庭學習場景

美國或將限制AI等14類新技術出口，有意針對中國

11 月 19 日，根據 2018 年國會通過的《出口管制改革法案（Export Control Reform Act）》要求，美國商務部工業安全署（Department of Commerce, Bureau of Industry and Securi

英特爾開源版HE-Transformer，對於隱私資料AI終於上手了！

正如所有資料科學家暢言的那樣，資料集是人工智慧的生命線，這對所有處理個人身份資訊（如醫療保健）的行業構成了固有的挑戰，但令人欣喜的是，對於模擬訓練的匿名加密方法已經取得了令人鼓舞的進展。 2018年12 月3日在加拿大蒙特利爾召開的NeurIPS 2018會議上，英特爾宣佈推出開源版 HE-T

從概念到應用，騰訊視角深入“解剖”AI平臺和語音技術

近年來，人工智慧技術快速發展，與其他行業的結合也成為業界不斷探索的方向。在人工智慧基礎和工具方面，AI平臺已成為降低人工智慧門檻的關鍵因素；而在人工智慧應用方面，作為最成熟的應用方向之一，智慧語音已在智慧家居、智慧車載等領域有了迅猛發展。以騰訊為代表的巨頭企業，憑藉強大的技術

Google開源新AI模型，語音區分準確率92%創新高 | 論文+GitHub

雷剛 發自 凹非寺 量子位 報道 | 公眾號 QbitAI

RNN模型

效果

意義

傳送門

相關推薦

雷剛發自凹非寺
量子位報道 | 公眾號 QbitAI