1. 程式人生 > >谷歌開源 AI 可在嘈雜環境中區分聲音,準確率達92%

谷歌開源 AI 可在嘈雜環境中區分聲音,準確率達92%

據 VentureBeat 報道,Google 人工智慧研究部門在語音識別方面取得了新的進展,能從嘈雜的環境中分辨聲音,準確率高達 92%。Google 人工智慧研究部門在一篇名為《Fully Super vised Speaker Diarization》的論文中描述了這一新的 AI 系統,稱它“能以一種更有效的方式識別聲音”。

這套強大的 AI 系統涉及到 Speaker diarization 任務,需要標註出“誰”從“什麼時候”到“什麼時候”在說話,將語音樣本分割成獨特的、同構片段的過程。還能將新的演講者發音與它以前從未遇到過的語音片段關聯起來。

核心演算法已經開源可用。它實現了一個線上二值化錯誤率(DER),在NIST SRE 2000 CALLHOME基準上是7.6%,這對於實時應用來說已經足夠低了,而谷歌之前使用的方法DER為8.8%。

谷歌研究人員的新方法是通過遞迴神經網路(RNN)模擬演講者的嵌入(如詞彙和短語的數學表示),遞迴神經網路是一種機器學習模型,它可以利用內部狀態來處理輸入序列。每個演講者都從自己的RNN例項開始,該例項不斷更新給定新嵌入的RNN狀態,使系統能夠學習發言者共享的高階知識。

研究人員在論文中寫道:“由於該系統的所有元件都可以在監督環境下學習,所以在有高質量時間標記演講者標籤訓練資料的情況下,它比無監督系統更受青睞。我們的系統受到全面監督,能夠從帶有時間戳的演講者標籤例子中學習。”

在未來的工作中,研究團隊計劃改進模型,使其能夠整合上下文資訊來執行離線解碼,他們希望這將進一步減少DER。研究人員還希望能夠直接對聲學特徵進行建模,這樣整個Speaker diarization系統就可以進行端到端訓練。

來自:網易科技

相關連結

  • http://kke4.blog.sohu.com/
    http://69f3s.blog.sohu.com/
    http://69ko.blog.sohu.com/
    http://99l5u.blog.sohu.com/
    http://gmy06.blog.sohu.com/
    http://fs98u.blog.sohu.com/
    http://66ddv.blog.sohu.com/
    http://ccv66.blog.sohu.com/
    http://ddv59.blog.sohu.com/
    http://ddv63.blog.sohu.com/
    http://ddv99.blog.sohu.com/
    http://ddv987.blog.sohu.com/
    http://ddv631.blog.sohu.com/
    http://ddv996.blog.sohu.com/

相關推薦

開源 AI 嘈雜環境區分聲音準確率92%

據 VentureBeat 報道,Google 人工智慧研究部門在語音識別方面取得了新的進展,能從嘈雜的環境中分辨聲音,準確率高達 92%。Google 人工智慧研究部門在一篇名為《Fully Super vised Speaker Diarization》的論文中描述了這一

開源TF-Ranking擴充套件庫支援多種排序學習

銅靈 發自 凹非寺   量子位 出品 | 公眾號 QbitAI 最近,谷歌新開源了可擴充套件的TensorFlow庫TF-Ranking,可用於學習排序。所謂學習排序,也就是對專案列表進行排序,從而將整個功能最大化的過程。   TF-Ranking中有一套完整

開源 TF-Ranking專用於排序學習的擴充套件 TensorFlow 庫

   日前,谷歌 AI 釋出了最新成果 TF-Ranking,它是一個專門針對排序學習(learning-to-rank)應用的可擴充套件 TensorFlow 庫。TF-Ranking 快速且易用,並能建立高質量的排序模型,對構建 web 搜尋或新聞推薦等基於真實世界資料的排

【BIEE】11_BIEE圖形報表在瀏覽器64.0.3282.140訪問圖例亂碼解決

中文 order image 下載谷歌 isp pap 但是 api png 如上圖,使用谷歌瀏覽器訪問BIEE圖形報表的時候,標題、圖例等涉及到中文的地方全部亂碼了!但是用IE打開是不會亂碼的,這是由於:谷歌需要設置編碼格式但是55版本以後,谷歌公司為了加快瀏覽器的速度,

開源的TensorFlow Object Detection API視頻物體識別系統實現教程

cti blog tail xiaoxiao pan clas post ont 谷歌 教程:http://blog.csdn.net/xiaoxiao123jun/article/details/76605928 全部代碼:https://github.com/lyj83

在安卓P版本已經提供了統一的適配方滴滴回應:核實後

不存在 業務 tensor 面試 log usb code 軟件 wing 本文主要介紹有權圖中的最短路徑問題,由於Dijksra算法是廣度優先搜索的改進算法,所以本文先介紹一下普通的bfs算法。 一BFS算法 說到BFS算法,其實普 JAVA平臺提供了兩個類:Sring和

多巴胺:開源新型增強學習框架

lis line 靈活 orm 額外 行為 mac otto msu https://mp.weixin.qq.com/s/KRyr0y84k6vkezuuM408lw Google 近日宣布開源一個新的基於 Tensorflow 的框架 —— Dopamine,旨在為

開源基於TensorFlow的通用框架AdaNet快速且易於使用

Ensemble learning結合不同機器學習模型預測,被廣泛用於神經網路以實現最先進的效能,得益於豐富的歷史和理論保證,成功的挑戰,如Netflix獎和各種Kaggle競賽。然而,由於訓練時間長,它們在實踐中使用不多,機器學習模型候選者選擇需要其自己的領域專業知識。但隨著計算能力和專用深

宣佈AI for Social Good計劃包括一項2500萬美元的競賽

Google AI今天宣佈了AI for Social Good計劃,這是一項將核心AI研究和工程應用於谷歌內部,以及更廣泛的AI生態系統中的社會公益專案。 作為該計劃的一部分,谷歌推出了AI Impact Challenge,這是一項支援各種AI以獲得高達2500萬美元資金的優秀專案的競

李飛飛確認將離職!AI總帥換人卡耐基·梅隆老教授接棒

李飛飛正式迴歸斯坦福,新任谷歌雲AI總帥還是個教授,不過這次是全職。 9月11日凌晨訊息,谷歌雲CEO Diane Greene剛剛在其官方部落格上公佈了一則重磅新聞,確認來自卡內基梅隆大學的電腦科學院院長Andrew Moore教授將在2018年底接任李飛飛的谷歌雲AI負責人職位,而李飛

開源整合學習工具AdaNet:2017年提出的演算法終於實現了

曉查 編譯整理量子位 報道 | 公眾號 QbitAI 最近,谷歌在GitHub上釋出了用TensorFlow實現的AutoML框架——AdaNet,它改進了整合學習的方法,能以最少的專家干預實現自動習得高質量模型。 谷歌AI研究團曾在2017年的ICML上提出了AdaNet:人

開源的 GAN 庫--TFGAN

本文大約 8000 字,閱讀大約需要 12 分鐘 第一次翻譯,限於英語水平,可能不少地方翻譯不準確,請見諒! 最近谷歌開源了一個基於 TensorFlow 的庫--TFGAN,方便開發者快速上手 GAN 的訓練,其 Github 地址如下: github.com/tensorflow/…

醫療AI商業化提速!Jeff Dean親自挖來大總管

一璞 李根 發自 億頃厚木 量子位 報道 | 公眾號 QbitAI 軍方大訂單不讓接,個別國家市場進不去。 眼下的谷歌,即便貴為全球AI第一大廠,處境也非常尷尬。 而且天要下雨員工要吃飯,還得扛起人類的希望,哪怕眼下收入和股價還不錯,但誰又能保證幾年後不會成為雅虎?

開源的基於 TensorFlow 的輕量級框架 AdaNet幾大優勢

TensorFlow 是相對高階的機器學習庫,使用者可以方便地用它設計神經網路結構,而不必為了追求高效率的實現親自寫 C++或 CUDA 程式碼。它和 Theano 一樣都支援自動求導,使用者不需要再通過反向傳播求解梯度。   而基於 TensorFlow 的輕量級框架 Ad

瀏覽器匯出部分資料夾的書籤

瀏覽器中書籤太多,分了好多資料夾,想只匯出部分資料夾中的書籤。 然而...搜遍全網都沒找到一個簡單的方法。 後來自想到一種方法可以曲線救國吧... 一、修改書籤步驟: 思路:使用谷歌瀏覽器的多使用者功能,對書籤進行操作,匯出一個只包含需要書籤的html檔案。 谷歌瀏覽器的多使用者功能可以開啟一個純淨

開源SLAM庫cartographer在Turltlebot的應用

cartographer介紹 這是一個實時同步定位與地圖系統(SLAM),提供ROS 系統支援2D 和 3D SLAM(simultaneous localization and mapping)庫。 目前,Cartographer 特別注重於 Lidar SLAM,通過社群的貢獻和

gRPC 1.17.0 釋出開源的高效能 RPC 框架

   gRPC 1.17.0 已釋出,包含優化、改進和錯誤修復,更新如下: Core Add support for LB config in service config. (#17063) Don't reset channel state on resolver f

gRPC 1.17.1 pre 1 釋出開源的高效能 RPC 框架

   gRPC 1.17.1 pre 1 釋出了,gRPC 是 Google 開源的高效能、通用 RPC 框架,面向移動和 HTTP/2 設計,是由谷歌釋出的首款基於 Protocol Buffers 的 RPC 框架。gRPC 基於 HTTP/2

基於開源的TensorFlow Object Detection API視訊物體識別系統實現教程

安裝Python 進入Python3.6.2下載頁,選擇 Files 中Windows平臺的Python安裝包,下載並安裝(本人安裝的是3.6.2版本的python,可根據實際情況下載不同版本的python) 安裝TensorFlow 進入TensorFlow

開源Tensorflow Object Detection API學習筆記

谷歌宣佈開源其內部使用的 TensorFlow Object Detection API 物體識別系統。本教程針對ubuntu16.04系統,快速搭建環境以及實現視訊物體識別系統功能。 https://yq.aliyun.com/ziliao/405237 https://www.cnblo