讓智慧音箱連續對話,百度工程師都做了些什麼?
如果家裡沒一臺“智慧音箱”,怎麼好意思說自己是極客Boy。
可當你忍不住剁手後,體驗了一兩天的嚐鮮感,十有八九會把它扔在角落裡吃灰。
每次對話都要喊一下喚醒詞,感覺好不彆扭,鄰居家還可能以為你養了條叫“XX”的狗;指令說道一半就會被打斷,莫名其妙的回了句“對不起,請再說一遍”;上一句還在問今天天氣怎麼樣,下一句問今天穿什麼衣服,給到的是和天氣毫無關係的答案……
不只是你覺得這種體驗很不爽,百度的工程師們也忍受不了這種“人工智障”,在今年的百度世界大會上,百度語音技術部總監高亮就聊了聊語音技術是如何讓智慧音響變聰明的。
先定一個小目標
鋼鐵俠和自己的AI管家賈維斯對話時,如果每次互動都要重新喚醒,不管是什麼人都能發號施令,環境太吵的時候就聽不清,鋼鐵俠不知道會被打趴下多少次。
在百度世界,高亮說“遠場語音的技術發展特別快,百度的喚醒、遠場識別以及基於高頻Query解決的語音語義一體化等技術,可以解決基礎體驗問題,讓音箱喚得醒,聽得清。”但是,解決基礎體驗還不夠,如果和智慧音箱互動,你就會發現,“聽懂”才是最難的。
“小度小度,放一首許巍的歌”
“現在播放許巍的歌曲《故鄉》”
“嗯……這是……他哪張專輯裡的?”
“來自專輯《那一年》”
……
在高亮現場的演示裡,搭載了百度遠場語音技術方案的智慧音箱只需喚醒一次就可以連續多輪對話,能夠準確識別使用者說話時的猶豫停頓、能夠區分並跟隨首次喚醒的人,與此同時,迴應還相當靈敏,與小度的問答越來越像一場“交談”而不僅僅是一次“互動”。從“互動”到“交談”,這就是百度工程師們正在做的事情。
當下的人工智慧遠沒有科幻電影中成熟,普遍認為還只有五六歲小孩的智商,可你和五六歲小孩溝通時也會這麼費勁嗎?就如高亮所言“每一個技術問題都會面臨一個技術解決的方法”,或許普通使用者只能吐槽抱怨一下,但百度的一群工程師們卻默默定了個小目標,不是先掙一個億,而是:
1、一次喚醒可以連續互動;只需要喚醒一次,就可以進行連續對話,不管智慧音箱處於什麼樣的工作狀態,哪怕正在播放音樂。就像人與人之間的對話那樣有問有答,不再是每次對話都要說出喚醒詞,真正的語音互動不應該是刻板的。
2、說話停頓不會打斷;當你說“給我放一首周杰倫的…呃…菊花臺”,智慧音箱不是著急隨便放了一首周杰倫的歌,而是播放菊花臺。智慧音箱要明白你什麼時候說完了,什麼時候沒說完,不會把你沒說完的話切斷,畢竟誰還沒有猶豫的時候呢。
3、知道說話人是誰;一個典型的三口之家,有爸爸、媽媽、孩子,每個人的需求是不一樣的。智慧音箱要精準識別出每一個人的聲音,知道問題是誰問的,然後給出準確的答案。
4、上下文對話連貫;智慧音箱在回答你現在的問題時,也要知道上一個問題是什麼,要學會結合上下文,不能答非所問。只有這樣人和智慧音箱的對話才會更自然,我們想要的不是沒有情感的機器,至少對話要有邏輯性。
5、聽清聽懂不傻冒泡;你在客廳和朋友聊天時,可能有些話是說給朋友聽的,有些是給智慧音箱的指令,這時候智慧音箱就要進行精準判斷,準確識別出你是不是在和音箱對話,而不是在不該出現的時候“插兩句嘴”。
現在語音互動用到的技術主要是麥克風陣列、語音識別、語義理解、語音轉文字、文字轉語音等等,都是人工智慧技術最基本的應用,幾乎一個十幾人的創業團隊就能完成。但百度工程師們的小目標,卻需要一連串的技術攻堅。
百度高階副總裁、AI 技術平臺體系總負責人王海峰所說過,AI技術與產業的結合愈發多元化,單一技術已無法滿足應用需求,只有更懂得理解和思考,最終將幫助人們更便捷自然地獲取資訊找到所求的互動,才能帶動整個生態的發展。
用技術拯救“人工智障”
想要智慧音箱可以連續對話、應答如流,最簡單的辦法就是“人工”智慧,比如2015年橫空出世的某客服機器人,憑藉軟萌的聲音、流暢的反應、高度人性化的對答,幾乎可以和鋼鐵俠的賈維斯媲美,最後卻被扒出是“攝像頭+變聲器+人工客服”。
當然,“人工”智慧也只有在演示時騙一騙領導,讓幾千萬臺智慧音箱、智慧家居、智慧手機等都能對答如流,又該怎麼實現呢?高亮在百度世界告訴我們,百度的工程師已經想出了一套系統化方案。
第一步是語音訊號處理。語音啟用檢測技術已經非常成熟,蘋果的“Hey,Siri”、DuerOS的“小度小度”都是案例,一次喚醒多次會話看起來也不復雜,比如設定智慧音箱在一定時間內自動收音。難點在於怎麼知道使用者的話到底有沒有說完。
因為我們說話不會永遠都是連續不卡殼的,比如我想聽一首薛之謙的歌,我可能會說“小度小度,給我播首薛之謙的……”思考1-2秒,然後說“認真的雪”。而這1-2秒間,就可能讓智慧音箱以為你說完了,從而接收指令給你播起了薛之謙的所有歌曲,甚至停止響應。
百度的工程師們準備了十幾萬小時的模擬訓練資料,數千套房間數萬組衝擊響應函式,上萬小時真實AEC錄製資料,以及幾十萬小時的無監督聲音資料,利用雲、端語音完整性聯動訓練的方法,然後基於大資料進行聲學建模和尾點檢測,打造了全新的語音識別引擎。
當你對智慧音箱說話的時候,音箱會立刻感知到,然後持續不斷向雲端傳送語音資料,進行語義分析,監測你說的話是不是完整,然後智慧音箱就能判斷你的話是否說完了。上傳的語音資料只有幾十K大小,整個過程不到一秒鐘就能完成。不會出現諸如音箱在放著音樂,你說了一句“暫停”,音箱兩三秒才響應,這個時候你可能會覺得音箱沒有聽見(尤其是音箱播放音量比較大的時候),然後再補一句“暫停”的情況。
就像高亮在現場的舉例,“給我放一首劉德華的…呃…忘情水”,這個猶豫發問和提筆忘字一樣,是很普遍的場景,需要對聲學建模做一些特殊處理,要有非常精準的尾點檢測, 讓系統能夠明白我們什麼時候是猶豫,什麼時候是說完了話,從而明確使用者所表達的意圖。
第二步聲紋跟蹤和決策。成年人的聲音可以長期相對穩定不變,就算別人故意模仿你的聲音和語氣,聲紋卻始終不會相同。和指紋、虹膜等生物識別一樣,聲紋也是獨一無二且相對穩定的生理特徵,這樣智慧音箱可以拒絕掉不需要的聲音。
於是百度的工程師們,根據自然界聲音標定的聲學置信度,對百萬人量級的聲紋進行學習建模,並推出了面向智慧音箱連續互動場景的語義置信度技術,也是業界首創自動區分語音中不同說話人身份的商用系統。會對喚醒人的聲紋進行註冊、跟蹤、拒識,和喚醒人方向不一樣的聲音會被拒絕掉,聲紋不同的聲音會被拒絕掉,和智慧音箱場景不匹配的聲音也會拒絕掉。
比如說你和朋友聊天的時候,聊到某首歌時想讓智慧音箱播放,也可能會聊到一些電視劇和工作上的事情。百度的智慧音箱已經達到了這樣的聰明程度:自動判斷是不是在和它說話,發現命令會立刻執行,不相關的對話絕不插一句嘴。
第三步互動上下文管理。現在的人工智慧不是仿生學,而是通過各種各樣的演算法,畢竟人類連大腦的工作原理都還沒有搞清楚,讓人工智慧像人類一樣思考還很遙遠。那麼問題就來了,和人工智慧進行單次的對話並不難,想要把上下文的資訊關聯在一起就需要考驗工程師們的腦洞了。
百度的工程師們先做了語音語義一體化技術,把聲學、聲紋、語義置信度和從DuerOS獲得到的垂類資訊資源融合起來,在深度神經網路的多資訊融合技術、高頻圖和通用圖並行解碼決策的基礎上,對對話的上下文進行跟蹤管理:判斷了說話物件後,可以知道之前互動的內容,知道物件的角色、喜好,然後綜合所有這些資訊作出精準決策,這樣就解決了上下文關聯的問題。
假如你問百度智慧音箱明天天氣怎麼樣,下一句問穿什麼衣服比較合適,聽到的回答會是和明天天氣相關的穿衣搭配。不會像一些智慧音箱一樣,你問穿什麼衣服,冷冰冰的來一句:“我找到附近有三家賣衣服的店鋪……”
技術可能不是萬能的,但沒有技術是萬萬不能的。
哪些場景可以用?
一次喚醒多輪對話的能力依賴於多項聲紋、語音、語義技術的進步,包括創新的尾點檢測技術,其利用雲端訊號AD技術一邊做語音識別一邊發給語義VAD,將聲學技術與語義技術結合在一起,能夠適應使用者說話速度,知道使用者什麼時候說完了,不在中間打斷。
魯棒拒識技術創新了聲紋跟蹤、語音置信度、聲學置信度,可以基於特定說話人的場景化識別,拒絕非音箱互動人聲,拒絕聊天內容與場景不一致的對話。
現場,高亮也用一款音箱向大家展示了百度遠場語音技術方案——通過一連串流利的互動,在大會會場高噪音的環境下,說話的距離超過1米,音箱的喚醒和識別表現很好。並且一次喚醒就能多次對話,智慧音箱在說話時,也能聆聽使用者的新命令並且快速執行。從更多的演示deme和視訊來看,維納斯智慧音箱也能實現一定的上下文理解。
想要讓智慧音箱實現連續對話的,不只是百度的工程師們,谷歌、亞馬遜等同樣在努力。這些個工程師們加班加點,冒著掉頭髮的風險去做技術研發,僅僅是為了讓智慧音箱不在角落裡吃灰嗎?
其實場景還有很多。
王海峰曾在中國圖靈大會上展示過百度的智慧語音搜尋:當用戶直接對著手機詢問“天氣熱嗎”,她會回答當地的天氣是熱還是涼爽,氣溫如何等情況;當用戶接著問“上海呢”,她能夠基於上下文理解技術自動補全使用者的問題是上海的天氣,從而給出準確的回答。此外在王海峰在百度AI開發者大會上的那段“花式 RAP”,百度AI也完全不懵逼,妥妥應答如流。
再比如公室裡的小組會議總需要安排一個人進行會議紀要,又不是專業的速記員,難免忘了某個問題是誰提的,某個人說了一大對話可能只記了開頭幾句。這時候聲紋識別技術就可以派上用場了,兩人場景中百度的識別準確率為95.2%,三人及以上場景也達到了92.9%,遠比普通人的會議紀要靠譜。
更多的應用場景在使用者家中——在典型的三口、四口之家,音箱能聽清、聽懂、滿足小孩、老人、妻子和丈夫,每個人不同的需求;能夠區分人聲和電視的噪音、家電的噪音,能夠明白使用者的指代關係,在一次連續互動的過程當中應答如流;能夠在當用戶表達完意圖的話,1秒內有動作,最遲不超過1.5秒。
又或者家裡來了朋友,智慧音箱可以能夠在使用者和朋友對話、聊天時能夠分辨來自同一方向的兩種聲音,哪個是指令,哪個是閒聊;更能夠明白主人什麼時候在和它講話,什麼時候在和朋友講話,不能兩個人討論著《延禧攻略》的劇情,音箱突然唱起了《紅牆嘆》或者放起了秦嵐的新聞。
還有在家裡用智慧音箱聽歌的時候,你喜歡聽的是周杰倫,你女朋友偏偏是鄧紫棋的粉絲,之前還存在互相切歌的場面。假如你有一臺DuerOS加持的技術音箱,你發出的指令立刻執行,對你女朋友的指令置若罔聞,切歌大戰輕鬆分出勝負。當然,遊戲的前提是你要有個女朋友。