1. 程式人生 > >乾貨丨AI語音二三事:你需要了解這些AI 語音對話技術

乾貨丨AI語音二三事:你需要了解這些AI 語音對話技術

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

機器學習以及自然語言處理技術的進步,開啟了人與人工智慧進行語音互動的可能,人們透過對話的方式獲取資訊、與機器進行互動,將不再只是存在科幻情結當中。語音互動是未來的方向,而智慧音箱則是語音互動落地的第一代產品。

一、語音互動流程簡介

AI 對話所需要的技術模組有 4 個部分,分別為:

  • 自動語音識別(Automatic Speech Recognition, ASR)

  • 自然語言理解(Natural Language Understanding, NLU)

  • 自然語言生成(Natural Language Generation, NLG)

  • 文字轉語音(Text to Speech, TTS)

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

以叮咚開發文件中的語音互動流程圖來看Ai 對話技術的主要路徑:

640?wx_fmt=jpeg

從上圖中可以看到,使用者與裝置之間的互動,主要是採用語音方式處理和完成的。

二、語音互動流程設計

一次完整的語音互動流程,成功的語音對話,通常是有以下幾個階段。

1.互動流程的核心—意圖

所謂意圖,表示使用者在使用應用時所做的動作(譬如:問一個問題或傳送一條指令),這些意圖代表了應用的核心功能。

如果應用成功地識別了使用者意圖,則需要在完成業務動作後,將結果反饋給使用者;如果應用無法識別使用者意圖,則需要給使用者友好的提示,指導使用者使用。

使用者:七星彩的開獎時間是什麼時候?
Ai:體育彩票七星彩每週二、週四和週日開獎。

2. 如何識別意圖—語義解析

對語音識別結果進行分析理解,簡單來說就是將使用者語音輸入對映到機器指令。它可能定義了一組包含指定的單詞或短語的語法結構,使用者通過說出滿足這種結構的語句,來呼叫意圖。

使用者:我要{聽} {周杰倫}的{稻香}
Ai:稻香.mp3

3.如何處理意圖—雲端互動

呼叫意圖的結構化請求,向伺服器請求處理後做出反饋響應。 通俗來講該流程主要處理使用者的請求,解決使用者問題的答案。

4.上下文意圖的處理-對話管理

在使用者進行自然對話時,可能會因為表達事情的複雜度、時間、地點、效率等,產生具有脈絡的對話過程,所有的對話元素會編織在一個連貫的線性對話中。

使用者:明天北京天氣如何?
Ai:明天北京天氣晴,溫度16到23度
使用者:後天呢?{後天北京天氣如何?}
Ai:後天北京天氣晴,溫度17到28度

5、語言合成模組 – 組織語言

根據解析模組得到的內部表示,在對話管理機制的作用下生成自然語言句子。 同時將生成模組生成的句子轉換成語音輸出。(把回答的機器語言再轉換成 口語語言)

三、 中文自然語言處理的關鍵技術

1、詞法分析

詞法分析包括詞形和詞彙兩個方面。一般來講,詞形主要表現在對單詞的字首、字尾等的分析,而詞彙則表現在對整個詞彙系統的控制。在中文全文檢索系統中,詞法分析主要表現在對漢語資訊進行詞語切分,即漢語自動分詞技術。通過這種技術能夠比較準確的分析使用者輸入資訊的特徵,從而完成準確的搜尋過程。它是中文全文檢索技術的重要發展方向。

2、句法分析

句法分析是對使用者輸入的自然語言進行詞彙短語的分析,目的是識別句子的句法結構,實現自動句法分析過程。其基本方法有線圖分析法、短語結構分析、完全句法分析、區域性句法分析、依存句法分析等。

3、語義分析

語義分析是基於自然語言語義資訊的一種分析方法,其不僅僅是詞法分析和句法分析這樣語法水平上的分析,而是涉及到了單詞、片語、句子、段落所包含的意義。其目的是從句子的語義結構表示言語的結構。中文語義分析方法是基於語義網路的一種分析方法。語義網路則是一種結構化的,靈活、明確、簡潔的表達方式。

4、語用分析

語用分析相對於語義分析又增加了對上下文、語言背景、環境等的分析,從文章的結構中提取到意象、人際關係等的附加資訊,是一種更高階的語言學分析。它將語句中的內容與現實生活的細節相關聯,從而形成動態的表意結構。

5、語境分析

語境分析主要是指對原查詢語篇以外的大量“空隙”進行分析從而更為正確地解釋所要查詢語言的技術。這些“空隙”包括一般的知識,特定領域的知識以及查詢使用者的需要等。它將自然語言與客觀的物理世界和主觀的心理世界聯絡起來,補充完善了詞法、語義、語用分析的不足。

四、 Ai對話目前存在的問題

人機對話過程中,使用者難免會出現表達失誤的情況,導致機器對使用者語言理解出現偏差,在這時, 糾錯機制對機器而言則非常重要,如缺少這個機制,使用者需要花費相當長的時間將其意圖解釋清楚,相應的使用者體驗也會十分糟糕。另一方面,雖然可以很好的識別語音,但是卻不能理解你的對話目的, 語義理解上有偏差。

當前,包括Alexa在內的國內外智慧音箱之所以沒有表現的那麼智慧,出現了“人工智障”的嘲笑也是因為在以上兩方面沒有處理太好。

因此語音互動最終需要解決的關鍵問題是 歧義消解問題,和 未知語言現象的處理問題。

五、 智慧語音助手背後的生態服務

Amazon Echo 的勝利在於其語音助手 Alexa 掌握的無數技能,Google Assistant 以及Google Home之所以被人看好是在於其 Android 後發優勢所具備的開放性。

智慧語音助手類的產品要想在中國落地開花,它不僅僅是簡單的語音識別那麼簡單,還有整合服務,一整套的中文生態、內容、服務等配套設施,是一種涵蓋很多基礎能力的生態系統。

未來基於語音互動的語義技能,必須要能夠達到幾萬、幾十萬甚至上百萬種的時候,才能促使語音互動時代作業系統真正走向成熟,未來語音互動產品的形態和樣式也將越來越豐富。

讓我們期待未來Ai語音互動的蓬勃發展,期待未來對技術的無限挑戰!

640?wx_fmt=jpeg