乾貨丨AI語音二三事：你需要了解這些AI 語音對話技術

阿新 • • 發佈：2019-01-28

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

機器學習以及自然語言處理技術的進步，開啟了人與人工智慧進行語音互動的可能，人們透過對話的方式獲取資訊、與機器進行互動，將不再只是存在科幻情結當中。語音互動是未來的方向，而智慧音箱則是語音互動落地的第一代產品。

一、語音互動流程簡介

AI 對話所需要的技術模組有 4 個部分，分別為：

自動語音識別（Automatic Speech Recognition, ASR）
自然語言理解（Natural Language Understanding, NLU）
自然語言生成（Natural Language Generation, NLG）
文字轉語音（Text to Speech, TTS）

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

以叮咚開發文件中的語音互動流程圖來看Ai 對話技術的主要路徑：

640?wx_fmt=jpeg

從上圖中可以看到，使用者與裝置之間的互動，主要是採用語音方式處理和完成的。

二、語音互動流程設計

一次完整的語音互動流程，成功的語音對話，通常是有以下幾個階段。

1.互動流程的核心—意圖

所謂意圖，表示使用者在使用應用時所做的動作(譬如：問一個問題或傳送一條指令)，這些意圖代表了應用的核心功能。

如果應用成功地識別了使用者意圖，則需要在完成業務動作後，將結果反饋給使用者；如果應用無法識別使用者意圖，則需要給使用者友好的提示，指導使用者使用。

使用者：七星彩的開獎時間是什麼時候？
Ai：體育彩票七星彩每週二、週四和週日開獎。

2. 如何識別意圖—語義解析

對語音識別結果進行分析理解，簡單來說就是將使用者語音輸入對映到機器指令。它可能定義了一組包含指定的單詞或短語的語法結構，使用者通過說出滿足這種結構的語句，來呼叫意圖。

使用者：我要{聽} {周杰倫}的{稻香}
Ai：稻香.mp3

3.如何處理意圖—雲端互動

呼叫意圖的結構化請求，向伺服器請求處理後做出反饋響應。通俗來講該流程主要處理使用者的請求，解決使用者問題的答案。

4.上下文意圖的處理-對話管理

在使用者進行自然對話時，可能會因為表達事情的複雜度、時間、地點、效率等，產生具有脈絡的對話過程，所有的對話元素會編織在一個連貫的線性對話中。

使用者：明天北京天氣如何？
Ai：明天北京天氣晴，溫度16到23度
使用者：後天呢？{後天北京天氣如何？}
Ai：後天北京天氣晴，溫度17到28度

5、語言合成模組 – 組織語言

根據解析模組得到的內部表示，在對話管理機制的作用下生成自然語言句子。同時將生成模組生成的句子轉換成語音輸出。（把回答的機器語言再轉換成口語語言）

三、中文自然語言處理的關鍵技術

1、詞法分析

詞法分析包括詞形和詞彙兩個方面。一般來講，詞形主要表現在對單詞的字首、字尾等的分析，而詞彙則表現在對整個詞彙系統的控制。在中文全文檢索系統中，詞法分析主要表現在對漢語資訊進行詞語切分，即漢語自動分詞技術。通過這種技術能夠比較準確的分析使用者輸入資訊的特徵，從而完成準確的搜尋過程。它是中文全文檢索技術的重要發展方向。

2、句法分析

句法分析是對使用者輸入的自然語言進行詞彙短語的分析，目的是識別句子的句法結構，實現自動句法分析過程。其基本方法有線圖分析法、短語結構分析、完全句法分析、區域性句法分析、依存句法分析等。

3、語義分析

語義分析是基於自然語言語義資訊的一種分析方法，其不僅僅是詞法分析和句法分析這樣語法水平上的分析，而是涉及到了單詞、片語、句子、段落所包含的意義。其目的是從句子的語義結構表示言語的結構。中文語義分析方法是基於語義網路的一種分析方法。語義網路則是一種結構化的，靈活、明確、簡潔的表達方式。

4、語用分析

語用分析相對於語義分析又增加了對上下文、語言背景、環境等的分析，從文章的結構中提取到意象、人際關係等的附加資訊，是一種更高階的語言學分析。它將語句中的內容與現實生活的細節相關聯，從而形成動態的表意結構。

5、語境分析

語境分析主要是指對原查詢語篇以外的大量“空隙”進行分析從而更為正確地解釋所要查詢語言的技術。這些“空隙”包括一般的知識，特定領域的知識以及查詢使用者的需要等。它將自然語言與客觀的物理世界和主觀的心理世界聯絡起來，補充完善了詞法、語義、語用分析的不足。

四、 Ai對話目前存在的問題

人機對話過程中，使用者難免會出現表達失誤的情況，導致機器對使用者語言理解出現偏差，在這時，糾錯機制對機器而言則非常重要，如缺少這個機制，使用者需要花費相當長的時間將其意圖解釋清楚，相應的使用者體驗也會十分糟糕。另一方面，雖然可以很好的識別語音，但是卻不能理解你的對話目的，語義理解上有偏差。

當前，包括Alexa在內的國內外智慧音箱之所以沒有表現的那麼智慧，出現了“人工智障”的嘲笑也是因為在以上兩方面沒有處理太好。

因此語音互動最終需要解決的關鍵問題是歧義消解問題，和未知語言現象的處理問題。

五、智慧語音助手背後的生態服務

Amazon Echo 的勝利在於其語音助手 Alexa 掌握的無數技能，Google Assistant 以及Google Home之所以被人看好是在於其 Android 後發優勢所具備的開放性。

智慧語音助手類的產品要想在中國落地開花，它不僅僅是簡單的語音識別那麼簡單，還有整合服務，一整套的中文生態、內容、服務等配套設施，是一種涵蓋很多基礎能力的生態系統。

未來基於語音互動的語義技能，必須要能夠達到幾萬、幾十萬甚至上百萬種的時候，才能促使語音互動時代作業系統真正走向成熟，未來語音互動產品的形態和樣式也將越來越豐富。

讓我們期待未來Ai語音互動的蓬勃發展，期待未來對技術的無限挑戰！

640?wx_fmt=jpeg

乾貨丨AI語音二三事：你需要了解這些AI 語音對話技術

三、中文自然語言處理的關鍵技術

1、詞法分析

2、句法分析

3、語義分析

4、語用分析

5、語境分析

四、 Ai對話目前存在的問題

五、智慧語音助手背後的生態服務

乾貨丨AI語音二三事：你需要了解這些AI 語音對話技術

短視訊sdk：選擇一個靠譜的短視訊SDK 你需要了解這些

開發的二三事：CRLF 和 LF

微服務架構二三事：總論

緩沖區溢出實戰教程系列（三）：利用OllyDbg了解程序運行機制

Java 訪問權限控制：你真的了解 protected keyword嗎？

關於 hashCode() 你需要了解的 3 件事

資料分析師：大資料建模，你需要了解九大形式

區塊鏈交易所開發：我們需要了解區塊鏈交易所的交易類型

Java後端開發三年，你不得不了解的JVM

即將到來的金三銀四，這10道springboot常見面試題你需要了解下

三步帶你去了解抖音引流機器人原理和爆粉秘訣

Android 開發你需要了解的那些事

移動端二三事【二】：移動端觸摸事件點透及多種解決方案。

移動端二三事【四】：陀螺儀（重力感應器）實現手機位置、加速度感應以及常見應用。

（一）多執行緒說學逗唱：關於執行緒那不得不說的二三事

移動端二三事【五】：陀螺儀（重力感應器）實現手機位置、加速度感應以及常見應用。

演算法題練習系列之（四十一）：童年生活二三事

Android：Handler 二三事（三）訊息處理機制

Android：Handler 二三事（二）由記憶體洩漏所想到的（垃圾回收機制）

乾貨丨AI語音二三事：你需要了解這些AI 語音對話技術

三、 中文自然語言處理的關鍵技術

1、詞法分析

2、句法分析

3、語義分析

4、語用分析

5、語境分析

四、 Ai對話目前存在的問題

五、 智慧語音助手背後的生態服務

相關推薦

三、中文自然語言處理的關鍵技術

五、智慧語音助手背後的生態服務