如何開發語音 AI 技能,小雅和小豹的產品經理做了一篇詳細的總結
在今年 9 月, ofollow,noindex" target="_blank">亞馬遜宣佈 Alexa 平臺上的技能已經超過 5 萬個 。這是一件令語音 AI 從業者歡欣鼓舞的事。越來越多的人注意到語音互動的潛力,開始製作語音互動技能。在國內,在 百度 DuerOS 等語音平臺的教育和推動 下,有超過 2 萬名開發者參與了技能開發的開發實踐。
本文的作者是一名產品經理,曾經參與了小雅 AI 音箱、小豹 AI 音箱的技能打造,以個人開發者的身份為 DuerOS 平臺開發過一些技能。藉著參與小度技能開發大賽的機會,他對技能開發的經驗做了總結,分享給大家。全文授權深圳灣編輯整理併發布。

前世
語音互動技能,也叫「技能」,這是個新鮮事物。在兩年前,它還只有英文名 skill,而定義語音 skill 的,就是亞馬遜的現象級語音互動產品 Echo 智慧音箱。
時間回到 2015 年,當時雖然已有不少廠商釋出了智慧音箱,但是大家還只是用來聽聽歌,查查天氣,雖然這兩個最常用的技能,在當時也沒有很完善。
2015 年 7 月,亞馬遜宣佈向第三方開放部分語音互動能力,正是這個嘗試,讓 Alexa 平臺誕生了最早的一批第三方技能,如:Crystal Ball(水晶球),Math Puzzles(猜數字),StubHub(今晚幹啥)。

現在看來,這三個技能都很基礎,甚至有點簡陋。比如,Crystal Ball 水晶球這個技能,簡單到任何問題,Alexa 的回答都是 Yes 或 No,而且還是隨機的,作用就是協助使用者在面對糾結的問題時做出選擇。你問裝置:Alexa,我該減肥嗎?裝置回答:Yes。第二次你問裝置:Alexa,我該減肥嗎?裝置回答的可能就是 No。你問什麼問題裝置不管,裝置只管回答 Yes 和 No。我猜這個技能也許實現起來只用了 3~4 行程式碼吧。
Math Puzzles,猜數字,這個技能實現起來也不難。裝置會播報一串數字,這串數字有一定邏輯,你說出下一個數字就可以了。比如,裝置會問 2,4,6,8 的下個數字是多少?你對 Alexa 說 10,就算答對了。
StubHub,今晚幹啥,稍微複雜些。Alexa 會把裝置的地理位置給到開發者,所以當你問 Alexa 今晚幹啥的時候,Alexa 可以根據地理位置,向你推薦附近的電影、沙龍、活動和派對。對話示例如下:
使用者提問:Alexa,今晚乾點啥?
但是,如果使用者追問:Alexa,演講人是誰?裝置就回答不上了。是的, Alexa 開放出來的技能,最早並沒有多輪對話。

進化
2016 年 1 月,Alexa 的 skill 數量達到了 130 個。Alexa 團隊興高采烈的釋出了一個 infographic(資訊圖)來向公眾介紹成果。
這一行為,把亞馬遜的老大貝索斯搞炸了,趁著開會,把 Alexa 團隊教育一番:130?Wtf,怎麼這麼少...(據美國媒體 The information 報道,但亞馬遜官方不予置評。) 貝索斯要求技能開發的速度要加快、加快、再加快。
2016 年 11 月,也就是 10 個月之後,Alexa 的 skill 數量達到了驚人的 5000 個!這個時候,美國人民已經可以用 Alexa 叫 Uber、聽 Twitter 的內容了,智慧音箱終於擺脫了只能聽歌、查天氣的窘境。回過頭來看,這是不是還要部分感謝貝索斯開會時拍桌子啊。
等冬天過完,到了 2017 年上半年,對矽谷隨時保持敏感的國內網際網路大佬們,順利把國內智慧音箱的大戰點燃,做智慧音箱裝置的廠商多到上百家,BATJM 等一線網際網路公司和語音 AI 公司,紛紛上線語音智慧開放平臺。在深圳,三個月內,更是連續上演了兩場 影響深遠的語音智慧峰會 。

定義
伴隨著行業熱潮,平臺推動,開發 skill 的人逐漸多了起來。也正是在這個時候,skill 開始有了中文名,而翻譯為「技能」是再合適不過了。
根據《辭海》的詞條說明,技能是運用知識和經驗執行一定活動的能力。放到語音 AI 的場景裡, 語音互動技能就是運用自然語言對話的互動方式,實現影音娛樂、資訊查詢、生活服務等的功能,簡稱「技能」 。
關於技能的前世今生,還可以參考深圳灣在 2017 年的兩篇關於語音技能的特稿(1、 2 )

技能有哪些分類?
有了名稱,就要把技能再做一下歸類。
目前,不管是亞馬遜 Alexa 平臺,還是國內的各家語音 AI 平臺。技能的分類標準都很像,基本是把技能分成三大類:自定義技能、智慧家居技能、內容播報技能。
自定義技能 主要有兩類,生活服務類、娛樂遊戲類。比如上文介紹的幾個技能,都屬於自定義技能。

智慧家居技能 主要是用來對其他智慧裝置進行語音控制,介面的完善性和語音互動已經趨於成熟,我聽說有的團隊把硬體接入 Alexa 可能一天時間都用不到(稽核時間不算)。這方面,對 Alexa 智慧裝置做過大量報道的深圳灣,給到我的解釋是,Echo 的熱銷帶動了大批的智慧裝置廠商湧入,這背後少不了 IoT 方案商的推動,他們提供的 Alexa 接入方案,可以大大提高裝置智慧化的速度。

而 內容播報技能 則是對新聞和資訊所做的語音傳遞。Alexa 平臺在很早的時候,就集合了幾乎所有美國的主流媒體:NYT、WSJ、NPR、CNN 等等,而當時,媒體機構對於語音這個新興的平臺,還是處於卡位階段。
有媒體稱,在和 CNN 的受眾發展部副總裁艾倫·西格爾交流時,就發現他們暫時還是把 Alexa 這個媒體投放渠道放在了戰略圈的最外層,和 Apple Watch 等渠道平級。但他依然看好這種形式的潛力,畢竟,美國已經有五分之一的家庭擁有了智慧音箱。

而在國內,騰訊新聞和新華社等媒體機構,都已經開始嘗試把新聞 feed 流接入到語音智慧平臺,並且在小雅 AI 音箱、小豹 AI 音箱、小度音箱等裝置上落地。

技能開發的核心:VUI
以上這三種技能分類,在開發上側重點也會不同。比如,自定義技能,它的核心就是是語音互動(voice interactive)。
語音互動就是將人的語言轉換成應用的 request(面向系統的請求)的模式,也就是 VUI(Voice UI),而我們之前談論的 UI 更多意義上是 GUI(Graphic UI)。要做好 VUI 的互動和 GUI 一樣,都需要對細節提出更多更高的要求。
亞馬遜的 VUI 設計師 Amdrew Ku 就曾經說過:「 人類對於聲音的敏感是超出很多人的想象的。 」
過去很長一段時間,VUI 方面積累的理論遠遠少於 GUI。市面上相對經典的一本書是今年剛剛出版的《語音使用者介面設計》。

當然,對於 VUI 這樣的新鮮事物,雖然著作出版物並不多,網路資訊還是比較的豐富,亞馬遜 Alexa 平臺和國內各家語音 AI 平臺也積累了不少經驗,大家感興趣的話,平時可以多多關注。
技能開發有哪些 Know How?
1、起個好名字
技能開發和 App 開發有很多相同點,首先一點,名字非常重要。
在語音互動中,技能名字不僅影響到使用者的開啟意願,更會影響到識別率。如果技能的名字太長,或者不好識別,使用者是根本無法進入技能的,如果這樣的情況發生,即便體驗再優良的技能也無法被使用者使用。

另外,技能最好不要用生僻字。因為據我觀察,目前 DuerOS 和其他語音 AI 平臺有很多的使用者可能是小朋友~
總結起來,一個好的名字應該考慮到以下幾點:
清晰易讀 。釋出技能前,可以自己一口氣讀三遍技能的名字,看看是否能順利的讀出來。另外一定要用真機測試功能,確保可以識別,不然等上線再去改,可是會影響到線上使用者的體驗。
體現技能功能 。讓使用者知道這個技能是做什麼的。如果能做的事情比較多,就要拆分成幾個技能。基本原則是 Do one thing and do it well。
技能名稱不會產生混淆,能讓使用者記住 。技能商店的技能會越來越多,很多相似名稱的技能也會出現。這時,可以借鑑 App 起名字的方法,採用一些關聯實體物品的起名方法。比如,笑話類的技能,就可以叫香蕉笑話、大象笑話。
2、看資料
同樣可以借鑑 App 的做法,在設計技能的初期,可以採用 MVP(Minimum Viable Product 最簡化可實行產品)的原則,先發佈一個簡化的技能,技能上線後再分析語音互動資料,根據潛在需求對技能進行迭代和完善,逐步增加功能和優化體驗。
資料能完整的呈現使用者使用路徑。通過分析語音互動資料,你可以很容易的發現使用者卡在什麼地方,或者語音識別哪裡出錯。
舉例來說,朋友開發了「周公解夢」這個技能,在檢視裝置互動資料時,他發現使用者會說到一些裝置無法識別的語句,比如「我們的懸崖」。很明顯,使用者想表達的意思是「我夢到懸崖」,所以需要在常用語句識別模型中提供「我們到XX」的語句。這樣,以後再識別成「我們到XX」,裝置就可以成功解析了。
3、關注外表
技能的外表很重要。技能開發者應該多花時間做個漂亮的 logo,這個點容易被忽視,畢竟,開啟技能是通過語音識別,而不是視覺發現。但這不能想當然,要知道,使用者發現和安裝技能,主要還是通過 App 端的操作。
除了 logo,技能的文字介紹也要好好優化。還要選擇一個技能分類,這樣使用者可以更方快捷的找到技能。

4、聽取使用者反饋
還可以做的是,通過各種渠道接觸使用者,聽取反饋。比如,把聯絡方式放到技能簡介中,發動親朋好友幫你測試技能,追著他們多提意見反饋。這樣,技能的迭代和優化才有了方向。我會在技能介紹裡留下我的 QQ 郵箱,當技能的策劃開發遇到迷茫時,使用者的反饋往往能起到撥雲見日的效果。
結語
小結一下,這篇文章主要分享了我作為一名 AI 音箱產品經理、開發 AI 語音技能的經驗。 介紹了語音技能(skill)的前世和進化,技能的定義,技能的分類,語音介面互動(VUI),以及開發技能的經驗總結 。全文授權深圳灣編輯整理併發布。
是的,人類對於聲音的敏感是超出很多人的想象的。亞馬遜的 VUI 設計師 Amdrew Ku 列舉了一個技能開發的案例:
在過去,當你與 Alexa 裝置對話喊出「turn on my lights」的時候,它的回覆是「OK」。當我們把「OK」改成一個「叮」的聲音後,收到上萬名使用者抱怨,反饋說我們把裝置變成了一個機器人。我們就又把它改回「OK」。 產品經理要設計和開發一個優秀的語音技能,要對體驗中的每一個細節都做持續優化。
百度 DuerOS 聯合深圳灣共同舉辦的「喚醒之旅 Workshop」系列活動即將開啟!11 月 18 日,優質對話式 AI 技能的互動設計與開發演練, 喚醒之旅 Workshop 北京站 ,歡迎報名參與 !
本文作者:毛川,語音 AI 產品經理,原小雅 AI 音箱、小豹 AI 音箱技能及軟體產品經理,在嘗試了一段時間的獨立開發者之後,現任喜馬拉雅小雅智慧產品總監和高階產品經理。
本文編輯、審校:陳壹零 / 深圳灣