1. 程式人生 > >InfoQ專訪:人工智慧時代,什麼才是你的最大競爭力?

InfoQ專訪:人工智慧時代,什麼才是你的最大競爭力?

採訪 & 撰稿 | Natalie

嘉賓 | 陳鬆堅

編輯 | Vincent

導讀:騰訊小知是騰訊雲旗下自主研發的,為企業級客戶打造的24小時線上智慧客服機器人系統。小知將騰訊大資料AI團隊積累的高尖人工智慧技術融入到客戶溝通、智慧服務、服務管理和商業決策各環節,打造客戶服務閉環,大大提升客服效率。

騰訊小知的推出無疑是給市場注入了新的血液,但智慧客服 / 問答產品的市場競爭一直非常激烈,很多公司都嘗試在不同的垂直領域開發智慧客服產品。在 Reddit 上,有觀點認為,NLP 領域的突破狀況令人失望,近年來在技術和商業化上少有實質性突破進展。

在如此市場形勢下,我們為什麼還要花費近一年時間打造騰訊小知這款智慧客服產品?產品應用進展如何?這是很多人所疑惑的。9 月 16 日,由 AICUG 人工智慧技術社群、Datafun 社群、博學主辦的 2018 AI 先行者大會於杭州召開,騰訊資料平臺部演算法高階研究員陳鬆堅發表了主題為“庖丁解牛:智慧客服的問題分解和解決思路”的演講,並受邀接受了InfoQ的採訪,談談智慧客服 / 問答產品和 NLP 技術的技術難點、解決思路、商業化落地的途徑和未來發展。

騰訊小知是什麼?

Info Q:請先介紹一下騰訊小知這款智慧客服產品,它有什麼技術特點?騰訊小知是什麼時候開始研發和真正落地應用的?目前主要在哪些場景有實際落地應用(騰訊內部和對外),能否分別舉幾個例子說明(包括落地的效果)?

陳鬆堅:小知是從去年 7 月開始啟動研發的智慧客服系統,經歷 10 個多月的核心功能打造,現已落地多個應用,日均回答百萬量級。小鈦的主要的技術特點有三個:

1.依託大資料平臺實現問法挖掘,問法改寫等冷啟動階段的必需工具,降低客戶準備問答庫的難度和運營人力投入。

2.基於深度學習和遷移學習模型,實現小語料(平均每個知識點下的相似問法數最多 3 條)下的模型訓練和準確匹配。同樣也是提高專案啟動語料不足情況下問答準確率不佳的問題。

3.結合行業知識圖譜多輪對話模型實現問答式體驗,而非一般的搜尋式體驗(追問多條問句)。

目前落地在政務、零售、服務等多個行業,上線時間僅 2 個月,已落地了數套成熟行業解決方案,成長勢頭很好,也說明這塊市場的價值。在這些應用上,我們的解答率都達到 90% 以上,並且部分實現了類問答的體驗而非搜尋體驗。

實際以公安行業為例,政務領域的智慧問答存在一個問題就是涉及場景較複雜,如戶口業務就分為遷入和遷出,遷入分為市外遷入和市內遷移,而市外遷入又分為父母投靠,子女投靠,應屆畢業生落戶,積分入戶等。如果使用一般的問答服務,使用者無法直接提供完整的自身情況說明,此時系統會返回 3-5 條相似知識點,但一方面無法系統地覆蓋上述的這些分支情況,另一方面搜尋式的產品體驗並不友好。而基於知識圖譜,我們實現了對話式體驗,如下圖所示。另外由於多輪對話是帶狀態的,所以也系統會記憶上下文,並簡化對話流程。

InfoQ:智慧客服 / 問答產品的市場競爭非常激烈,不只大公司在做自己的智慧客服產品,很多初創公司也嘗試在不同的垂直領域開發智慧客服產品。在這種情況下,為什麼騰訊還要做一款自己的智慧客服產品?開發這款產品想要解決什麼樣的痛點?

陳鬆堅:一方面是看到了這個市場的潛力仍然未真正地被開發,尤其是某些垂類下佈局相對還比較空白,存在成長空間。比如我們最早打的政務行業。另外,行業無論從技術上還是業務上都遠未達到成熟的狀態,目前來看還是“百家爭鳴”的階段。第三,經濟下行趨勢明顯,企業“火燒眼眉”之下降低成本成為第一剛需,此時,誰能做出使用便利,問答準確的問答機器人,就會有很大的機會。

InfoQ:小知和市面上其他智慧客服產品有什麼不同之處?優勢是什麼?

陳鬆堅:相比市面上其他智慧客服產品,小知絕對屬於晚輩了。後發者的優勢往往在於客戶經過市場充分教育後,其痛點進一步明確,可以更精確地把握客戶的需求。技術優勢上面已經提到了,主要是結合深度學習和知識圖譜的問答技術,非技術的優勢主要體現在我們打造了完整的資料閉環,一方面是在系統上將問答庫後臺和標註後臺進行了打通,另一方面配備了大量熟練的標註團隊能夠勝任各個行業的問題標註工作。

智慧客服產品開發和落地有通用的解法嗎?

InfoQ:智慧客服產品目前存在哪些技術和非技術的難點?能夠分解為哪幾部分問題?

陳鬆堅:智慧客服是非常綜合的 AI 系統,幾乎涉及 NLP 領域所有技術點,甚至還包括語音和影象的處理。但從需求上來講,可以分為三個板塊: 1. 如何學習知識 2. 如何問答 3. 如何持續學習。

其中第 1 點關注點和難點在於如何自動構建知識庫(包括但不限於問答庫、知識圖譜、領域詞表等)。第 2 點重點關注和解決使用者問題的意圖識別,答案選擇以及如何結合上下文進行多輪互動。第 3 點則是持續運營的需要,涉及的挑戰包括未知問題識別,知識的自動更新和補充。

非技術的難點主要體現在專案推進的過程中如何控制客戶的期望,避免需求失控。

InfoQ:這些問題是否有通用的解法?分別有什麼解決思路?

陳鬆堅:要具體問題具體分析,比如領域詞典生成,未知問題識別等可以做到跨領域通用,但是意圖識別,多輪對話則由於不同領域下的問答形式不同,關注重點不同,存在一定的差異。比如問答可以通過問句匹配來解,也可以通過閱讀理解技術直接從篇章中抽取答案,也可以基於結構資料庫來獲取。我們的系統整合所有的解決方案,然後根據實際的需求靈活配置。

NLP 技術落地到底有多難?

InfoQ:從您的角度來看,NLP 技術(及產品落地)的發展和演進可以分為哪幾個階段?當前處於什麼階段?封閉領域的智慧問答有沒有可能突破到更開放的領域?

陳鬆堅:從大的範疇上看,NLP 技術的發展可以分為三個階段,第一階段從上世紀 50 年代到 80 年代,以語言學和規則為核心,主要靠語言學家設計的語法規則來解決問題,此時的人工智慧也主要做的是推理方面的研究;而 80 年代之後,隨著計算機算力增強和資料逐步得到收集,統計學派逐漸佔據了主流,NLP 也進入了第二階段,即以傳統機器學習模型為核心,憑藉最大熵,CRF,LDA 等原理優雅的模型,在語音識別,文字挖掘等一系列的任務中取得優秀的效果,在這個背景下各種 NLP 應用如語音識別,翻譯,文章主題挖掘等被廣泛落地;第三階段就是目前所在的深度學習階段,其實其本質上還是統計學派,即經驗歸納的思想,但區別於傳統的 NLP 模型,深度學習模型能夠對語言單元(字詞)進行向量編碼,然後結合各種網路結構(尤其是 RNN 及其變種完美匹配語言的時序建模要求)進行表示學習(其實也是特徵提取的過程),明顯降低了各種 NLP 應用,如語音識別,翻譯等的錯誤率,進一步提升了 NLP 應用的實用率。

封閉領域和開放領域的智慧問答其實各有難點,並不見得是進而達之的關係。封閉領域的難點是訓練語料少,模型容易過擬合,但是問題相對集中,也可以利用一些領域特性作為先驗知識;開放領域則相反,難點是問題發散,需要構建龐大的通用知識圖譜,但是語料充足,採用的方法騰挪空間較大,比如斯坦福的基於 wikipedia 做的通用問答專案 DrQA,用到的就是閱讀理解的技術。

InfoQ:之前有很多公司的智慧問答 / 客服產品都失敗了,甚至一度有評論稱智慧客服已死,您怎麼看待這一情況(參考報道:http://www.infoq.com/cn/news/2018/01/facebook-m-chatbot)?在 Reddit 上,關於 NLP 技術突破的問題也曾引起熱烈討論,有人認為,NLP 領域的突破狀況有些令人失望,人們研究的熱點紛紛轉向了 GAN 和強化學習。有觀點認為“近年來 NLP 技術在技術和商業化上少有實質性突破進展”,這是否符合您在行業中看到的情況?在您看來,NLP 技術在商業化或落地方面的進展是成功還是失敗,為什麼?當前 NLP 技術在技術和商業化上分別面臨怎樣的瓶頸?突破困境的關鍵是什麼?

陳鬆堅:我們對技術往往短期期望過高,而長期期望過低。NLP 在進入深度學習階段之後模型的泛化能力得到大幅提升,但是本質上依然是擬合經驗資料的思路,也就是說我們現在的機器人非常善於歸納,但推理能力、對知識和常識的利用能力很弱。但是我們同時還是要看到,近年來 NLP 應用,尤其是翻譯,寫作,對話機器人等,在模型增強和知識圖譜建設完善的過程中,在特定的場景下,滿足了大部分人的使用需求,這是要肯定的。常說 NLP 是人工智慧皇冠上的明珠,其難點就在於語言是思維的外化,我們現在的做法是利用上下文環境,從外部進行建模,而缺少對內部(思維)的研究。而外部建模的方法要求海量的標註語料進行訓練(不同任務的標註不一樣),代價太大,這是瓶頸之一。另外無法對知識和常識進行表示,無法進行有效推理,這是瓶頸之二。我個人認為突破點在於利用深度學習模型進行知識表示和關係表示,並融入到原模型中求解。這個方向已經有一些企業如 google/ deepmind 在探索,我們非常期待加入到摘取明珠的戰役中。

InfoQ:您認為未來 NLP 技術在哪些場景下有較大的商業化應用潛力?

陳鬆堅:上面提到的翻譯、對話、寫作會有。更具體的說,基於翻譯的智慧硬體,基於對話機器人的智慧客服,家居 / 車載 / 個人助理等垂類機器人,以及寫作機器人在即時新聞,專業文書寫作上的應用。

採訪嘉賓

陳鬆堅,騰訊資料平臺部演算法高階研究員,8 年 NLP 研發經驗,此前就職於雅虎北京研究院從事內容推薦演算法的研究;2017 年加入騰訊 TEG 資料平臺部,負責智慧客服產品騰訊小知的演算法規劃和落地。負責過多個智慧客服專案,對封閉領域的智慧問答有豐富的實戰經驗。