1. 程式人生 > >親愛的,你已經連閱讀理解都做不過AI了

親愛的,你已經連閱讀理解都做不過AI了

將在 pac nor 國外 自己 stat 關註 技術分享 互動

提起閱讀理解這四個字,你會想到什麽?

被四六級雅思托福支配的恐懼?語文試卷上連原作者都搞不懂的選擇題?

不管哪種答案,肯定都逃不出一個規律:進行閱讀理解這項有益身心運動的主體,必然是跟你我一樣的人類。

畢竟嘛,這東西堪稱考試中最費腦筋,也最考驗綜合能力的一個環節。所以你的英語老師一定說過這樣一句話:得閱讀理解者得天下。

然而,可是,但是,如果告訴你今天得這個天下的已經不再是人類,而是AI了,你會怎麽想?可事實就是這樣,1月11日,斯坦福大學著名的機器閱讀理解賽事SQuAD刷新了全球排名,令人驚奇的是阿裏巴巴憑借82.440的精準率打破了世界紀錄。最重要的是,這個成績超越了人類82.304的平均得分,正式宣布AI在精準閱讀能力上超越了人類。

技術分享圖片

當然了,AI是不會去跟你比托福刷分的。但AI通過機器閱讀理解,撬動理解力這扇大門開啟,意義也遠遠不是測試和排名所能概括的。國外網友和AI從業者,面對這個中國公司完成的壯舉紛紛脫帽致敬,將其列為2018伊始AI的重要突破,卡內基梅隆發現計算機科學學院機器人研究所的研究教授Jeff Schneider等等業界大牛也對阿裏團隊表示了致敬。

技術分享圖片

所以說,機器做閱讀理解這件事的背後,腦洞有點大哦…

什麽是機器閱讀理解?

機器閱讀理解,雖然看起來只是讓AI上陣來一場考試。但是卻是自然語言處理技術中,繼語音判斷、語義理解之後最大的挑戰:讓智能體理解全文語境。所以這個領域的“跑分”,一直是AI界的大事件。

而斯坦福大學發起的SQuAD挑戰賽,則是業內公認的機器閱讀理解最高水平賽事,甚至可以說是標準水平測試。其參賽者來自全球學術界和產業界的研究團隊,比如我們耳熟能詳的微軟亞洲研究院、IBM、Facebook、谷歌以及卡內基·梅隆大學、斯坦福大學等等。

技術分享圖片

SQuAD挑戰賽的基本規則,是通過眾包的方式構建一個包含10萬個問題左右的大規模數據集,並給出來源於維基百科長度大約在幾百個單詞左右的文章。參賽者提交的AI模型在閱讀完數據集中的一篇短文之後,回答若幹個基於文章內容的問題,答案與標準答案進行比對,最終得出成績。

這項測試的得分,包括確匹配(Exact Match)和模糊匹配(F1-score)兩項結果,這次阿裏巴巴提交的模型,在精準匹配領域超越了人類的得分能力。模糊匹配還差2.5分,但是也已經比較接近。

由於閱讀理解這項“智能”調整,需要運用到大量邏輯、細節和結構分析能力,並且直接作用於現實中的文本資料,所以實際價值巨大。

比如說,我們首先要面對的問題就是,假如人工智能已經比人類平均水平更擅長在對文本中精準信息進行理解和回答,會帶給我們什麽呢?

當AI的“閱讀理解”得分超越人類,意味著什麽

如何理解阿裏的AI閱讀理解能力,超越人類得分的價值呢?

舉個例子或許可以很簡單的理解這個問題:英語考試上,當機器可以翻譯單詞的時候,我們一點都不驚奇;但機器可以聽寫整句話的時候,我們會感嘆技術進步了;當機器自己做閱讀理解的時候,我們大概會想:還要我考這個試幹什麽?

這裏面的差別,在於處理閱讀理解相關問題時,AI不只是要運算和記錄,而是要主動去分析和理解,所以閱讀理解問題一直被人問是NLP的標誌性臨界點。但這個點被AI破解,直接意味著很多必須人類才能完成的工作已經正式能夠被AI接管。

因為閱讀理解問題處理和關註詞匯、語句、篇章結構、思維邏輯、輔助語句和關鍵句等等元素構成的復雜組織網絡。

技術分享圖片

當超越人類均值這個時刻真正到來,或許意味著在語言交互領域,機器智能將可以從感知應用向著理解應用進發。從學術到產業應用的角度講,背後都有無數種可能蔓延開來。

最直接的產業影響,是大多數今天還必須由人工完成的規則、對話、服務信息類的相關理解工作,都可以被人工智能所取代。比如說客服、信息管理和推薦類的工作,都可以考慮用不眠不休、高運算速度的機器來取代。

或許阿裏產業線是最大贏家

或許我們都註意到了這樣一個問題:今天的互聯網世界,在生產越來越多文本內容。太多你知道的、你不知道的、你以為自己知道的卻實際不知道的事情呼嘯而過。甚至你雙11想要剁個手,都有各種各樣的遊戲規則等著你。

這裏或許就可以用機器閱讀理解來解決了。比如客戶對某個電商促銷規則有疑問,就可以直接向AI提問,而AI就可以把這個問題當做一道閱讀理解問題來進行解決方案回饋。

機器閱讀理解能力,將在如何向客戶提供非模板式的智能客服服務中邁出關鍵一步。而當AI在這些能力上超越人工,那麽機器客服的利用價值和空間當然飛速上漲。

由此不難看出,這種關鍵能力的標桿性突破,對大量強調與普通消費者交互的產業線益處最多。阿裏投入這項技術突破,顯然也是看到了其與自身產業線結合的可能性。

技術分享圖片

事實上,致力於新零售和大規模人機協同的阿裏,顯然對機器閱讀理解能力有著多方面的需求。比如說阿裏小蜜已經應用了這項能力,提高雙11時機器客服的處理效率與精準度。而進一步擴大來看,各種線下新零售場景、物流服務和在線金融服務都離不開機器閱讀理解能力的幫助,來構建高效低成本的客戶交互體系。

推而廣之,機器閱讀能力也是文娛領域進行內容尋找和推薦的有效方式,比如閱讀用戶提出的復雜需求,進行精準推薦;而與天貓精靈等硬件相結合,給出對用戶大段語言的回饋,乃至對話互動,都必須以機器理解能力為依托。

而當機器可以大量閱讀互聯網資料,形成自己的知識譜系甚至專家系統,那麽反向提供服務的能力更加令人期待。

理解力,讓我們在未來面前不僅是個孩子

除了知道AI可以充當更好的客服之外,究竟我們為什麽應該關註機器閱讀理解這件事?或許關鍵,是我們應該知道“理解力”在目前AI世界中的重要程度和期待指數。

就像上文所說的那樣,阿裏這次是在精準匹配領域超越了人類得分,而下一步就是在模糊匹配領域完成突破。如果這個突破很快到來,顯然意味著AI模型在理解力的指數上進一步提升了。這個人類期盼已久的能力,終於開始啟動它的軸承。

AI先天具備的是運算能力,而希望進行仿人類智慧的智能模擬,第二步就是模仿人類的感知。今天我們看到的機器視覺、語音識別、語義理解,都是在做這件事。而第三步,就是讓AI產生理解力。

假如單純的識別出卻無法產生輸出,那麽AI無非是更靈活的傳感器而已。

技術分享圖片

從這個邏上看,閱讀理解這道題絕不僅僅是個測試,或者商業應用的技術加持,更重要的是開啟AI紀元裏理解力的加速器,讓人類漫長的制造、學習和掌握機器歷史逐步畫上句號,開啟機器去學習和理解人類的新紀元。

阿裏所達到的新記錄和超越人類的數值,更廣闊的意義在於,我們或許距離永遠不用測試機器閱讀理解更近了一步。當我們不再考慮機器是否能理解人類文本和語言,那麽DeepNLP將達成,人機交互的範圍將幾何級擴大。機器智能可以清晰捕捉到人類的邏輯和函指。

可能那還很遠,也可能很近,但理解力的意義,是讓我們在未來面前不止是個孩子,應該是毫無疑問的。


親愛的,你已經連閱讀理解都做不過AI了