世界頂級AI機構競技:京東在最難機器閱讀挑戰賽上領先 首次超越人類表現
2019年4月2日,京東AI研究院自然語言處理組在最難之一的WikiHop機器閱讀資料集(https://qangaroo.cs.ucl.ac.uk/)中以74.3%的盲測試集精準度斬獲WikiHop資料集排行榜第一,並超越該資料集官方給出的人類表現水平74.1%的精準度。
值得一提的是,京東AI已計劃將自主研發的這些優秀機器閱讀能力應用於人工智慧導購,虛擬個人助理,城市助手,合理用藥引擎等多個領域,旨在降低成本、提高效率、提升體驗。
WikiHop資料集是倫敦大學學院(UCL)機器學習組提出的一個需要跨多文件、多跳推理的機器閱讀理解資料庫。每一個WikiHop的樣本有一個問題,多個支援文件,和一個備選答案集,模型需要根據問題從多個文件中搜集證據,最後從備選答案集中挑選出正確的答案。由於其更具挑戰性的設定,WikiHop閱讀理解資料集一經發布吸引了全球眾多高校和科研機構的參與,包括來自卡耐基梅隆大學,南洋理工大學,Facebook AI研究院,IBM,羅切斯特大學,阿姆斯特丹大學,愛丁堡大學以及Salesforce等多個研究小組。
WikiHop資料集最新成績榜單(截至2019年4月2日)
WikiHop資料集存在多種挑戰。首先,相比於SQuAD這類只需要從單個文件中尋找答案的閱讀理解資料集,WikiHop每一個樣本都是多個文件,以此來考察模型從多個資訊來源提取證據的能力。其次,多數的WikiHop樣本必須根據多個文件才能給出答案,僅僅依靠單個文件不足以回答相應的問題,這就要求模型必須具有多跳推理的能力。例如下圖中,問題是“巨魔”這個兒童故事的誕生國家,第一個支援文件提到了“巨魔“的作者之一朱莉亞·唐納森。第二個支援文件提到朱莉亞·唐納森是2011-2013年Children’s Laureate獎的獲得者。第三個支援文件提到Children’s Laureate獎是聯合王國(英國)所設定的。綜合以上資訊可以得出答案應該是“聯合王國”。
人類的知識大多是通過閱讀獲得,所以機器閱讀技術在智慧對話與服務中有極高的應用價值,是對話引擎的知識的重要來源之一。在中國,技術與產業的融合正在如火如荼進行,在全球,學術研究也越來越關注技術的應用價值。這次京東在機器閱讀技術上的突破性研究,也將對許多相關的應用帶來創新。