微軟亞洲研究院釋出業界最全面的語義分析資料集MSParS
編者按: 語義分析引擎是諸多人工智慧產品的核心模組,但由於標註成本高、難度大,學術界現有的語義分析資料集存在資料規模小、問題種類少、問題模板結構過於單一等缺陷。為此,微軟亞洲研究院自然語言計算組與微軟必應(Bing)搜尋引擎團隊合作構建併發布了大規模、高質量、多型別的語義分析資料集 MSParS(Multi-perspective Semantic ParSing Dataset),希望供科研人員和工業界同行研究和使用。歡迎通過GitHub下載和使用V1.0版本!
自然語言處理(Natural Language Processing, NLP)是人工智慧領域中最重要的分支之一,而 語義分析(Semantic Parsing) 則是NLP諸多工中最核心、也最具挑戰的一項。
語義分析旨在將自然語言轉換為機器能夠理解的結構化語義表示 (例如Lambda表示式、SQL語句和SPARQL語句等)。基於語義表示,下游NLP任務(例如智慧問答和對話系統等)能夠從對應的結構化知識圖譜中進行相關資訊的精準查詢,並將其用於輸出結果的生成。下圖就是語義分析在多輪問答中的一個應用示例。
語義分析引擎是目前諸多人工智慧產品的核心模組 ,例如微軟必應(Bing)搜尋引擎、微軟小冰、微軟小娜等。然而,由於對自然語言進行語義分析標註的成本非常高、難度非常大,因此,學術界現有的語義分析資料集存在資料規模小、問題種類少、問題模板結構過於單一等缺陷。
針對這些問題,微軟亞洲研究院自然語言計算組與微軟必應(Bing)搜尋引擎團隊合作構建併發布了一個 大規模、高質量、多型別的語義分析資料集:MSParS (Multi-perspective Semantic ParSing Dataset) ,希望供科研人員和工業界同行進行研究和使用。該資料集(V1.0版本)包含了81,826個自然語言問題及其對應的結構化語義表示,覆蓋12種不同的問題型別和2,071個知識圖譜謂詞, 是學術界目前最全面的語義分析資料集。 現在,MSParS V1.0版本已經可以通過GitHub進行下載。
MSParS 下載
下載地址:https://github.com/msra-nlc/MSParS
長按掃碼,下載資料集
MSParS:開放領域語義分析資料集
傳統的語義分析資料集,如ATIS、JOBS、Geoquery等均針對特定領域進行構建,其特點是資料規模小,並且覆蓋的領域知識非常有限。近年來,隨著包括Freebase等在內的大規模知識圖譜的快速發展,很多更具挑戰的開放領域語義分析任務被陸續提出,例如SimpleQuestions、WikiSQL、ComplexWebQuestions等。這些語義分析資料集規模較大,但只針對極少數常見問題型別進行語義標註,例如單關係(single-relation)問題、多跳(multi-hop)問題和多約束(multi-constraint)問題。
現有的語義分析資料集對比
而MSParS基於微軟的開放領域知識圖譜Satori進行標註,目前釋出的 V1.0版本總共包含81,826條人工標註,每條資料由一個四元組構成:問題、語義表示、語義表示引數、問題型別。 其中,語義表示引數是指在問題中出現的構成語義表示所需的實體名稱、實體型別或數值等。問題型別則由 9種單輪問題型別和3種多輪問題型別 組成,包括單關係(single-relation)、多跳(multi-hop)、多約束(multi-constraint)、複合事件(CVT)、是非判斷(yesno)、選擇(multi-choice)、最高階(superlative)、數值比較(comparative)、聚集查詢(aggregation)、前一輪問題實體省略(multi-turn-entity),前一輪問題謂詞省略(multi-turn-predicate)和前一輪答案省略(multi-turn-answer)。
整個MSParS資料集被劃分為訓練集(63,826條人工標註)、驗證集(9,000條人工標註)和測試集(9,000條人工標註), 總共覆蓋2,071個知識圖譜謂詞和121種不同的實體型別。 具體統計數字,詳見下圖。
MSParS資料集劃分
資料集構建
MSParS資料集採用眾包(crowd-sourcing)的方式進行構建。下面以多跳(multi-hop)型別問題進行標註的流程為例:首先,基於語義表示模板,從知識圖譜中取樣抽取符合條件的語義表示例項;然後,基於規則為每個語義表示例項生成一個偽造的自然語言問題;再採用眾包的方式對生成的偽造問題進行改寫,形成<問題,語義表示>對;最後,新增語義表示引數和問題型別,生成最終的標註四元組。
資料集應用
目前,MSParS資料集已經成為 NLPCC 2019的三大評測任務之一 ,具體資訊可以從NLPCC官網進行查詢。
NLPCC官網
http://tcci.ccf.org.cn/conference/2019/cfpt.php
長按掃碼,檢視連結
除了語義分析任務外,MSParS還能夠支援其它若干種NLP任務,例如實體識別、問題分類、問題生成、知識圖譜問答等。
當然,微軟的科研人員也意識到MSParS中的問題與現實生活中可能遇到的問題相比,在覆蓋度、複雜度等方面依舊存在很大的差距。所以,MSParS的後續版本中會引入更多的對抗樣本,用來模擬在真實應用中可能遇到的不可解析查詢情況。微軟會持續對該資料集進行更多的問題標註和擴充,歡迎大家保持關注並下載使用。
你也許還想看 :
感謝你關注“微軟研究院AI頭條”,我們期待你的留言和投稿,共建交流平臺。來稿請寄:[email protected]。