1. 程式人生 > >自然語言處理任務數據集

自然語言處理任務數據集

con LV wire rod down sta 檢測 -s 正式

自然語言處理任務數據集

keywords: NLP, DataSet

AI Challenger - 英中翻譯評測

適用領域:機器翻譯

規模最大的口語領域英中雙語對照數據集。提供了超過1000萬的英中對照的句子對作為數據集合。所有雙語句對經過人工檢查,數據集從規模、相關度、質量上都有保障。

訓練集:10,000,000 句
驗證集(同聲傳譯):934 句
驗證集(文本翻譯):8000 句

https://challenger.ai/datasets/translation

UN Parallel Corpus - 聯合國平行語料

適用領域:機器翻譯

聯合國平行語料庫由已進入公有領域的聯合國正式記錄和其他會議文件組成。語料庫包含1990至2014年編寫並經人工翻譯的文字內容,包括以語句為單位對齊的文本。

語料庫旨在提供多語種的語言資源,幫助在機器翻譯等各種自然語言處理方面開展研究和取得進展。為了方便使用,本語料庫還提供現成的特定語種雙語文本和六語種平行語料子庫。

介紹:https://conferences.unite.un.org/UNCorpus/zh#introduction

下載:https://conferences.unite.un.org/UNCorpus/zh/DownloadOverview

(目前一直下載不下來)

2nd International Chinese Word Segmentation Bakeoff

適用領域:中文分詞

This directory contains the training, test, and gold-standard data
used in the 2nd International Chinese Word Segmentation Bakeoff.

http://sighan.cs.uchicago.edu/bakeoff2005/

20 Newsgroups

適用領域:文本分類

The 20 Newsgroups data set is a collection of approximately 20,000 newsgroup documents, partitioned (nearly) evenly across 20 different newsgroups.

http://qwone.com/~jason/20Newsgroups/

NLPCC 2017 新聞標題分類

適用領域:文本分類

http://tcci.ccf.org.cn/conference/2017/taskdata.php

Reuters-21578 Text Categorization Collection

適用領域:文本分類

This is a collection of documents that appeared on Reuters newswire in 1987. The documents were assembled and indexed with categories.

http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html

全網新聞數據(SogouCA)

適用領域:文本分類、事件檢測跟蹤、新詞發現、命名實體識別自動摘要

來自若幹新聞站點2012年6月—7月期間國內,國際,體育,社會,娛樂等18個頻道的新聞數據,提供URL和正文信息

http://www.sogou.com/labs/resource/ca.php

CMU World Wide Knowledge Base (Web->KB) project

適用領域:知識抽取

To develop a probabilistic, symbolic knowledge base that mirrors the content of the world wide web. If successful, this will make text information on the web available in computer-understandable form, enabling much more sophisticated information retrieval and problem solving.

http://www.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/

自然語言處理任務數據集