1. 程式人生 > >自然語言處理資料集免費資源開放(附學習資料)

自然語言處理資料集免費資源開放(附學習資料)

640?wx_fmt=png&wxfrom=5&wx_lazy=1

作者:Jason Brownlee

翻譯:樑傅淇

本文長度為1500字,建議閱讀3分鐘

本文提供了七個不同分類的自然語言處理小型標準資料集的下載連結,對於有志於練習自然語言處理的新手而言,是極有幫助的資源。

在你剛開始入手自然語言處理任務時,你需要資料集來練習。

最好是使用小型資料集,這樣你可以快速下載,也不用花費很長的時間來除錯模型。同時,使用被廣泛使用和了解的標準資料集也是有所幫助的,你可以用你的結果來做比較,看一下是否有所進步。

在這篇博文中,你會找到一系列標準資料集來開始你的深度學習之旅。

總覽

這篇博文被分成七個部分,它們是:

1. 文字分類(Text Classification)

2. 語言模型(Language Modeling)

3. 影象字幕(Image Captioning)

4. 機器翻譯(Machine Translation)

5. 問答系統(Question Answering)

6. 語音識別(Speech Recognition)

7. 自動文摘(Document Summarization)

我已經嘗試提供一系列被廣泛使用於學術論文且規模適中的資料集。

幾乎所有的資料集都是公開免費下載的。

如果你最喜歡的資料集沒有被列出來,又或者你認為你所瞭解的更好的資料集應該被列出來的話,請在評論裡告訴我。

我們開始吧。

0?wx_fmt=png

1. 文字分類(Text Classification)

文字分類指的是標記句子或者文件,比如說垃圾郵件分類和情感分析。

以下是一些對於新手而言非常棒的文字分類資料集:

  • Reuters Newswire Topic Classification(Reuters-21578)http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html


一系列1987年在路透上釋出的按分類索引的文件。同樣可以看RCV1,RCV2,以及TRC2

(http://trec.nist.gov/data/reuters/reuters.html)

  • IMDB Movie Review Sentiment Classification (Stanford)(http://ai.stanford.edu/~amaas/data/sentiment/c)

一系列從網站imdb.com上摘取的電影評論以及他們的積極或消極的情感。

  • News Group Movie Review Sentiment Classification (cornell)(http://www.cs.cornell.edu/people/pabo/movie-review-data/)

更多的資訊,可以從這篇博文中獲取:Datasets for single-label text categorization

(http://ana.cachopo.org/datasets-for-single-label-text-categorization)

2. 語言模型(Language Modeling)

語言模型涉及建設一個統計模型來根據給定的資訊,預測一個句子中的下一個單詞,或者一個單詞中的下一個字母。這是語音識別或者機器翻譯等任務的前置任務。

下面是一些對於新手來說非常棒的語言模型資料集:

  • Project Gutenberg

    (https://www.gutenberg.org/)

以下是一些更正式的語料集:

  • Brown University Standard Corpus of Present-Day American English

    (https://en.wikipedia.org/wiki/Brown_Corpus)

大型英語單詞示例。

  • Google 1 Billion Word Corpus

    (https://github.com/ciprian-chelba/1-billion-word-language-modeling-benchmark)

3. 影象字幕(Image Captioning)

影象字幕是為給定影象生成文字描述的任務。

以下是對新手非常有幫助的影象字幕資料集:

  • Common Objects in Context (COCO)(http://mscoco.org/dataset/#overview)

超過120,000張帶描述的圖片集合。

  • Flickr 8K(http://nlp.cs.illinois.edu/HockenmaierGroup/8k-pictures.html)

從flickr.com收集的超過8000帶描述的圖片集合。

  • Flickr 30K(http://shannon.cs.illinois.edu/DenotationGraph/)

從flickr.com收集的超過30000帶描述的圖片集合。

要獲得更多的資訊,可以看這篇部落格:Exploring Image Captioning Datasets, 2016

(http://sidgan.me/technical/2016/01/09/Exploring-Datasets)

4. 機器翻譯(Machine Translation)

機器翻譯即將一種語言翻譯成另一種語言的任務。

以下是對新手而言很棒的機器翻譯資料集:

  • Aligned Hansards of the 36th Parliament of Canada

    (https://www.isi.edu/natural-language/download/hansard/)

英法對應的句子。

  • European Parliament Proceedings Parallel Corpus 1996-2011

    (http://www.statmt.org/europarl/)

一系列歐洲語言的成對句子。

被用於機器翻譯的標準資料集還有很多:

  • Statistical Machine Translation

    (http://www.statmt.org/)

5. 問答系統(Question Answering)

以下是對新手而言很棒的問答系統資料集:

  • Stanford Question Answering Dataset (SQuAD)(https://rajpurkar.github.io/SQuAD-explorer/)

關於維基百科文章的問答。

  • Deepmind Question Answering Corpus

(https://github.com/deepmind/rc-data)

有關Daily Mail的新聞問答。

  • Amazon question/answer data

(http://jmcauley.ucsd.edu/data/amazon/qa/)

關於亞馬遜產品的問答。

更多資訊,參見:

Datasets: How can I get corpus of a question-answering website like Quora or Yahoo Answers or Stack Overflow for analyzing answer quality?

(https://www.quora.com/Datasets-How-can-I-get-corpus-of-a-question-answering-website-like-Quora-or-Yahoo-Answers-or-Stack-Overflow-for-analyzing-answer-quality)

6. 語音識別(Speech Recognition)

語音識別就是將口語語言的錄音轉換成人類可讀的文字。

以下是對新手而言很棒的語音識別資料集:

  • TIMIT Acoustic-Phonetic Continuous Speech Corpus

(https://catalog.ldc.upenn.edu/LDC93S1)

付費,這裡列出是因為它被廣泛使用。美語口語以及相關轉寫。

  • VoxForge(http://voxforge.org/)

為語音識別而建設開源資料庫的專案。

  • LibriSpeech ASR corpus

(http://www.openslr.org/12/)

從LibriVox(https://librivox.org/)獲取的英語有聲書大型集合。

7. 自動文摘(Document Summarization)

自動文摘即產生對大型文件的一個短小而有意義的描述。

以下是對新手而言很棒的自動文摘資料集:

  • Legal Case Reports Data Set

(https://archive.ics.uci.edu/ml/datasets/Legal+Case+Reports)

4000法律案例以及摘要的集合。

  • TIPSTER Text Summarization Evaluation Conference Corpus

(http://www-nlpir.nist.gov/related_projects/tipster_summac/cmp_lg.html)

將近200個文件以及摘要的集合。

  • The AQUAINT Corpus of English News Text

(https://catalog.ldc.upenn.edu/LDC2002T31)

並非免費,但卻被廣泛使用。新聞文章的語料庫。

更多資訊,參見:

Document Understanding Conference (DUC) Tasks

(http://www-nlpir.nist.gov/projects/duc/data.html)

Where can I find good data sets for text summarization?

(https://www.quora.com/Where-can-I-find-good-data-sets-for-text-summarization)

延伸閱讀

如果你想了解更多,這部分提供額外的資料集列表:

  • Text Datasets Used in Research on Wikipedia

(https://en.wikipedia.org/wiki/List_of_datasets_for_machine_learning_research#Text_data)

  • Datasets: What are the major text corpora used by computational linguists and natural language processing researchers?

(https://www.quora.com/Datasets-What-are-the-major-text-corpora-used-by-computational-linguists-and-natural-language-processing-researchers-and-what-are-the-characteristics-biases-of-each-corpus)

  • Stanford Statistical Natural Language Processing Corpora

(https://nlp.stanford.edu/links/statnlp.html#Corpora)

  • Alphabetical list of NLP Datasets

(https://github.com/niderhoff/nlp-datasets)

  • NLTK Corpora(http://www.nltk.org/nltk_data/)

  • Open Data for Deep Learning on DL4J

(https://deeplearning4j.org/opendata)

原文連結:

https://machinelearningmastery.com/datasets-natural-language-processing/

原文標題:Code for my educational gifs

編輯:王璇

0?wx_fmt=png

樑傅淇,軟體工程本科在讀,主修大資料分析,喜好搜尋、收集各類資訊。希望能在THU資料派平臺認識更多對資料分析感興趣的朋友,一起研究如何從資料探勘出有用的模型和資訊。

翻譯組招募資訊

工作內容:需要一顆細緻的心,將選取好的外文文章翻譯成流暢的中文。如果你是資料科學/統計學/計算機類的留學生,或在海外從事相關工作,或對自己外語水平有信心的朋友歡迎加入翻譯小組。

你能得到:定期的翻譯培訓提高志願者的翻譯水平,提高對於資料科學前沿的認知,海外的朋友可以和國內技術應用發展保持聯絡,THU資料派產學研的背景為志願者帶來好的發展機遇。

其他福利:來自於名企的資料科學工作者,北大清華以及海外等名校學生他們都將成為你在翻譯小組的夥伴。

點選文末“閱讀原文”加入資料派團隊~

為保證發文質量、樹立口碑,資料派現設立“錯別字基金”,鼓勵讀者積極糾錯

若您在閱讀文章過程中發現任何錯誤,請在文末留言,或到後臺反饋,經小編確認後,資料派將向檢舉讀者發8.8元紅包

同一位讀者指出同一篇文章多處錯誤,獎金不變。不同讀者指出同一處錯誤,獎勵第一位讀者。

感謝一直以來您的關注和支援,希望您能夠監督資料派產出更加高質的內容。

轉載須知

如需轉載文章,請做到 1、正文前標示:轉自資料派THU(ID:DatapiTHU);2、文章結尾處附上資料派二維碼。

申請轉載,請傳送郵件至[email protected]

640?wx_fmt=png

公眾號底部選單有驚喜哦!

企業,個人加入組織請檢視“聯盟”

往期精彩內容請檢視“號內搜”

加入志願者或聯絡我們請檢視“關於我們”

640?wx_fmt=png

640?wx_fmt=jpeg

點選“閱讀原文”報名

相關推薦

自然語言處理中的自注意力機制Self-attention Mechanism

from: https://www.cnblogs.com/robert-dlut/p/8638283.html 近年來,注意力(Attention)機制被廣泛應用到基於深度學習的自然語言處理(NLP)各個任務中,之前我對早期注意力機制進行過一些學習總結(可見http://www.cn

mnist資料在tensorboard顯示完整程式碼

直接上程式碼:# -*- coding: utf-8 -*-import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_datamax_step=1000learning_rate=

自然語言處理入門】03:利用線性迴歸對資料進行分析預測

上一篇中我們簡單的介紹了利用線性迴歸分析並預測波士頓房價資料集,那麼在這一篇中,將使用相同的模型來對紅酒資料集進行分析。 1 基本要求 利用線性迴歸,對紅酒資料集進行分析。資料集下載地址。 2 完整程式碼 #-*- codin

自然語言處理入門】03:利用線性迴歸對資料進行分析預測

本篇筆記是《從自然語言處理到機器學習入門》課程第三次作業的上篇,主要是復現了老大課上講的利用線性迴歸對波士頓房價進行預測的實驗。在下篇中,將利用該模型對紅酒資料集進行線性迴歸分析。 1 基本要求 利用提供的波士頓房價資料,對其進行分析。資

自然語言處理》的相關資源

  特別推薦系列: 1、HMM學習最佳範例全文文件,百度網盤連結: http://pan.baidu.com/s/1pJoMA2B 密碼: f7az 2、無約束最優化全文文件 -by @朱鑑 ,百度網盤連結:連結: http://pan.baidu.com/s/1hqEJ

自然語言處理】情感分析資源

(以下需要論壇積分) 情感分析語料 3.酒店評論語料 - http://www.datatang.com/data/11936  譚鬆波整理的一個較大規模的酒店評論語料。 語料規模為10000篇。語料從攜程網上自動採集,並經過整理而成。 4.豆瓣網影評情感測試語料 - http://www.

網頁和自然語言處理中的字符問題半角和全角

字符轉換 處理 unicode 指點 介紹 合並 圖片 十六進制 文本   先來看一個截圖,爬蟲得到的結果,裏面99的字體貌似有點奇怪,剛開始以為是不同的字體,在Excel裏選中調整字體時發現沒有變化,後來經過大佬指點,才知道是全角數字(原諒我小白無知)。為了統一起見,把所

自然語言處理】預測電影影評情感的深度學習詞袋模型

翻譯自外網:https://machinelearningmastery.com/deep-learning-bag-of-words-model-sentiment-analysis/ 教程概述: 1.電影評論集 2.資料準備 3.詞包表示法 4.情感分析模型 1.電

自然語言處理 HMM 維特比演算法Viterbi Algorithm 例項轉載

給大家推薦一個講解HMM比較詳細入門的內容: wiki上一個比較好的HMM例子 這是另外一個例子,結合分詞舉例的HMM: 這是詳細講解維位元演算法的系列文章,維特比演算法(Viterbi Algorithm)  HMM學習最佳範例六:維特比演算法 來自52nlp

機器學習、深度學習、計算機視覺、自然語言處理及應用案例——乾貨分享持續更新......

機器學習、深度學習、計算機視覺、自然語言處理及應用案例——乾貨分享(持續更新……) GitChat提問碼: 1、機器學習/深度學習 1.1 對抗生成網路GAN 【2017.04.21】 對抗生成網路GAN變種大集合

自然語言處理中傳統詞向量表示VS深度學習語言模型:word2vec詞向量

        在前面的部落格中,我們已經梳理過語言表示和語言模型,之所以將這兩部分內容進行梳理,主要是因為分散式的詞向量語言表示方式和使用神經網路語言模型來得到詞向量這兩部分,構成了後來的word2vec的發展,可以說是word2vec的基礎。1.什麼是詞向量       

斯坦福大學自然語言處理第七課“情感分析Sentiment Analysis

一、課程介紹 斯坦福大學於2012年3月在Coursera啟動了線上自然語言處理課程,由NLP領域大牛Dan Jurafsky 和 Chirs Manning教授授課:https://class.coursera.org/nlp/ 以下是本課程的學習筆記,以課程PP

機器學習、深度學習、計算機視覺、自然語言處理及應用案例——乾貨分享持續更新……

人臉檢測與識別的趨勢和分析  【paper】【GitHub】【全域性/區域性一致影象補全】《Globally and Locally Consistent Image Completion》S Iizuka, E Simo-Serra, H Ishikawa (2017)  【paper】【GitHub】【基

斯坦福大學自然語言處理第五課“拼寫糾錯Spelling Correction

今天在我愛機器學習上正好看到這篇文章,和我們現在做的中文拼寫檢查關係密切,就轉過來了,需要細細地看一遍。 一、課程介紹 斯坦福大學於2012年3月在Coursera啟動了線上自然語言處理課程,由NLP領域大牛Dan Jurafsky 和 Chirs Manning教授

11月26日雲棲精選夜讀 | 機器學習高質量資料大合輯連結

在機器學習中,尋找資料集也是非常重要的一步。質量高或者相關性高的資料集對模型的訓練是非常有幫助的。 那麼用於機器學習的開放資料集有哪些呢?我們給大家推薦一份高質量的資料集,這些資料集或者涵蓋範圍廣泛(比如 Kaggle),或者非常細化(比如自動駕駛汽車的資料)。 熱點熱議 資源 | 機器學習高質量資料

機器學習高質量資料大合輯連結

在機器學習中,尋找資料集也是非常重要的一步。質量高或者相關性高的資料集對模型的訓練是非常有幫助的。 那麼用於機器學習的開放資料集有哪些呢? 我們給大家推薦一份高質量的資料集,這些資料集或者涵蓋範圍廣泛(比如 Kaggle),或者非常細化(比如自動駕駛汽車的資料)。 首先,在搜尋資料集時,

Linux的程序管理、檢視、殺死程序、任務管理、系統資源監控課堂學習筆記

  一、程序管理 1.檢視Linux啟動的第一個程序 2.檢視程序狀態 2.1觀察系統所有程式:ps aux 2.2檢視部分程序 2.3啟動httpd服務 2.4程序樹(可以檢視父程序與子程序) 二、檢視程序 1.Linux程序狀態 2.觀察程序

寫給大資料開發初學者的話學習路線

第一章:初識Hadoop 第二章:更高效的WordCount 第三章:把別處的資料搞到Hadoop上 第四章:把Hadoop上的資料搞到別處去 第五章:快一點吧,我的SQL 第六章:一夫多妻制 第七章:越來越多的分析任務 第八章:我的資料要實時 第九章:我的資料

資料結構—順序迴圈佇列程式碼實現

佇列 概念 佇列也是一種特殊的線性表。不過,線性表允許在任何位置插入和刪除,而佇列只允許在隊尾插入,在隊頭刪除,這樣它就具有先進先出的性質 重點 順序迴圈佇列的假溢位問題 由於隊尾