1. 程式人生 > >[轉]最好用的 AI 開源數據集 Top 39:NLP、語音等 6 大類

[轉]最好用的 AI 開源數據集 Top 39:NLP、語音等 6 大類

mit kaggle 文字 amp 企業 friend 改進 完整性 cts

原文鏈接
本文修正部分錯誤。

以下是精心收集的一些非常好的開放數據集,也是做 AI 研究不容錯過的數據集。

標簽解釋

【經典】這些是在 AI 領域中非常著名、眾所周知的數據集。很少有研究者或工程師沒有聽說過它們。

【有用】這些是更加接近現實世界的、精心設計的數據集。而且,這些數據集通常在產品和研發兩方面都有用。

【學術】這些是在機器學習和 AI 的學術研究中通常作為基準或基線使用的數據集。無論好壞,研究人員都使用這些數據集來驗證算法。

【陳舊】這些數據集,無論是否實用,已經有相當長歷史了。

計算機視覺

【學術、經典、陳舊】MNIST:最常用的完整性檢查數據集,圖像大小為28x28的黑白手寫數字,但在 MNIST 上性能良好,並不意味著模型本身很好。

地址:http://pjreddie.com/projects/mnist-in-csv/

【經典、陳舊】CIFAR 10 & CIFAR 100:32x32的彩色圖像數據集,雖然已經不常用,但也可以用作完整性檢查。

地址:https://www.cs.toronto.edu/~kriz/cifar.html

【有用、學術、經典】ImageNet:新算法實際上使用的圖像數據集,很多圖像 API 公司從其 REST 接口獲取標簽,這些標簽被懷疑與 ImageNet 的下一級 WordNet 的 1000 個類很相似。

地址:http://image-net.org/

LSUN:用於場景理解和多任務輔助(房間布局估計,顯著性預測等)。

地址:http://lsun.cs.princeton.edu/2016/

【學術】PASCAL VOC:一個通用的圖像分割/分類數據集,對構建真實圖像的註釋用處不是特別大,但對於基線很有用。

地址:http://host.robots.ox.ac.uk/pascal/VOC/

【學術】SVHN:數據來源於 Google 街景視圖中的房屋數量,可以用作野外的周期性 MNIST。

地址:http://ufldl.stanford.edu/housenumbers/

MS COCO:一個通用的圖像理解/字幕數據集。

地址:http://mscoco.org/

【有用】Visual Genome:非常詳細的視覺知識數據集,包含約100K圖像的深字母。

地址:http://visualgenome.org/

【有用、學術、經典、陳舊】Labeled Faces in the Wild:使用名稱標識符標記的面部區域數據集,常用於訓練面部識別系統。

地址:http://vis-www.cs.umass.edu/lfw/

自然語言處理

【有用】Question Pairs:第一個來源於 Quora 的包含重復/語義相似性標簽的數據集。

地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

【有用、學術】SQuAD:斯坦福大學的問答數據集,廣泛用於問題回答和閱讀理解,其中每個問題和答案都是文本片段的形式。

地址:https://rajpurkar.github.io/SQuAD-explorer/

CMU Q/A Dataset:人工生成的問題/答案對,難度評級來自維基百科文章。

地址:http://www.cs.cmu.edu/~ark/QA-data/

【有用】Maluuba Datasets:用於狀態性的自然語言理解研究的人工制作的精細數據集。

地址:https://datasets.maluuba.com/

【有用、學術】Billion Words:一個大型、通用的語言建模數據集,常用於如 word2vec 或 Glove 的分布式詞語表征。

地址:http://www.statmt.org/lm-benchmark/

【有用、學術】Common Crawl:Petabyte 級規模的網絡爬行數據集,常用於學習詞嵌入。

地址:http://commoncrawl.org/the-data/

【學術、經典】bAbi:來自 FAIR 的閱讀理解和問答應答數據集。

地址:https://research.fb.com/projects/babi/

【學術】The Children’s Book Test:從古登堡計劃的童書中提取的(問題+上下文,答案)的基線,該數據集對問題回答、閱讀理解和模擬陳述有用。

地址:https://research.fb.com/projects/babi/

【學術、經典、陳舊】Stanford Sentiment Treebank:一個標準情感數據集,數據集中每個句子解析樹的每個節點都有精細的情感註釋。

地址:http://nlp.stanford.edu/sentiment/code.html

【經典、陳舊】20 Newsgroups:一個文本分類的經典數據集,通常用於純分類或作為任何 IR/索引算法的基準。

地址:http://qwone.com/~jason/20Newsgroups/

【經典、陳舊】IMDB:一個比較舊,規模也相對較小的二院情感分類數據集。

地址:http://ai.stanford.edu/~amaas/data/sentiment/

【經典、陳舊】UCI’s Spambase:這是一個年代較久遠的、經典的垃圾電子郵件數據集,來源是著名的 UCI 機器學習庫。由於該數據集在設計細節上的獨特之處,可以用作學習個性化垃圾郵件過濾的一個有趣的基線。

地址:https://archive.ics.uci.edu/ml/datasets/Spambase

語音

大多數語音識別數據集是專有的,因為這些數據對於創建該數據集的公司來說具有很大價值。因此,這部分的可用公開數據集多數比較陳舊。

【學術、陳舊】2000 HUB5 English:僅包含英語的語音數據集,百度最近的論文《深度語音:擴展端對端語音識別》使用的是這個數據集。

地址:https://catalog.ldc.upenn.edu/LDC2002T43

【學術】LibriSpeech:包含文本和語音的有聲讀物數據集,由近500小時的多人朗讀的清晰音頻組成,且包含書籍的章節結構。

地址:http://www.openslr.org/12/

【有用、學術】VoxForge:帶口音的語音清潔數據集,對測試模型在不同重音或語調下的魯棒性非常有用。

地址:http://www.voxforge.org/

【學術、經典、陳舊】TIMIT:英文語音識別數據集。

地址:https://catalog.ldc.upenn.edu/LDC93S1

【有用】CHIME:包含環境噪音的語音識別挑戰賽數據集。該數據集包含真實、模擬和清潔的語音錄音,具體來說,包括4個揚聲器在4個有噪音環境下進行的將近9000次錄音,模擬數據是將多個環境組合及在無噪音環境下記錄的數據。

地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html

TED-LIUM:TED Talk 的音頻數據集,包含1495個TED演講的錄音及全文的文字稿。

地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

推薦和排序系統

【經典、陳舊】Netflix Challenge:第一個主要的 Kaggle 挑戰賽數據集,但由於隱私問題,只有非正式的數據集提供。

地址:http://www.netflixprize.com/

【有用、學術、經典】MovieLens:多種大小的電影評論數據,通常用於基線協同過濾。

地址:https://grouplens.org/datasets/movielens/

Million Song Dataset:Kaggle 上的大型、元數據豐富的開源數據集,對混合推薦系統有用。

地址:https://www.kaggle.com/c/msdchallenge

【有用】Last.fm:可訪問底層社交網絡及其他元數據的音樂推薦數據集,這些元數據對混合系統很有用。

地址:http://grouplens.org/datasets/hetrec-2011/

網絡和圖表

【學術】Amazon Co-Purchasing and Amazon Reviews:亞馬遜網站的“買了該產品的用戶也買了......”板塊的數據,以及相關產品的亞馬遜評論數據。適合用於推薦系統。

地址:http://snap.stanford.edu/data/amazon-meta.html

Friendster Social Network Dataset:包含103,750,348個 Friendster 用戶的好友列表的匿名數據集。

地址:https://archive.org/details/friendster-dataset-201107

地理空間數據

【有用、經典】OpenStreetMap:免費許可的全球矢量數據集,包含美國人口普查局的 TIGER數據。

地址:http://wiki.openstreetmap.org/wiki/Planet.osm

【有用】Landsat8:衛星拍攝的地球表面照片數據,每隔幾周更新一次。

地址:https://landsat.usgs.gov/landsat-8

【有用】NEXRAD:多普勒雷達掃描的美國大氣環境數據。

地址:https://www.ncdc.noaa.gov/data-access/radar-data/nexrad

結語

人們常常以為在一個數據集上解決了問題就等同於得到好的產品了。但在使用這些數據集作為驗證或概念證明時,不要忘記用更新、更接近現實的數據來測試產品的功能,從而能夠作出改進。一個成功的以數據作為驅動力的企業通常能夠從他們收集新的、專有的數據的能力中獲益,進而提升競爭力。

編譯自:medium.com,譯者:新智元劉小芹

[轉]最好用的 AI 開源數據集 Top 39:NLP、語音等 6 大類