68 款大規模機器學習資料集,涵蓋 CV、語音、NLP | 十年資源集
參加 2019 Python開發者日,請掃碼諮詢 ↑ ↑↑
作者 | 琥珀
出品 | AI科技大本營(ID:rgznai100)
此前營長為大家分享過不少機器學習相關資料集的資源,例如 Mozilla 的 1400 小時開源語音資料集 ; ApolloScape 的大規模自動駕駛資料集 ; 騰訊 AI Lab 的 “Tencent ML-Images” 專案 ,甚至還有谷歌團隊推出的 Google Dataset Search(Google 資料集搜尋) ……
對於日常從事模型訓練的研究人員來講,無論是影象處理還是語音識別,都離不開一些高質量的資料集,通過它們以改善模型的效能。
近日,reddit 論壇上,一位網友發帖分享了 datasetlist.com 的網站連結,得到了不少同行們的點贊。據瞭解上面集合了從 2009 年 ImageNet 釋出以來共計 68 項機器學習相關的大規模資料集,囊括計算機視覺(46 項)、自然語言處理(18 項)、語音(4 項)三大類別,幫助使用者快速找到相應的資料集。由此,我們還可以看到自 2015 年以來,大規模資料集的不斷湧現也暗示著人工智慧技術作為集大成者的快速演進。
這套資料集搜尋列表的出現,也滿足了不少強迫症患者對於選擇 / 整理資料集的想法。不過,也正如這位網友所言:這個資料集列表的形式將有待完善和豐富,設計這個網頁的目的也是希望接下來不斷更新新的資料集,同時,使用者也可以通過郵箱、Twitter、Facebook 等方式訂閱以獲取最新內容。
下面,讓營長介紹下該資料集列表的主要內容:
語音識別:
-
Mozilla Common Voice
2019 年 3 月 1 日,由 Mozilla 基金會發起的 Common Voice 專案,釋出新版語音識別資料集,包括來自 42000 名貢獻者,超過 1400 小時的語音樣本資料,涵蓋包括英語、法語、德語、荷蘭語、漢語在內的 18 種語言。
地址: https://voice.mozilla.org/zh-CN
-
NSynth
-
Google Audioset
-
LibriSpeech
計算機視覺
-
IBM Diversity in Faces Dataset
IBM 推出的“人臉多樣性”(Diversity in Faces Dataset,DiF)是一個龐大而多樣化的資料集,與以前的資料集相比,DiF 資料集提供了更均衡的分佈和更廣泛的面部影象覆蓋率。DiFferences 提供了 100 萬註釋的資料集人類面部影象。
地址:
https://www.research.ibm.com/artificial-intelligence/trusted-ai/diversity-in-faces/
-
NVIDIA Flickr-Faces-HQ 資料集
英偉達推出的 Flicker 人臉高清資料集(FFHQ)由 70,000 個高質量的 PNG 格式影象組成,解析度為 1024*1024。這些圖片在年齡、種族和影象背景方面有很強的多樣性,並且還有如眼鏡、太陽鏡、帽子等元素。
地址:
https://github.com/NVlabs/ffhq-dataset
-
Google Open Images V4
Open Images 是一個包含約 900 萬個 URL 的資料集,由谷歌在 2018 年 4 月 30 日開放,它包含在 190 萬張圖片上針對 600 個類別的 1540 萬個邊框盒。
地址:
https://storage.googleapis.com/openimages/web/index.html
-
Tencent ML- Images
Tencent ML- Images 是最大的開源多標籤影象資料集,包括 17,609,752 個訓練和 88,739 個驗證影象 URL,最多可註釋 11,166 個類別。
地址:
https://github.com/Tencent/tencent-ml-images
-
Youtube-8M 2018
Youtube-8M 2018 是一個大型標記視訊資料集,由 600 萬個 YouTube 視訊 ID 組成,目前具有 4700 多個視覺實體標籤,同時它還配備了數十億幀和音訊片段的預先計算的視聽功能。
地址:
https://research.google.com/youtube8m/index.html
-
Fashion MNIST
Fashion-MNIST 由德國研究機構 Zalando Research 公佈,包含 60000 個樣本,測試集包含 10000 個樣本,分為 10 類,每一個都是 28×28 的灰度圖。
地址:
https://github.com/zalandoresearch/fashion-mnist
當然,此外還有 MegaFace、ImageNet 等非常經典的資料集,以下營長就不一一列舉了。
-
GQA
-
Berkeley Deep Drive (BDD100K)
-
HighD - The Highway Drone Data
-
Comma 2k19
-
HD1K Benchmark Suite
-
VQA Visual Question Answering
-
ApolloScape
-
nuScenes
-
MURA
-
Synscapes
-
fastMRI Dataset
-
Mapillary Vistas
-
Places2
-
Youtube-BoundingBoxes
-
ADE20K
-
WildDash
-
Oxford RobotCar Dataset
-
Recipe1M
-
MegaFace
-
SceneNet RGB-D
-
MS-Celeb-1M
-
SYNTHIA
-
UMD Faces
-
comma.ai
-
Spacenet
-
CompCars
-
ShapeNet
-
WIDER Face
-
WIDER
-
LSUN
-
Visual Genome
-
Cityscapes
-
ACTIVITYNET
-
COCO
-
Yahoo Flickr Creative Commons 100M
-
Pascal part
-
Flickr30k
-
KITTI
-
SVHN Street View House Numbers
-
ImageNet
自然語言處理
SQuAD
斯坦福問答資料集(SQuAD)是一個全新的閱讀理解資料集,由工作人員基於一系列維基百科文章中的提問和答案組成,其中每個問題的答案是來自相應閱讀段落的一段文字片段或區間。其中包括超過 500 篇文章中超過 100,000 個問答配對,使得 SQuAD 顯著大於以前的閱讀理解資料集。SQuAD2.0 結合了 SQuAD1.1 中的 100,000 個問題。
地址:
https://rajpurkar.github.io/SQuAD-explorer/
此外還有:
-
MultiNLI
-
CoQA
-
Spider 1.0
-
HotpotQA
-
Question Pairs (Quora)
-
Yelp open dataset
-
Facebook bAbI
-
MS MARCO
-
NewsQA
-
Datasets from DBPedia, Amazon, Yelp, Yahoo!, Sogou, a
-
DeepMind Q&A dataset
-
Text Classification Datasets
-
SNLI
-
Billion Words
-
Stanford Sentiment Treebank
-
Large Movie Review Dataset
-
Princeton WordNet
(本文為 AI科技大本營原創文章,轉載請微信聯絡 1092722531)
◆
精彩推薦
◆
推薦閱讀:
❤ 點選“閱讀原文”,檢視歷史精彩文章。