1. 程式人生 > >分享三大領域常用十大開源數據集,收藏!

分享三大領域常用十大開源數據集,收藏!

mage 使用 uci 算法 分鐘 blank opensl 十大 垃圾郵件

來源商業新知網,原標題:幹貨收藏!三大領域常用十大開源數據集

全文共 1144 字,預計學習時長 2 分鐘

技術分享圖片

機器學習的研究與實現離不開大數據。知曉通用的開源數據集,一方面可以驗證自己算法,另一方面也可以與其他算法進行比較。本文介紹了計算機視覺、自然語言處理和語音識別三大領域的十個開源數據集以供你參考,絕對值得收藏!

技術分享圖片

計算機視覺

MNIST

MNIST 數據集來自美國國家標準與技術研究所,National Institute of Standards and Technology (NIST)。訓練集 (training set) 由來自250個不同人手寫的數字構成,其中 50% 是高中學生,50% 來自人口普查局 (the Census Bureau) 的工作人員。測試集(test set) 也是同樣比例的手寫數字數據。

鏈接:http://pjreddie.com/projects/mnist-in-csv/

CIFAR 10

CIFAR-10數據集由10個類的60000個32x32彩色圖像組成,每個類有6000個圖像。有50000個訓練圖像和10000個測試圖像。數據集分為五個訓練批次和一個測試批次,每個批次有10000個圖像。測試批次包含來自每個類別的恰好1000個隨機選擇的圖像。訓練批次以隨機順序包含剩余圖像,但一些訓練批次可能包含來自一個類別的圖像比另一個更多。總體來說,五個訓練集之和包含來自每個類的5000張圖像。

鏈接:https://www.cs.toronto.edu/~kriz/cifar.html

ImageNet

圖像處理界最有名的圖像數據集之一,一般情況下只用子數據集就可以。ImageNet數據集是為了促進計算機圖像識別技術的發展而設立的一個大型圖像數據集。其圖片數量最多,分辨率最高,含有的類別更多,有上千個圖像類別。每年ImageNet的項目組織都會舉辦一場ImageNet大規模視覺識別競賽,從而會誕生許多圖像識別模型。

鏈接:http://image-net.org/

Visual Genome

非常詳細的視覺知識庫,並帶有100K圖像的深字幕。相較於ImageNet數據集,這個數據集每張圖片所包含的信息更加豐富,將對象、屬性之間的關系做註解,是這套數據集的核心。Visual Genome數據集采用了微軟COCO的圖片庫,用極豐富的細節對這十萬張圖片做了註解。

鏈接:http://visualgenome.org/

技術分享圖片

NLP

WikiText

WikiText 英語詞庫數據(The WikiText Long Term Dependency Language Modeling Dataset)是一個包含1億個詞匯的英文詞庫數據,這些詞匯是從Wikipedia的優質文章和標桿文章中提取得到,包括WikiText-2和WikiText-103兩個版本,相比於著名的 Penn Treebank (PTB) 詞庫中的詞匯數量,前者是其2倍,後者是其110倍。每個詞匯還同時保留產生該詞匯的原始文章,這尤其適合當需要長時依賴(longterm dependency)自然語言建模的場景。

鏈接:http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

SQuAD

SQuAD 是斯坦福大學於2016年推出的數據集,一個閱讀理解數據集,給定一篇文章,準備相應問題,需要算法給出問題的答案。此數據集所有文章選自維基百科,數據集的量為當今其他數據集(例如,WikiQA)的幾十倍之多。一共有107,785問題,以及配套的 536 篇文章。

鏈接:https://rajpurkar.github.io/SQuAD-explorer/

UCI’s Spambase

來自UCI的經典垃圾電子郵件數據集。這是一個大型垃圾郵件數據集,用於垃圾郵件過濾。

鏈接:https://archive.ics.uci.edu/ml/datasets/Spambase

技術分享圖片

語音

LibriSpeech

該數據集是包含大約1000小時的英語語音的大型語料庫。這些數據來自LibriVox項目的有聲讀物。它已被分割並正確對齊,如果你正在尋找一個起點,請查看已準備好的聲學模型,這些模型在kaldi-asr.org和語言模型上進行了訓練,適合評估。

鏈接:http://www.openslr.org/12/

2000 HUB5 English

只包含英語的語音數據。最近一次被使用是百度的深度語音論文。

鏈接:https://catalog.ldc.upenn.edu/LDC2002T43

VoxForge

帶口音英語的清晰語音數據集。如果你需要有強大的不同口音、語調識別能力,會比較有用,可以提高系統的魯棒性。

鏈接:http://www.voxforge.org/

分享三大領域常用十大開源數據集,收藏!