深度學習開放資料集
摘要: 還在發愁找不到資料集訓練你的模型?快來收藏一下史上最全的深度學習資料集彙總吧,有它在,一切都ok~
介紹 深度學習的關鍵是訓練。無論是從影象處理到語音識別,每個問題都有其獨特的細微差別和方法。
但是,你可以從哪裡獲得這些資料?現在你看到的很多研究論文都使用專有資料集,而這些資料集通常不會向公眾釋出。如果你想學習並應用你新掌握的技能,資料就成為一個問題。
在本文中,我們列出了一些高質量的資料集,每個深度學習愛好者都可以使用並改善改進他們模型的效能。 擁有這些資料集將使你成為一名更好的資料科學家,並且你將從中獲得無可估量的價值。我們還收錄了具有最新技術(SOTA)結果的論文,供你瀏覽並改進你的模型。
如何使用這些資料集?
首先要做的事——下載這些資料集,這些資料集的規模很大!所以請確保你有一個快速的網際網路連線。
資料集分為三類——影象處理、自然語言處理和音訊/語音處理。
讓我們開始我們的資料集之旅吧!
影象資料集
1.MNIST
MNIST是最受歡迎的深度學習資料集之一,這是一個手寫數字資料集,包含一組60,000個示例的訓練集和一個包含10,000個示例的測試集。這是一個很好的資料庫,用於在實際資料中嘗試學習技術和深度識別模式,同時可以在資料預處理中花費最少的時間和精力。
大小: 50 MB
記錄數量: 70,000張圖片被分成了10個組。
SOTA: Capsules之間的動態路由。
2.MS-COCO
COCO是一個大型的、豐富的物體檢測,分割和字幕資料集。它有幾個特點:
- 物件分割;
- 在上下文中可識別;
- 超畫素分割;
- 330K影象(> 200K標記);
- 150萬個物件例項;
- 80個物件類別;
- 91個類別;
- 每張圖片5個字幕;
有關鍵點的250,000人;
大小:25 GB(壓縮)
記錄數量: 330K影象、80個物件類別、每幅影象有5個標籤、25萬個關鍵點。
SOTA:Mask R-CNN
3.ImageNet
ImageNet是根據WordNet層次結構組織的影象資料集。WordNet包含大約100,000個單詞,ImageNet平均提供了大約1000個影象來說明每個單詞。
大小:150GB
記錄數量:總影象是大約是1,500,000,每個都有多個邊界框和相應的類標籤。
SOTA:深度神經網路的聚合殘差變換。
4.Open Images資料集
該資料集是一個包含近900萬個影象URL的資料集,這些影象跨越了數千個類的圖像級標籤邊框並且進行了註釋。該資料集包含9,011,219張影象的訓練集,41,260張影象的驗證集以及125,436張影象的測試集。
大小:500 GB(壓縮)
記錄數量:9,011,219張超過5k標籤的影象
SOTA:Resnet 101影象分類模型(在V2資料上訓練):模型檢查點,檢查點自述檔案,推理程式碼。
5.VisualQA
VQA是一個包含相關影象的開放式問題的資料集,這些問題需要理解視野和語言。這個資料集的一些有趣的特點是:
- 265,016張圖片(COCO和抽象場景);
- 每張圖片至少有3個問題(平均5.4個問題);
- 每個問題有10個基本事實答案;
- 每個問題有3個似乎合理(但可能不正確)的答案;
- 自動評估指標。
大小:25 GB(壓縮)
記錄數量:265,016張圖片,每張圖片至少3個問題,每個問題10個基本事實答案。
SOTA:視覺問答的技巧和訣竅:從2017年的挑戰中學習
6.街景房屋號碼(SVHN)
這是用於開發物件檢測演算法的真實世界的影象資料集,它需要最少的資料預處理。它與本列表中提到的MNIST資料集類似,但具有更多標籤資料(超過600,000個影象),這些資料是從谷歌街景中檢視的房屋號碼中收集的。
大小:2.5 GB
記錄數量:6,30,420張圖片被分佈在10個類中。
SOTA:虛擬對抗訓練的分佈平滑
7.CIFAR-10
該資料集是影象分類的另一個數據集,它由10個類的60,000個影象組成(每個類在上面的影象中表示為一行)。總共有50,000個訓練影象和10,000個測試影象。資料集分為6個部分:5個訓練批次和1個測試批次,每批有10,000個影象。
大小:170 MB
記錄數量:60,000張圖片被分為10個類。
SOTA:ShakeDrop正則化
8.Fashion--MNIST
Fashion-MNIST包含60,000個訓練影象和10,000個測試影象,它是一個類似MNIST的時尚產品資料庫。開發人員認為MNIST已被過度使用,因此他們將其作為該資料集的直接替代品。每張圖片都以灰度顯示,並與10個類別的標籤相關聯。
大小:30 MB。
記錄數量:70,000張圖片被分為10個類。
SOTA:隨機擦除資料增強
自然語言處理
9.IMDB評論 這是電影愛好者的夢幻資料集,它意味著二元情感分類,並具有比此領域以前的任何資料集更多的資料。除了訓練和測試評估示例之外,還有更多未標記的資料供你使用。原始文字和預處理的單詞格式包也包括在內。
大小:80 MB。
記錄數量: 25,000個電影評論訓練,25,000個測試
SOTA:學習結構化文字表示
10.二十個新聞組(Twenty Newsgroups) 顧名思義,該資料集包含有關新聞組的資訊。為了管理這個資料集,從20個不同的新聞組中獲取了1000篇Usenet文章。這些文章具有典型特徵,如主題行,簽名和引號。
大小:20 MB
記錄數量:來自20個新聞組的20,000條訊息。
SOTA:用於文字分類的非常深的卷積網路,
11.Sentiment140 Sentiment140是一個可用於情感分析的資料集。它是一個流行的資料集,它能讓你的NLP旅程更加完美。情緒已經從資料中預先刪除,最終的資料集具有以下6個特徵:
- 推文的極性(polarity of the tweet)。
- 推文的ID。
- 推文的日期。
- 查詢。
- 推文的文字。
大小:80 MB(壓縮)。
記錄數量:160,000條推文。
SOTA:評估最先進的情感資料集的最新情緒模型
12.WordNet 在上面的ImageNet資料集中提到,WordNet是一個包含英文synsets的大型資料庫。Synsets是同義詞組,每個描述不同的概念。WordNet的結構使其成為NLP非常有用的工具。
大小:10 MB
記錄數量:通過少量“概念關係”將117,000個同義詞集與其他同義詞集相關聯。
SOTA:Wordnet:現狀和前景
13.Yelp評論 這是Yelp為了學習目的而釋出的一個開放資料集。它由數百萬使用者評論,商業屬性和來自多個大都市地區的超過20萬張照片組成。這是一個非常常用的全球NLP挑戰資料集。
大小:2.66 GB JSON,2.9 GB SQL和7.5 GB照片(全部壓縮)
記錄數:5,200,000條評論,174,000條商業屬性,20萬張照片。
SOTA:細心卷積(Attentive Convolution)
14.維基百科語料庫 該資料集是維基百科全文的集合。它包含來自400多萬篇文章的將近19億字。這個強大的NLP資料集你可以通過單詞,短語或段落本身的一部分進行搜尋。
大小:20 MB。
記錄數:4,400,000篇文章,19億字。
SOTA:打破Softmax Bottelneck:高階RNN語言模型
15.部落格作者身份語料庫 此資料集包含從數千名博主收集的部落格帖子,並且已從blogger.com收集。每個部落格都作為一個單獨的檔案提供,每個部落格至少包含200次常用英語單詞。
大小:300 MB
記錄數:681,288個帖子,超過1.4億字。
SOTA:用於大規模作者歸屬的字元級和多通道卷積神經網路
16.歐洲語言的機器翻譯資料集 該資料集包含四種歐洲語言的訓練資料,它存在的任務是改進當前的翻譯方法。你訓練以下任何語言對:
· 法語——英語;
· 西班牙語——英語;
· 德語——英語;
· 捷克語——英語。
大小:15 GB
記錄數量:約30,000,000個句子及其翻譯。
SOTA:Attention就是你所需要的
音訊/語音資料集 17.免費口語數字資料集 此列表中的另一項是由MNIST資料集啟發!這是為了解決識別音訊樣本中的口頭數字的任務而建立的。這是一個開放的資料集,所以希望隨著人們繼續貢獻更多樣本,它會不斷增長。目前,它包含以下特點:
3個揚聲器;
- 1500個錄音(每個揚聲器每個數字50個);
- 英語發音;
大小:10 MB。
記錄數量:1500個音訊樣本。
SOTA:使用取樣級CNN架構的基於原始波形的音訊分類
18.免費音樂檔案(FMA) FMA是音樂分析的資料集,該資料集由full-length和HQ音訊、預先計算的特徵以及音軌和使用者級元資料組成。它是一個開放資料集,用於評估MIR中的幾個任務。以下是資料集連同其包含的csv檔案列表:
·
- tracks.csv:106,574首曲目的每首曲目元資料,如ID,標題,藝術家,流派,標籤和播放次數。
- genres.csv:163種風格的ID與他們的名字和父母(用於推斷流派層次和頂級流派)。
- features.csv:用librosa提取的共同特徵 。
- echonest.csv:由Echonest (現在的 Spotify)為13,129首音軌的子集提供的音訊功能 。
大小:1000 GB
記錄數量:約100,000 tracks
SOTA:學習從音訊中識別音樂風格
19.舞廳(Ballroom) 該資料集包含舞廳跳舞音訊檔案,以真實音訊格式提供了許多舞蹈風格的一些特徵摘錄。 以下是資料集的一些特徵:
· 例項總數:698;
· 持續時間:約30秒;
· 總持續時間:約20940秒;
大小: 14GB(壓縮)
記錄數量:約700個音訊樣本
SOTA:考慮到不同型別音樂風格的多模型方法來打敗追蹤
20.百萬歌曲資料集 在百萬歌曲資料集是音訊功能和元資料的一百萬當代流行音樂曲目可自由可用的集合。 其目的是:
· 鼓勵對擴大到商業規模的演算法進行研究;
· 為評估研究提供參考資料集;
· 作為使用API建立大型資料集的捷徑(例如Echo Nest的);
· 幫助新研究人員在MIR領域開始工作;
資料集的核心是一百萬首歌曲的特徵分析和元資料。該資料集不包含任何音訊,只包含派生的功能。示例音訊可以通過使用哥倫比亞大學提供的程式碼從7digital等服務中獲取。
大小: 280 GB
記錄數量:一百萬首歌曲!
SOTA:百萬歌曲資料集挑戰推薦系統的初步研究
21.LibriSpeech 該資料集是包含大約1000小時的英語語音的大型語料庫。這些資料來自LibriVox專案的有聲讀物。它已被分割並正確對齊,如果你正在尋找一個起點,請檢視已準備好的聲學模型,這些模型在kaldi-asr.org和語言模型上進行了訓練,適合評估,網址為:http://www.openslr.org/11/。
大小:60 GB
記錄數: 1000小時的演講。
SOTA:基於信件的語音識別與門控通訊
22.VoxCeleb VoxCeleb是一個大型的說話人識別資料集。它包含約1,200名來自YouTube視訊的約10萬個話語,資料大部分是性別平衡的(男性佔55%)。名人跨越不同的口音,職業和年齡,開發和測試集之間沒有重疊。對於隔離和識別哪個超級巨星來說,這是一個有趣的用例。
大小: 150 MB
記錄數: 1,251位名人的100,000條話語。
SOTA:VoxCeleb:一個大型說話人識別資料集
資料集的問題實踐
23.Twitter情緒分析 仇恨以種族主義和性別歧視為形式的言論已成為麻煩,重要的是將這類推文與其他人分開。在這個實踐問題中,我們提供既有正常又有仇恨推文的Twitter資料。你作為資料科學家的任務是確定推文是仇恨推文,哪些不是。
大小: 3 MB。
記錄數量: 31,962條推文。
24.印度演員的年齡檢測 對於任何深度學習愛好者來說,這是一個令人著迷的挑戰。該資料集包含數千個印度演員的影象,你的任務是確定他們的年齡。所有影象都是手動選擇的,並從視訊幀中剪下,導致尺度,姿勢,表情,照度,年齡,解析度,遮擋和化妝的高度可變性。
大小: 48 MB(壓縮)。
記錄數:訓練集中的19,906幅影象和測試集中的6636幅影象。
SOTA:深入學習 - 解決年齡檢測問題
25.城市聲音分類 這個資料集包含超過8000個來自10個不同城市聲音摘錄。這個實踐問題旨在向你介紹常見分類方案中的音訊處理。
大小:訓練集 - 3 GB(壓縮),測試集 - 2 GB(壓縮)
記錄數: 來自10個城市的8732個聲音標註的聲音片段(<= 4s)