機器學習資料集哪裡找:最佳資料集來源盤點
摘要: 很難找到一個特定的資料集來解決對應的機器學習問題,這是非常痛苦的。下面的網址列表不僅包含用於實驗的大型資料集,還包含描述、使用示例等,在某些情況下還包含用於解決與該資料集相關的機器學習問題的演算法程式碼。
1 -Kaggle資料集
網址:http://www.kaggle.com/datasets
這是我最喜歡的資料集網站之一。每個資料集都有對應的一個小型社群,你可以在其中討論資料、查詢公共程式碼或在核心中建立自己的專案。該網站包含大量形狀、大小、格式各異的真實資料集。你還可以看到與每個資料集相關的“核心”,其中許多不同的資料科學家提供了筆記來分析資料集。有時在某些特定的資料集中,你可以從筆記中找到相應的演算法,解決預測問題。
2 -亞馬遜資料集
網址:https://registry.opendata.aws
該資料來源包含多個不同領域的資料集,如:公共交通、生態資源、衛星影象等。它也有一個搜尋框來幫助你找到你正在尋找的資料集,另外它還有資料集描述和使用示例,這是非常簡單、實用的!
3- UCI機器學習庫:
網址:https://archive.ics.uci.edu/ml/datasets.html
這是加州大學資訊與電腦科學學院的一個數據庫,包含了100多個數據集。它根據機器學習問題的型別對資料集進行分類。你可以找到單變數、多變數、分類、迴歸或者是推薦系統的資料集。UCI的某些資料集已經更新完畢並準備使用。
4-谷歌的資料集搜尋引擎:
網址:https://toolbox.google.com/datasetsearch
在2018年末,谷歌做了他們最擅長的事情,推出了另一項偉大的服務。它是一個可以按名稱搜尋資料集的工具箱。谷歌的目標是統一成千上萬個不同的資料集儲存庫,使這些資料能夠被發現。
5 -微軟資料集:
2018年7月,微軟與外部研究社群共同宣佈推出“微軟研究開放資料”。
它在公共雲中包含一個數據儲存庫,用於促進全球研究社群之間的協作。另外它還提供了一組在已發表的研究中使用的、經過整理的資料集。
6-Awesome公共資料集:
網址:https://github.com/awesomedata/awesome-public-datasets
這是一個按照主題分類的,由社群公開維護的一系列資料集清單,比如生物學、經濟學、教育學等。這裡列出的大多數資料集都是免費的,但是在使用任何資料集之前,你應該檢查相應的許可要求。
7 -政府資料集:
政府的相關資料集也很容易找到。許多國家為了提高知名度,向公眾分享了各種資料集。例如:
紐西蘭政府資料集 。
印度政府資料集 。
8-計算機視覺資料集:
如果你從事影象處理、計算機視覺或者是深度學習,那麼這應該是你的實驗獲取資料的重要來源之一。
該資料集包含一些可以用來構建計算機視覺(CV)模型的大型資料集。你可以通過特定的CV主題查詢特定的資料集,如語義分割、影象標題、影象生成,甚至可以通過解決方案(自動駕駛汽車資料集)查詢特定的資料集。
綜上所述,從我所觀察到的情況來看,越來越多的用於研究機器學習的各種資料集變得更容易獲取,維護這些新資料集的社群,也將不斷地發展,使電腦科學社群能夠繼續快速創新,為生活帶來更多創造性的解決方案。
本文作者:【方向】
本文為雲棲社群原創內容,未經允許不得轉載。