1. 程式人生 > >機器學習的 50 個最佳免費資料集

機器學習的 50 個最佳免費資料集

在這裡插入圖片描述
您也可以檢視這篇文章的英語日語版本。

用於機器學習的開放資料集有哪些呢?Gengo 團隊為高質量的資料集建立了一份最終備忘單。這些高質量的資料集或者涵蓋範圍廣泛(比如 Kaggle),或者非常細化(比如自動駕駛汽車的資料)。

首先,在搜尋資料集時要記住幾點。Dataquest 是這麼說的:

  • 資料集不應髒亂,這樣就無需花太多時間來清洗資料。
  • 資料集不應包含太多的行或者列,這樣更易於使用。
  • 資料越乾淨越好 —— 清洗大型資料集相當耗時。
  • 這些資料可以用來回答一些有趣的問題。

我們一起來看看吧!

資料集查詢器

一般資料集

公共政府資料集

金融與經濟

  • Quandl:經濟和金融資料的良好來源 —— 對於建立預測經濟指標或股票價格的模型很有用。
  • 國際貨幣基金組織資料 (IMF Data):國際貨幣基金組織在這裡釋出有關國際金融、債務利率、外匯儲備、商品價格和投資的資料。
  • 美國經濟協會 (AEA):這是查詢美國巨集觀經濟資料的良好來源。

相關推薦

機器學習50 最佳免費資料

您也可以檢視這篇文章的英語和日語版本。 用於機器學習的開放資料集有哪些呢?Gengo 團隊為高質量的資料集建立了一份最終備忘單。這些高質量的資料集或者涵蓋範圍廣泛(比如 Kaggle),或者非常細化(比如自動駕駛汽車的資料)。 首先,在搜尋資料集時要記住幾點。

機器學習保險行業問答開放資料: 2. 使用案例

在上一篇文章中,介紹了資料集的設計,該語料可以用於研究和學習,從規模和質量上,是目前中文問答語料中,保險行業垂直領域最優秀的語料,關於該語料製作過程可以通過語料主頁瞭解,本篇的主要內容是使用該語料實現一個簡單的問答模型,並且給出準確度和損失函式作為資

機器學習保險行業問答開放資料:1.語料介紹

insuranceqa-corpus-zh 保險行業語料庫 Welcome 該語料庫包含從網站Insurance Library 收集的問題和答案。 據我們所知,這是保險領域首個開放的QA語料庫: 該語料庫的內容由現實世界的使用者提出,高質量的答案由具有

Andrew Ng 機器學習筆記 15 :大資料梯度下降

隨機梯度下降 隨機梯度下降原理 小批量梯度下降 小批量梯度下降vs隨機梯度下降 隨機梯度下降的收

《Spark機器學習》筆記——基於MovieLens資料使用Spark進行電影資料分析

1、資料集下載https://grouplens.org/datasets/movielens2、資料集下檔案格式u.user使用者屬性檔案包含user.id使用者ID    gender性別   occupation職業    ZIP code郵編等屬性,每個屬性之間用|分

機器學習工具之交叉驗證資料自動劃分train_test_split

機器學習工具之交叉驗證資料集自動劃分 1. 使用方式: from sklearn.model_selection import train_test_split x_train,x_test,y_train,y_test=train_test_spli

機器學習】模型訓練前夜—資料預處理(概念+圖+實戰)

本文程式碼推薦使用Jupyter notebook跑,這樣得到的結果更為直觀。 缺失資料處理: # 顯示資料的缺失值 import pandas as pd from io import StringIO csv_data = '''A,B,C,D 1.0,2.0,3

Google機器學習(二) 鳶尾花資料(load_iris) 決策樹

Google深度學習系列視訊 ____tz_zs學習筆記 一、在Spyder中寫第一個機器學習的程式: 這裡使用的分類器是決策樹 from sklearn import tree feature = [[140,1],[130,1],[150,0],[170,

最強資料集合:50最佳機器學習公共資料丨資源

原作 mlmemoirs 郭一璞 編譯 量子位 報道 | 公眾號 QbitAI 外國自媒體mlmemoirs根據github、福布斯、CMU官網等資訊,整理了一張50個最佳機器學習公共資料集的榜單,量子位為大家分享一下~ 提前說兩個須知: 尋找資料集の奧義

最強資料50最佳機器學習公共資料,可以幫你驗證idea!

1.  尋找資料集の奧義 根據CMU的說法,尋找一個好用的資料集需要注意一下幾點: 資料集不混亂,否則要花費大量時間來清理資料。 資料集不應包含太多行或列,否則會難以使用。 資料越乾淨越好,清理大型資料集可能非常耗時。 應該預設一個有趣的問題,而這個問題又可以用資料來

機器學習,深度學習免費資料彙總

【第一波】 目前系統整理了一些網上開放的免費科研資料集,以下是分類列表以及下載地址,供高校和科研機構免費下載和使用。 金融 美國勞工部統計局官方釋出資料 上證A股日線資料,1999.12.09 至 2016.06.08,前復權,1095支股票 深證A股日線資料,1999

機器學習與AI相關的資料

get pos 機器 post 機器學習 notes .com www .cn 機器學習與AI相關的資料: 1、 http://www.fast.ai/ 基礎學習 2、http://geek.ai100.com.cn/ 中文 3、http://geek.ai100.

2008年國外50最佳CSS設計欣賞

插件 用戶體驗 bsp 感覺 blank 源代碼 sign eof sites 這50個CSS網站是由WebDesignerWall評選出來的,很具參考價值。我們在欣賞的同時,也能從中吸取很多靈感,也能從它們的源代碼中學習更高級的CSS技術。今年,越來越多的設計師開

[機器學習python實踐(5)]Sklearn實現

ace 訓練 存在 edi 每一個 predict utf-8 avg score 1,集成 集成(Ensemble)分類模型是綜合考量多個分類器的預測結果,從而做出決策。一般分為兩種方式:1)利用相同的訓練數據同時搭建多個獨立的分類模型,然後通過投票的方式,以少數服從多數

機器學習入門-載入sklearn中資料並用matplotlib進行視覺化

from sklearn import datasets import matplotlib.pyplot as plt def get_data(): """ 從sklearn中獲取鳶尾花的資料 :return: 鳶尾花資料的字典,字典中包括的key有:【'data'

python關聯分析 __機器學習之FP-growth頻繁項演算法

FP-growth演算法 專案背景/目的 對於廣告投放而言,好的關聯會一定程度上提高使用者的點選以及後續的諮詢成單 對於產品而言,關聯分析也是提高產品轉化的重要手段,也是大多商家都在做的事情,尤其是電商平臺 曾經我用SPSS Modeler做過Apriori關聯分析模型,也能

機器學習之FP-growth頻繁項演算法

FP-growth演算法專案背景/目的對於廣告投放而言,好的關聯會一定程度上提高使用者的點選以及後續的諮詢成單 對於產品而言,關聯分析也是提高產品轉化的重要手段,也是大多商家都在做的事情,尤其是電商平臺 曾經我用SPSS Modeler做過Apriori關聯分析模型,也能滿足需求,但是效果自然是不及pyt

機器學習之FP-growth頻繁項算法

算法 image -o 做的 mine 關聯 RoCE 節點 reat FP-growth算法項目背景/目的對於廣告投放而言,好的關聯會一定程度上提高用戶的點擊以及後續的咨詢成單 對於產品而言,關聯分析也是提高產品轉化的重要手段,也是大多商家都在做的事情,尤其是電商平臺 曾

機器學習實戰——預測數值型資料:迴歸 實現記錄

關於利用資料集繪圖建立模型 >>> import regression >>> xArr, yArr= regression.loadDataSet('ex0.txt') >>> ws= regression.standRegres(xAr

網路科學免費資料

網路科學是本人的主要研究領域,在此整理一下自己蒐集的網上免費資料集(附帶一些其他領域的資料集),希望能節約大家找資料的時間。 網路科學 斯坦福大規模網路資料集, 涵蓋領域非常廣泛:社交網路,通訊網路,引文網路,艾馬遜網路,道路網路,訊號網路,線上社交網路,維基網路等