1. 程式人生 > >17個最受歡迎的機器學習應用標準資料集

17個最受歡迎的機器學習應用標準資料集

轉自原文:http://tech.huanqiu.com/news/2016-12/9763359.html

來源:machinelearningmastery.com

作者:Jason Brownlee

編譯:劉小芹


標準資料集

下面是本文將介紹的 10 個數據集的列表。每個資料集都不大,能夠適應記憶體或使用電子表格檢視。所有資料集都由表格資料組成,並且沒有(顯式的)缺失值。

瑞典汽車保險資料集

葡萄酒質量資料集

比馬印第安人糖尿病資料集

聲納資料集

鈔票資料集

鳶尾花卉資料集

鮑魚資料集

電離層資料集

小麥種子資料集

波士頓房價資料集

瑞典汽車保險資料集

瑞典汽車保險資料集( Swedish Auto Insurance Dataset)包含了對所有索賠要求的總賠付預測,以千瑞典克朗計,給定的條件是索賠要求總數。

這是一個迴歸問題。它由 63 個觀察值組成,包括1個輸入變數和1個輸出變數。變數名分別是:

索賠要求數量

對所有索賠的總賠付,以千瑞典克朗計

預測平均值的基準效能的均方根誤差(RMSE)約為 72.251 千克朗。

前5行的示例如下:

下面是整個資料集的散點圖:

下載地址:http://t.cn/RfHWAbI

葡萄酒質量資料集

葡萄酒質量資料集(Wine Quality Dataset )涉及根據每種葡萄酒的化學度量值來預測白葡萄酒的質量。

它是一個多類分類問題,但也可以定義為迴歸問題。每個類的觀察值數量不均等。一共有 4898個觀察值,11個輸入變數和一個輸出變數。變數名如下:

非揮發性酸度

揮發性酸度

檸檬酸

殘留糖

氯化物

遊離二氧化硫

總二氧化硫

濃度

pH值

硫酸鹽

酒精度

質量(得分在 0 和 10 之間)

預測平均值的基準效能的均方根誤差(RMSE)為 0.148 的質量分數。

資料集前5行的示例如下:

比馬印第安人糖尿病資料集

比馬印第安人糖尿病資料集(Pima Indians Diabetes Dataset)涉及根據醫療記錄預測比馬印第安人5年內糖尿病的發病情況。

它是一個二元分類問題。每個類的觀察值數量不均等。一共有 768 個觀察值,8個輸入變數和1個輸出變數。缺失值通常用零值編碼。變數名如下:

懷孕次數

口服葡萄糖耐受試驗中,2小時的血漿葡萄糖濃度。

舒張壓(mm Hg)

三頭肌面板褶層厚度(mm)

2小時血清胰島素含量(μU/ ml)

體重指數(體重,kg /(身高,m)^ 2)

糖尿病家族史

年齡(歲)

類變數(0 或 1)

預測最普遍類的基準效能是約 65% 的分類準確率,最佳結果達到約 77% 的分類準確率。

資料集前5行的示例如下:

下載地址:http://t.cn/RfaFfq8

聲納資料集

聲納資料集(Sonar Dataset )涉及預測根據給定聲納從不同角度返回的強度預測目標物體是岩石還是礦井。

它是一個二元分類問題。每個類的觀察值數量不均等。一共有208個觀察值,60個輸入變數和1個輸出變數。變數名如下:

從不同角度返回的聲納

... ...

類(M為礦井,R為岩石)

預測最普遍類的基準效能是約 53% 的分類準確率,最佳結果達到約 88% 的分類準確率。

該資料集前5行的示例如下:

下載地址:http://t.cn/Rf8GrP7

鈔票資料集

鈔票資料集(Banknote Dataset)涉及根據給定鈔票的數個度量的照片預測是真鈔還是假鈔。

它是一個二元分類問題。每個類的觀測值數量不均等。一共有 1372 個觀察值,4個輸入變數和1個輸出變數。變數名如下:

小波變換影象(連續)

小波偏斜變換影象(連續)

小波峰度變換影象(連續)

影象熵(連續)。

類(0 為真鈔,1 為假鈔)

預測最普遍類的基準效能是約 50% 的分類準確率。

該資料集前5行的示例如下:

下載地址:http://t.cn/Rf8GdQo

鳶尾花卉資料集

鳶尾花卉資料集(Iris Flowers Dataset )涉及根據鳶尾花的測量資料預測花卉品種。

它是一個多類分類問題。每個類的觀察值數量是均等的。一共有 150 個觀察值,4個輸入變數和1個輸出變數。變數名如下:

萼片長度(cm)

萼片寬度(cm)

花瓣長度(cm)

花瓣寬度(cm)

類(Iris Setosa,Iris Versicolour,Iris Virginica)

預測最普遍類的基準效能是約 26% 的分類準確率。

該資料集前5行的示例如下:

下載地址:http://t.cn/Rf8GeUq

鮑魚資料集

鮑魚資料集(Abalone Dataset)涉及根據鮑魚個體的測量資料來預測鮑魚的年齡(環的數量)。

它是一個多類分類(multi-class classification)問題,但也可以作為迴歸問題。每個類的觀察值數量不均等。該資料集有 4177 個觀察值,8個輸入變數和1個輸出變數。 變數名如下:

性別(M,F,I)

長度

直徑

高度

總重量

剝殼重量

內臟重量

殼重

環的數量

預測最普遍類的基準效能是約 16% 的分類準確率,預測平均值的基準效能的均方根誤差(RMSE)是約 3.2 個環。

該資料集前5行的示例如下:

下載地址:http://t.cn/Rf8GDdu

電離層資料集

電離層資料集(Ionosphere Dataset)需要根據給定的電離層中的自由電子的雷達回波預測大氣結構。

它是一個二元分類問題。每個類的觀察值數量不均等,一共有 351 個觀察值,34 個輸入變數和1個輸出變數。變數名如下:

1 17對雷達回波資料。

2 ... ...

3 類(g 表示好,b 表示壞)。

預測最普遍類的基準效能是約 64% 的分類準確率,最佳結果達到約 94% 的分類準確率。

該資料集前5行的示例如下:

下載地址:http://t.cn/Rf8GFY4

小麥種子資料集

小麥種子資料集(Wheat Seeds Dataset)涉及對不同品種的小麥種子進行預測,給定的是種子的計量資料。

它是一個二元分類問題。每個類的觀察值是均等的,一共 210 個觀察值,7個輸入變數和1個輸出變數。變數名如下:

區域

周長

壓實度

籽粒長度

籽粒寬度

不對稱係數

籽粒腹溝長度

類(1,2,3)

預測最普遍類的基準效能是約 28% 的分類準確率。

資料集前5行的示例如下:

下載地址:http://t.cn/RfHHbzw

波士頓房價資料集

波士頓房價資料集(Boston House Price Dataset)包含對房價的預測,以千美元計,給定的條件是房屋及其相鄰房屋的詳細資訊。

該資料集是一個迴歸問題。每個類的觀察值數量是均等的,共有 506 個觀察,13 個輸入變數和1個輸出變數。變數名如下:

CRIM:城鎮人均犯罪率。

ZN:住宅用地超過 25000 sq.ft. 的比例。

INDUS:城鎮非零售商用土地的比例。

CHAS:查理斯河空變數(如果邊界是河流,則為1;否則為0)。

NOX:一氧化氮濃度。

RM:住宅平均房間數。

AGE:1940 年之前建成的自用房屋比例。

DIS:到波士頓五個中心區域的加權距離。

RAD:輻射性公路的接近指數。

TAX:每 10000 美元的全值財產稅率。

PTRATIO:城鎮師生比例。

B:1000(Bk-0.63)^ 2,其中 Bk 指代城鎮中黑人的比例。

LSTAT:人口中地位低下者的比例。

MEDV:自住房的平均房價,以千美元計。

預測平均值的基準效能的均方根誤差(RMSE)是約 9.21 千美元。

資料集前5行的示例如下:

下載地址:http://t.cn/RfHTAgY

時間序列資料集

機器學習可以在時間序列資料集上應用。這些屬於需要預測數值或分類的問題,但資料是按時間排序的。下面介紹7個標準時間序列資料集,可用於使用機器學習進行時間序列預測的實踐。

單變數時間序列資料集

只有一個變數的時間序列資料集稱為單變數資料集(univariate datasets),其優點是:

簡單且容易理解;

支援excel或其他繪圖工具;

易於預測結果和期望結果的比較;

易於嘗試你並評估新的方法。

以下是4個單變數時間序列資料集,均可從datamarket上下載。

洗髮水銷售資料集(Shampoo Sales Dataset)

該資料集描述了3年期間的洗髮水月銷售量,單位是銷售量,有36個觀察值。下面是該資料集前5行的示例,包括標題行:

日最低溫度資料集(Minimum Daily Temperatures Dataset)

該資料集描述了澳大利亞墨爾本市10年間(1981-1990)的日最低溫度。單位是攝氏度,有3650個觀察值,資料來源為澳大利亞氣象局。

下面是該資料集前5行資料的示例:

每月太陽黑子數資料集(Monthly Sunspot Dataset)

該資料集描述了230年間(1749-1983)觀測到的每月太陽黑子數量。單位是太陽黑子數量,有2820個觀察值。資料集的來源為 Andrews&Herzberg(1985)。

下面是前5行資料的示例:

每日女嬰出生人數資料集

該資料集描述了1959年加利福尼亞州每日出生的女嬰人數。單位是人數,有365個觀察值。資料集來源自 Newton(1988)。

下面是前5行的示例:

多變數時間序列資料集

多變數資料集(Multivariate datasets)通常更具挑戰性,多變數時間序列資料的主要來源是 UCI 機器學習庫(http://archive.ics.uci.edu/ml/),下文推薦的3個數據集均可下載。

EEG 人眼狀態資料集

該資料集描述個體的 EEG 資料,以及他們的眼睛是睜著還是閉著。這個問題是為了根據跟定的 EEG 資料預測眼睛的狀態。

這是一個分類預測模型問題,共有14980個觀察值和15個輸入變數。 分類值“1”表示眼睛閉著,“0”表示眼睛睜開著。 資料按時間排序,記錄觀察結果的時間是117秒。

下面是資料集前5行的示例:

使用檢測資料集(Occupancy Detection Dataset)

這個資料集描述有關房間特徵的資料,目的是預測房間是否在使用中。資料集包含幾個星期期間,共10560個一分鐘的觀察,屬於分類預測問題。資料集包括7個特徵值,例如房間的光線、氣溫、溼度等。

下面是前5行資料的示例,包括標題行:

臭氧水平檢測資料集

這個資料集描述了6年期間的地面臭氧濃度資料,目的是預測是否“臭氧日”。資料集包含2,536個觀察值,73個特徵。 這是分類預測問題,類別值為“1”表示這天是臭氧日,為“0”表示正常日。

下面是前5行的示例:

總結

本文介紹了 10 個最受歡迎的標準資料集,你可以用它們來進行機器學習的應用練習。

可以採取以下步驟:

選擇一個數據集。

選擇你最喜歡的工具(例如 Weka,scikit-learn 或 R)

看看你的結果比基準分數高多少。