1. 程式人生 > >最流行的4個機器學習資料集

最流行的4個機器學習資料集

機器學習演算法需要作用於資料,而資料的本質則決定了應用的機器學習演算法是否合適,而資料的質量也會決定演算法表現的好壞程度。所以會研究資料,會分析資料很重要。本文作為學習研究資料系列博文的開篇,列舉了4個最流行的機器學習資料集。

Iris

Iris也稱鳶尾花卉資料集,是一類多重變數分析的資料集。通過花萼長度,花萼寬度,花瓣長度,花瓣寬度4個屬性預測鳶尾花卉屬於(Setosa,Versicolour,Virginica)三個種類中的哪一類。

資料集特徵: 多變數 記錄數: 150 領域: 生活
屬性特徵: 實數 屬性數目: 4 捐贈日期 1988-07-01
相關應用: 分類 缺失值? 網站點選數: 563347

Adult

該資料從美國1994年人口普查資料庫抽取而來,可以用來預測居民收入是否超過50K$/year。該資料集類變數為年收入是否超過50k$,屬性變數包含年齡,工種,學歷,職業,人種等重要資訊,值得一提的是,14個屬性變數中有7個類別型變數。

資料集特徵: 多變數 記錄數: 48842 領域: 社會
屬性特徵: 類別型,整數 屬性數目: 14 捐贈日期 1996-05-01
相關應用: 分類 缺失值? 網站點選數: 393977

Wine

這份資料集包含來自3種不同起源的葡萄酒的共178條記錄。13個屬性是葡萄酒的13種化學成分。通過化學分析可以來推斷葡萄酒的起源。值得一提的是所有屬性變數都是連續變數。

資料集特徵: 多變數 記錄數: 178 領域: 物理
屬性特徵: 整數,實數 屬性數目: 13 捐贈日期 1991-07-01
相關應用: 分類 缺失值? 網站點選數: 337319

Car Evaluation

這是一個關於汽車測評的資料集,類別變數為汽車的測評,(unacc,ACC,good,vgood)分別代表(不可接受,可接受,好,非常好),而6個屬性變數分別為「買入價」,「維護費」,「車門數」,「可容納人數」,「後備箱大小」,「安全性」。值得一提的是6個屬性變數全部是有序類別變數,比如「可容納人數」值可為「2,4,more」,「安全性」值可為「low, med, high」。

資料集特徵: 多變數 記錄數: 1728 領域: N/A
屬性特徵: 類別型 屬性數目: 6 捐贈日期 1997-06-01
相關應用: 分類 缺失值? 網站點選數: 272901

小結

通過比較以上4個數據集的差異,簡單地總結:當需要試驗較大量的資料時,我們可以想到「Adult」;當想研究變數之間的相關性時,我們可以選擇變數值只為整數或實數的「Iris」和「Wine」;當想研究logistic迴歸時,我們可以選擇類變數值只有兩種的「Adult」;當想研究類別變數轉換時,我們可以選擇屬性變數為有序類別的「Car Evaluation」。更多的嘗試還需要對這些資料集了解更多才行。



文/紫鬆(簡書作者)
原文連結:http://www.jianshu.com/p/be23b3870d2e
著作權歸作者所有,轉載請聯絡作者獲得授權,並標註“簡書作者”。