最流行的4個機器學習資料集
機器學習演算法需要作用於資料,而資料的本質則決定了應用的機器學習演算法是否合適,而資料的質量也會決定演算法表現的好壞程度。所以會研究資料,會分析資料很重要。本文作為學習研究資料系列博文的開篇,列舉了4個最流行的機器學習資料集。
Iris
Iris也稱鳶尾花卉資料集,是一類多重變數分析的資料集。通過花萼長度,花萼寬度,花瓣長度,花瓣寬度4個屬性預測鳶尾花卉屬於(Setosa,Versicolour,Virginica)三個種類中的哪一類。
資料集特徵: | 多變數 |
記錄數: | 150 |
領域: | 生活 |
---|---|---|---|---|---|
屬性特徵: | 實數 |
屬性數目: | 4 |
捐贈日期 | 1988-07-01 |
相關應用: | 分類 |
缺失值? | 無 |
網站點選數: | 563347 |
Adult
該資料從美國1994年人口普查資料庫抽取而來,可以用來預測居民收入是否超過50K$/year。該資料集類變數為年收入是否超過50k$,屬性變數包含年齡,工種,學歷,職業,人種等重要資訊,值得一提的是,14個屬性變數中有7個類別型變數。
資料集特徵: | 多變數 |
記錄數: | 48842 |
領域: | 社會 |
---|---|---|---|---|---|
屬性特徵: | 類別型,整數 |
屬性數目: | 14 |
捐贈日期 | 1996-05-01 |
相關應用: | 分類 |
缺失值? | 有 |
網站點選數: | 393977 |
Wine
這份資料集包含來自3種不同起源的葡萄酒的共178條記錄。13個屬性是葡萄酒的13種化學成分。通過化學分析可以來推斷葡萄酒的起源。值得一提的是所有屬性變數都是連續變數。
資料集特徵: | 多變數 |
記錄數: | 178 |
領域: | 物理 |
---|---|---|---|---|---|
屬性特徵: | 整數,實數 |
屬性數目: | 13 |
捐贈日期 | 1991-07-01 |
相關應用: | 分類 |
缺失值? | 無 |
網站點選數: | 337319 |
Car Evaluation
這是一個關於汽車測評的資料集,類別變數為汽車的測評,(unacc,ACC,good,vgood)分別代表(不可接受,可接受,好,非常好),而6個屬性變數分別為「買入價」,「維護費」,「車門數」,「可容納人數」,「後備箱大小」,「安全性」。值得一提的是6個屬性變數全部是有序類別變數,比如「可容納人數」值可為「2,4,more」,「安全性」值可為「low, med, high」。
資料集特徵: | 多變數 |
記錄數: | 1728 |
領域: | N/A |
---|---|---|---|---|---|
屬性特徵: | 類別型 |
屬性數目: | 6 |
捐贈日期 | 1997-06-01 |
相關應用: | 分類 |
缺失值? | 無 |
網站點選數: | 272901 |
小結
通過比較以上4個數據集的差異,簡單地總結:當需要試驗較大量的資料時,我們可以想到「Adult」;當想研究變數之間的相關性時,我們可以選擇變數值只為整數或實數的「Iris」和「Wine」;當想研究logistic迴歸時,我們可以選擇類變數值只有兩種的「Adult」;當想研究類別變數轉換時,我們可以選擇屬性變數為有序類別的「Car Evaluation」。更多的嘗試還需要對這些資料集了解更多才行。
文/紫鬆(簡書作者)
原文連結:http://www.jianshu.com/p/be23b3870d2e
著作權歸作者所有,轉載請聯絡作者獲得授權,並標註“簡書作者”。