scikit-learn內建資料集
scikit-learn 現在最新穩定版本為0.20.0
提供了以下幾個資料集
其中資料路徑都在sklearn包下的datasets/data目錄下
下面我分別介紹每個資料集
iris
iris是個多類別資料集,每個類別下有50個樣本,特徵4維,且都是實數型別, 適用於分類模型
boston
預測boston房價, 都是實數特徵,總共13維, 適用於迴歸模型
digits
資料由8*8的圖片組成,共64維特徵,0-9共10個類別,適用於分類模型
toy
toy資料6*2, 共2維特徵, 兩類, 適用於簡單的二分類
clf_small
clf共14維特徵,0,1兩類別,適用於簡單二分類模型
reg_small
共14維特徵, 適用於簡單迴歸模型
multilabel
人工製造的30*10維的多標籤資料
sparse-pos
sparse-neg
sparse-mix
zeros