1. 程式人生 > >[機器學習]Scikit-Learn學習筆記03——Scikit-Learn資料模型

[機器學習]Scikit-Learn學習筆記03——Scikit-Learn資料模型

Scikit-Learn提供了比較全的資料集,主要分為以下幾類

1. 自帶的小資料集(packaged dataset)
2. 線上下載的資料集(Downloaded Dataset)
3. 生成的資料集(Generated Dataset)
4. svmlight/libsvm格式的資料集
5. 從買了data.org線上下載獲取的資料集
1. 自帶的小資料集(packaged dataset)

主要有以下幾種:

1) 鸞尾花資料: load_iris()
2)波士頓房價資料集: load_boston()
3)乳腺癌資料集: load_breast_cancer()
4)手寫字資料集: load_digits()
5)糖料病資料集: load_diabetes()
6)體能訓練資料集: load_linnerud()

這些資料集有助於快速說明在 scikit 中實現的各種演算法的行為。然而,它們資料規模往往太小,無法代表真實世界的機器學習任務。

例子程式碼
#匯入模組
import numpy as np
from sklearn import datasets
from sklearn.cross_validation import train_test_split
from sklearn.neighbors import KNeighborsClassifier
#匯入資料集
iris = datasets.load_iris()
iris_X = iris.data
iris_y = iris.target
# print(iris_X[:2, :])
# print(iris_y) X_train, X_test, y_train, y_test = train_test_split( iris_X, iris_y, test_size=0.2) # print(y_train) #訓練模型 knn = KNeighborsClassifier() knn.fit(X_train, y_train) #預測 print(knn.predict(X_test)) print(y_test)

其它資料集同理