[機器學習]Scikit-Learn學習筆記03——Scikit-Learn資料模型
阿新 • • 發佈:2019-01-05
Scikit-Learn提供了比較全的資料集,主要分為以下幾類
1. 自帶的小資料集(packaged dataset)
2. 線上下載的資料集(Downloaded Dataset)
3. 生成的資料集(Generated Dataset)
4. svmlight/libsvm格式的資料集
5. 從買了data.org線上下載獲取的資料集
1. 自帶的小資料集(packaged dataset)
主要有以下幾種:
1) 鸞尾花資料: load_iris() 2)波士頓房價資料集: load_boston() 3)乳腺癌資料集: load_breast_cancer() 4)手寫字資料集: load_digits() 5)糖料病資料集: load_diabetes() 6)體能訓練資料集: load_linnerud()
這些資料集有助於快速說明在 scikit 中實現的各種演算法的行為。然而,它們資料規模往往太小,無法代表真實世界的機器學習任務。
例子程式碼
#匯入模組
import numpy as np
from sklearn import datasets
from sklearn.cross_validation import train_test_split
from sklearn.neighbors import KNeighborsClassifier
#匯入資料集
iris = datasets.load_iris()
iris_X = iris.data
iris_y = iris.target
# print(iris_X[:2, :])
# print(iris_y)
X_train, X_test, y_train, y_test = train_test_split(
iris_X, iris_y, test_size=0.2)
# print(y_train)
#訓練模型
knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
#預測
print(knn.predict(X_test))
print(y_test)
其它資料集同理