sklearn訓練感知器用iris數據集

阿新 • • 發佈：2018-05-14

proc load %d gre 通過 lin tro 感知 misc

簡化版代碼

 1 from sklearn import datasets
 2 import numpy as np
 3 
 4 #獲取data和類標
 5 iris = datasets.load_iris()
 6 X = iris.data[:,[2,3]]
 7 y = iris.target
 8 
 9 #測試樣本和訓練樣本三七分
10 from sklearn.model_selection import train_test_split
11 X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.3,random_state=0)
 
12 
13 #數據特征標準化
14 from sklearn.preprocessing import StandardScaler
15 sc = StandardScaler()
16 sc.fit(X_train)
17 X_test_std = sc.transform(X_test)
18 X_train_std = sc.transform(X_train)
19 
20 #訓練感知器模型
21 from sklearn.linear_model import Perceptron
22 ppn = Perceptron(max_iter=40,eta0=0.1,random_state=0)
 
23 ppn.fit(X_train_std,y_train)
24 
25 #訓練完成後，對測試數據進行預測
26 y_pred = ppn.predict(X_test_std)
27 print(‘Missclassified samples:%d‘%(y_pred!=y_test).sum())
28 from sklearn.metrics import accuracy_score
29 print(‘Accuracy:%.2f‘%accuracy_score(y_test,y_pred))

解釋版+可視化

from sklearn import datasets#iris已包含在sklearn庫中 

import numpy as np
iris = datasets.load_iris()

#提取150個花朵樣本中的花瓣長度和花瓣寬度兩個特征的值，並由此構建特征矩陣X,同時將對應花朵所屬類型的類標賦值給向量y
#打印出來iris可以發現iris包括的key包括五個值：data（其中有四列）、target、target_name、DESCR、feature_names
#X提取的是data裏面的3、4列，y提取的是target，即類型的類標

#print(iris)
#print(iris.keys())
#print(iris.data.shape)
#print(iris.data[:5])#顯示樣本前五行，因為iris是字典不是列表，所以不能調用head（）的方法獲取前五行

X = iris.data[:, [2, 3]]
y = iris.target#iris的每個樣本都包含了品種信息，即目標屬性（第5列，也叫target或label）

‘‘‘如果執行np.unique(y)返回存儲在iris.target中的各類花朵的類標，可以看到，scikit-learn已分別將Iris-Sentosa、Iris-Versicolor
和Iris-Virginia的類名另存為整數（0,1,2），對許多機器學習庫來說，這是針對性能優化一種推薦的做法
print(np.unique(y))
‘‘‘
‘‘‘
為了評估訓練得到的模型在未知數據上的表現，我們進一步將數據集劃分為訓練數據集和測試數據集
使用scikit-learn中model_selection模塊中的train_test_split函數，隨機將數據矩陣X與類標向量y按照3:7的比例劃分為測試數據集（
45個樣本）和訓練數據集（105個樣本）
‘‘‘
from sklearn.model_selection import train_test_split
X_train, X_test, y_train,y_test = train_test_split(X, y, test_size=0.3, random_state=0)
‘‘‘
許多機器學習和優化算法都要求對數據做特征縮放。我們將使用scikit-learn的preprocessing模塊中的StandardScaler類
對特征進行標準化處理
在下面的代碼中，從preprocessing模塊中加載了StandardScaler類，並實例化了一個StandScaler對象，用變量sc作為對它的引用
使用StandardScaler中的fit方法，可以計算訓練數據中的每個特征的μ（樣本均值）和σ（標準差）。通過調用transform方法，
可以使用前面計算得到的μ和σ來對訓練數據做標準化處理。註意：需要使用相同的縮放參數分別處理訓練和測試數據。
‘‘‘
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
sc.fit(X_train)
X_train_std = sc.transform(X_train)
X_test_std = sc.transform(X_test)
‘‘‘
在對訓練數據做了標準化處理後，下面訓練感知器模型
‘‘‘
from sklearn.linear_model import Perceptron
ppn = Perceptron(max_iter=40, eta0=0.1, random_state=0)#n_iter是叠代次數，eta是學習速率，random_state參數在每次叠代後初始化重新排練數據集
ppn.fit(X_train_std, y_train)
‘‘‘
使用scikit-learn完成模型的訓練後，就可以在測試數據集上使用predict方法進行預測了
‘‘‘
y_pred = ppn.predict(X_test_std)#predict class labels for samples in X
print(‘Misclassified samples:%d‘%(y_test != y_pred).sum())
‘‘‘
計算感知器在測試數據集上的分類準確率
‘‘‘
from sklearn.metrics import accuracy_score
print(‘Accuracy:%.2f‘ % accuracy_score(y_test,y_pred))



‘‘‘
使用plot_decision_regions函數來繪制剛剛訓練過得模型的決策區域，並觀察不同花朵樣本的分類項
‘‘‘
from matplotlib.colors import ListedColormap
import matplotlib.pyplot as plt

def plot_decision_regions(X,y,classifier,test_idx = None,resolution = 0.02):
    #setup marker generator and color map
    markers = (‘s‘, ‘x‘, ‘o‘, ‘^‘, ‘v‘)
    colors = (‘red‘, ‘blue‘, ‘lightgreen‘, ‘gray‘, ‘cyan‘)
    cmap = ListedColormap(colors[:len(np.unique(y))])

    #plot the decision surface
    x1_min, x1_max = X[:, 0].min()-1, X[:, 0].max()+1
    x2_min, x2_max = X[:, 0].min()-1, X[:, 1].max()+1
    xx1, xx2 = np.meshgrid(np.arange(x1_min, x1_max, resolution), np.arange(x2_min, x2_max, resolution))
    Z = classifier.predict(np.array([xx1.ravel(), xx2.ravel()]).T)
    Z = Z.reshape(xx1.shape)
    plt.contourf(xx1, xx2, Z, alpha=0.4, cmap=cmap)
    plt.xlim(xx1.min(), xx1.max())
    plt.ylim(xx2.min(), xx2.max())

    #plot all samples
    X_test,y_test = X[test_idx, :], y[test_idx]
    for idx, cl in enumerate(np.unique(y)):
        plt.scatter(x=X[y == cl, 0], y=X[y == cl, 1], alpha=0.8, c=cmap(idx), marker=markers[idx], label=cl)

    #highlight test samples
    if test_idx:
        X_test, Y_test = X[test_idx, :], y[test_idx]
        plt.scatter(X_test[:, 0],X_test[:, 1], c=‘‘, alpha=1.0, linewidth=1, marker=‘o‘, s=55, label=‘test set‘)
X_combined_std = np.vstack((X_train_std, X_test_std))
Y_combined = np.hstack((y_train, y_test))
plot_decision_regions(X=X_combined_std,
                      y=Y_combined,
                      classifier=ppn,
                      test_idx=range(105, 150))
plt.xlabel(‘petal length [standardized]‘)
plt.ylabel(‘petal width [standardized]‘)
plt.legend(loc=‘upper left‘)
print(plt.show())

自己手動註釋

技術分享圖片

sklearn訓練感知器用iris數據集

proc load %d gre 通過 lin tro 感知 misc 簡化版代碼 1 from sklearn import datasets 2 import numpy as np 3 4 #獲取data和類標 5 iris = datasets.loa

Nvidia用合成數據集訓練機器人拾取物體，勝過用真實資料訓練的機器人

Nvidia的研究人員已經找到了一種方法，可以使用在虛擬環境中建立的資料來訓練機器人在現實世界中拾取物體。用合成數據訓練的卷積神經網路系統可以使用Baxter機器人和RGB相機實時檢測物體的位置。在實驗中，使用罐裝湯，芥末瓶和一盒Cheez-It來訓練系統輕輕地將物品放入人的手中。

使用pandas、sklearn等外部庫進行iris數據的分類和繪圖，並計算正確率

tin closed mode frame 內容 plt -a predict none from sklearn.model_selection import train_test_split from sklearn.datasets import load_

Python——sklearn提供的自帶的數據集

pack 數據 cal -i 一個 .text 分類器 unique gen sklearn提供的自帶的數據集 sklearn 的數據集有好多個種自帶的小數據集（packaged dataset）：sklearn.datasets.load_<name> 可

吳裕雄 python 神經網絡——TensorFlow實現回歸模型訓練預測MNIST手寫數據集

rect ros its .com img tensor sce 交互 run import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data mnist =

Caffe上用SSD訓練和測試自己的數據

輸出 makefile b數 text play cal 上下 lba san 學習caffe第一天，用SSD上上手。我的根目錄$caffe_root為/home/gpu/ljy/caffe 一、運行SSD示例代碼 1.到https://github.com

【轉載】 Faster-RCNN+ZF用自己的數據集訓練模型(Matlab版本)

cmp fin ont -m lac tails ram pos 識別說明：本博文假設你已經做好了自己的數據集，該數據集格式和VOC2007相同。下面是訓練前的一些修改。（做數據集的過程可以看http://blog.csdn.net/sinat_30071459/art

linux服務器連接數據庫方法

alt -1 nbsp oca 方法 .cn 主機主機名 lin 主機名用localhost 要使用SSH連接 linux服務器連接數據庫方法

跨多個服務器訪問不同數據庫的表的方法

通過 open onf code eight value use rom str /*跨多個服務器訪問不同的表的方法一 *先創建鏈接服務器TESTT, *在MSSQL2008下不能直接修改鏈接服務器 ‘TESTT‘ 的RPC配置成TURE，可以通過語句修改如下： */ U

學習筆記TF016:CNN實現、數據集、TFRecord、加載圖像、模型、訓練、調試

quest oba lose 神經元 byte 足夠 jpg eight 值轉換 AlexNet(Alex Krizhevsky,ILSVRC2012冠軍)適合做圖像分類。層自左向右、自上向下讀取，關聯層分為一組，高度、寬度減小，深度增加。深度增加減少網絡計算量。訓練模

java sql編輯器動態報表數據庫備份還原 quartz定時任務調度自定義表單 SSM

大小 demo 結構圖片顯示登錄效果 tab 雙向 mar A 調用攝像頭拍照，自定義裁剪編輯頭像，頭像圖片色度調節B 集成代碼生成器 [正反雙向](單表、主表、明細表、樹形表，快速開發利器)+快速表單構建器 freemaker模版技術，0個代碼不用寫，生成完整的一

FastRCNN 訓練自己數據集 (1編譯配置)

backend key article tail back art model plot osc http://www.cnblogs.com/louyihang-loves-baiyan/p/4885659.html 按照博客的教程配置，但自己在服務器上配置時，USE_C

幹貨 | 從菜鳥到老司機_數據科學的 17 個必用數據集推薦

產品整理每天人類標記 blog 影響 lan 零售業原文鏈接摘要： ◆ ◆ ◆ 菜鳥入門 1. Iris 數據集在模式識別文獻中，Iris 數據集恐怕是最通用也是最簡單的數據集了。要學習分類技術，Iris 數據集絕對是最方便的途徑。如果你之前從未接觸過數據科學

[navicat premium] [IM002] [Microsoft][ODBC 驅動程序管理器] 未發現數據源名稱並且未指定默認驅動程序

bsp 數據源 style 管理 back sqlserve x64 soft 程序管理 navicat premium 鏈接sqlserver [IM002] [Microsoft][ODBC 驅動程序管理器] 未發現數據源名稱並且未指定默認驅動程序安裝navi

ObjectDataSource配合存儲過程（采用數據集）的使用（刪除可以解決，但是編輯出錯好像它的方法也無法解決

database true base fault 來源 window ble red rom 原文發布時間為：2008-08-01 —— 來源於本人的百度文章 [由搬家工具導入]ObjectDataSource是比较有

java.sql.SQLException: [Microsoft][ODBC 驅動程序管理器] 未發現數據源名稱而且未指定默認驅動程序解決方法

成功 access exception div 數據庫 java 配置題解調用開發程序須要登錄功能。就不想用大數據庫。直接用java連接access。在自己機器上一切正常， url直連和配置數據源都沒有問題。公布到windows serve

tensorflowxun訓練自己的數據集之從tfrecords讀取數據

str 兩個圖片文件 lines 註意 file ans span 數據集　　當訓練數據量較小時，采用直接讀取文件的方式，當訓練數據量非常大時，直接讀取文件的方式太耗內存，這時應采用高效的讀取方法，讀取tfrecords文件，這其實是一種二進制文件。tensorflow

sklearn學習：make_multilabel_classification——多標簽數據集方法

矩陣 hat nts ger form pre returns sting matrix Generate a random multilabel classification problem. For each sample, the generative process

java sql編輯器動態報表數據庫備份還原 quartz定時任務調度自定義表單 java圖片爬蟲

springmvcmybatis整合 bootstrap 框架源碼 spring html5 官網 http://www.fhadmin.org/A代碼編輯器，在線模版編輯，仿開發工具編輯器，pdf在線預覽，文件轉換編碼B 集成代碼生成器 [正反雙向](單表、主表、明細表、樹形表，快速開

用數據集跑一個模型遇到bug如何解決

發現 oss 情況 fas cnn 解決 bug 使用結果自己在用fast rcnn和ssd跑自己數據集過程中都遇到了bug，fast rcnn中是loss下降但值較高，並且測試出來結果一直不對，ssd是loss從一開始到後面loss都一直為0。遇到這種情況，最好是先

sklearn訓練感知器用iris數據集

相關推薦