基於 K-Means 對 IRIS 資料集分類

阿新 • • 發佈：2019-01-06

基於sklearn 對 IRIS 資料集分類

關於聚類

聚類（Clustering）是一種無監督學習(unsupervised learning)，簡單地說就是把相似的物件歸到同一簇中。簇內的物件越相似，聚類的效果越好。

關於 K-Means

Ｋ-Means演算法是最為經典的基於劃分的聚簇方法，是十大經典資料探勘演算法之一。簡單的說Ｋ-Means就是在沒有任何監督訊號的情況下將資料分為K份的一種方法。聚類演算法就是無監督學習中最常見的一種，給定一組資料，需要聚類演算法去挖掘資料中的隱含資訊。聚類演算法的應用很廣：顧客行為聚類，google新聞聚類等。

具體的演算法步驟如下：

隨機選擇K箇中心點
把每個資料點分配到離它最近的中心點；
重新計算每類中的點到該類中心點距離的平均值
分配每個資料到它最近的中心點；
重複步驟3和4，直到所有的觀測值不再被分配或是達到最大的迭代次數（R把10次作為預設迭代次數）。

sklearn 實現

from sklearn import datasets
from sklearn.cluster import KMeans
import numpy as np

def mode(a):
	```求眾數子函式```
    counts = np.bincount(a)  
    return 
 np.argmax(counts)

def calc_acc(y_p, y):
	```計算準確率子函式```
    return sum(y_p==y)/y.shape[0]


if __name__ == '__main__':
    
    iris = datasets.load_iris()

    x = iris.get('data')
    y = iris.get('target')

    # 隨機劃分訓練集和測試集
    num = x.shape[0] # 樣本總數
    ratio = 7/3 # 劃分比例，訓練集數目:測試集數目
    num_test = 
 int(num/(1+ratio)) # 測試集樣本數目
    num_train = num -  num_test # 訓練集樣本數目
    index = np.arange(num) # 產生樣本標號
    np.random.shuffle(index) # 洗牌
    x_test = x[index[:num_test],:] # 取出洗牌後前 num_test 作為測試集
    y_test = y[index[:num_test]]
    x_train = x[index[num_test:],:] # 剩餘作為訓練集
    y_train = y[index[num_test:]]

    kmeans = KMeans(n_clusters=3)
    kmeans.fit(x_train)

    centers = kmeans.cluster_centers_
    for i in range(3):
        index = y_train == i
        p = kmeans.predict(x_train[index,:])
        pp = mode(p) # 求實際類別為 i 所對應的類別標號 pp
        kmeans.cluster_centers_[i] = centers[pp] # 相應的調整類別標號，以正確預測

    y_test_pre = kmeans.predict(x_test)
    print("y_test_pre:")
    print(y_test_pre)
    print("y_test:")
    print(y_test)

    # 計算分類準確率
    acc = calc_acc(y_test_pre, y_test)
    print('the accuracy is', acc) # 顯示預測準確率

執行結果：

基於 K-Means 對 IRIS 資料集分類

基於sklearn 對 IRIS 資料集分類關於聚類聚類（Clustering）是一種無監督學習(unsupervised learning)，簡單地說就是把相似的物件歸到同一簇中。簇內的物件越相似，聚類的效果越好。關於 K-Means Ｋ-Means演算法是最為經典的

基於決策樹模型對 IRIS 資料集分類

基於決策樹模型對 IRIS 資料集分類文章目錄基於決策樹模型對 IRIS 資料集分類 1 python 實現載入資料集視覺化資料集分類和預測計算準確率 2 基於MATLA

利用 sklearn SVM 分類器對 IRIS 資料集分類

利用 sklearn SVM 分類器對 IRIS 資料集分類支援向量機（SVM）是一種最大化分類間隔的線性分類器（如果不考慮核函式）。通過使用核函式可以用於非線性分類。SVM 是一種判別模型，既適用於分類也適用於迴歸問題，標準的 SVM 是二分類器，可以採用 “one vs one”

Python 3實現k-鄰近演算法以及 iris 資料集分類應用

前言這個周基本在琢磨這個演算法以及自己利用Python3 實現自主程式設計實現該演算法。持續時間比較長，主要是Pyhton可能還不是很熟練，走了很多路，基本是一邊寫一邊學。不過，總算是基本搞出來了。不多說，進入正題。 1. K-鄰近演算法 1.1

卷積神經網路對CIFAR資料集分類

本例通過一個具有全域性平局池化層的神經網路對CIFAR資料集分類 1.匯入標頭檔案引入資料集這部分使用cifar10_input裡面的程式碼，在cifar10資料夾下建立卷積檔案，部分程式碼如下： import cifar10_input import tensorf

K-近鄰演算法-iris資料集

# -*- coding: utf-8 -*- """ Created on Sat Oct 13 19:26:26 2018 @author: fengjuan """ ''' K-近鄰演算法與其他模型最大不同在於該模型沒有引數訓練過程，即，沒有通過任何學習演算法訓練資料

用樸素貝葉斯對wine資料集分類

該實驗的資料集是MostPopular Data Sets（hits since 2007）中的wine資料集，這是是對在義大利同一地區生產的三種不同品種的酒，做大量分析所得出的資料。這些資料包括了三種酒中13種不同成分的數量。經過幾天對資料集以及分類演算法的研究，詳細研

XGBoost實現對鳶尾花資料集分類預測

code:import xgboost as xgb import numpy as np import pandas as pd from sklearn.model_selection import

python中使用k-means對鳶尾花資料集聚類

程式碼和結果： import matplotlib.pyplot as plt import numpy as np from sklearn.cluster import KMeans from sklearn import datasets X

基於PCA+SVM的MINIST資料集分類

1. MINIST資料集下載地址：http://yann.lecun.com/exdb/mnist/.2. MINIST資料影象讀取MATLAB程式碼(參考斯坦福大學Andrew Ng教授的課件):function images = loadMNISTImages(filen

資料探勘-K-近鄰分類器-Iris資料集分析-使用K-近鄰分類器進行分類預測(四)

# coding: utf-8 #使用 scikit-learn庫的K-近鄰分類器完成分類 #1. 首先將資料集中的資料進行打亂 #2. 將資料分為訓練集和測試集兩部分 #3. 使用 k-means分類器進行分類訓練，得到預測模型 #4. 使用模型對測試集進行測試，並與真實

基於K-means Clustering聚類算法對電商商戶進行級別劃分(含Octave仿真)

fprintf highlight 初始 load ogre max init 金額定時在從事電商做頻道運營時，每到關鍵時間節點，大促前，季度末等等，我們要做的一件事情就是品牌池打分，更新所有店鋪的等級。例如，所以的商戶分入SKA,KA,普通店鋪,新店鋪這4個級別，對於

Tensorflow學習教程------利用卷積神經網路對mnist資料集進行分類_利用訓練好的模型進行分類

#coding:utf-8 import tensorflow as tf from PIL import Image,ImageFilter from tensorflow.examples.tutorials.mnist import input_data def imageprepare(ar

Spark ML 基於Iris資料集進行資料建模及迴歸聚類綜合分析-Spark商業ML實戰

本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。版權宣告：禁止轉載，歡迎學習。QQ郵箱地址：[email protected]，如有任何商業交流，可隨時聯絡。

【NLP】【八】基於keras與imdb影評資料集做情感分類

【一】本文內容綜述 1. keras使用流程分析（模型搭建、模型儲存、模型載入、模型使用、訓練過程視覺化、模型視覺化等） 2. 利用keras做文字資料預處理【二】環境準備 1. 資料集下載：http://ai.stanford.edu/~amaas/data/sentiment/

keras RNN、LSTM對IMDB資料集進行分類

本文介紹如何基於keras採用RNN和LSTM對IMDB資料集進行分類。示例程式碼： from keras.layers import SimpleRNN from keras.models import Sequential from keras.layers import Embedd

分類問題（一）：SVM(Python——基於skearn實現鳶尾花資料集分類)

第一步： # -*- coding: utf-8 -*- """ Created on Fri Sep 21 14:26:25 2018 @author: bd04 """ # !/usr/bin/env python # encoding: utf-8 __auth

基於pytorch和Fashion Mnist資料集建立簡單的CNN網路來實現圖片分類

寫這篇文章，我主要是想要介紹一種流行的深度學習框架---Pytorch，並且完成一個簡單的CNN網路例子來加深對它的認識，我們還使用到了Fashion Mnist資料集，完成這個DL領域的“Hello World”。相比於TF，Pytorch有很多優點。這些可以自行Goo

深度學習入門專案：用keras構建CNN或LSTM對minist資料集做簡單分類任務

深度學習入門專案：用keras構建CNN或LSTM或RNN對Minist資料集做簡單分類任務參考keras中文文件 ——keras：是一個高階神經網路庫，用 Python 語言寫成，可以執行在 TensorFlow 或者 Theano 之上（即以此為後端）。

多分類（softmax處理iris資料集）

# -*- coding: utf-8 -*- # @Time : 2018/12/14 10:08 # @Author : WenZhao # @Email : [email protected] # @File : iris.py # @Software: PyC

基於 K-Means 對 IRIS 資料集分類

基於sklearn 對 IRIS 資料集分類

關於聚類

關於 K-Means

sklearn 實現

相關推薦