利用python內建K-Means聚類演算法實現鳶尾花資料的聚類

阿新 • • 發佈：2019-01-24

在進去聚類情況分析前，我們需要為我們的IDLE安裝sklearn庫，scikit-learn是Python的一個開源機器學習模組，它建立在NumPy，SciPy和matplotlib模組之上能夠為使用者提供各種機器學習演算法介面，可以讓使用者簡單、高效地進行資料探勘和資料分析。

python中安裝sklearn機器學習庫

pip install numpy
pip install scipy
pip install sklearn

如果安裝過程中出現報錯的話，就根據報錯的資訊來安裝所需要的元件，最終的目的是為了能夠成功的安裝sklearn庫。

K-Means聚類

然後下面我們來從sklearn庫中引入K-Means聚類演算法及匯入鳶尾花資料集。

import matplotlib.pyplot as plt
import numpy as np
from sklearn.cluster import KMeans
#from sklearn import datasets
from sklearn.datasets import load_iris

就這樣就能夠實現K-Means聚類演算法的引入及鳶尾花資料集的引入，是不是很簡單，很方面！

iris = load_iris()
X = iris.data[:]

下面我們將引入的資料樣式print出來看看。

......
 [6.7 3.3 5.7 2.5]
 [6.7 3.  5.2 2.3]
 [6.3 2.5 5.  1.9]
 [6.5 3.  5.2 2. ]
 [6.2 3.4 5.4 2.3]
 [5.9 3.  5.1 1.8]]
(150, 4)

所引入的鳶尾花資料的形式就如上述所示，共有150行4個特徵資料。

然後我們用影象來展示下資料點的分佈情況

#繪製資料分佈圖
plt.scatter(X[:, 0], X[:, 1], c = "red", marker='o', label='see')
plt.xlabel('petal length')
plt.ylabel('petal width')
plt.legend(loc=2)
plt.show()

這樣就能夠看到資料點的分佈如下：

好了，下面我們來看下聚類情況，假設我們規定要聚的類別為3個，也就是設定K=3，則有

estimator = KMeans(n_clusters=3)#構造聚類器
estimator.fit(X)#聚類
label_pred = estimator.labels_ #獲取聚類標籤

這樣我們同樣用影象來輸出最終的聚類情況如下；

輸出影象的程式碼為：

#繪製k-means結果
x0 = X[label_pred == 0]
x1 = X[label_pred == 1]
x2 = X[label_pred == 2]
plt.scatter(x0[:, 0], x0[:, 1], c = "red", marker='o', label='label0')
plt.scatter(x1[:, 0], x1[:, 1], c = "green", marker='*', label='label1')
plt.scatter(x2[:, 0], x2[:, 1], c = "blue", marker='+', label='label2')
plt.xlabel('petal length')
plt.ylabel('petal width')
plt.legend(loc=2)
plt.show()

看到上面的聚類效果其實並不理想，這樣我們選擇鳶尾花的最後兩個特徵來看下效果：

首先修改資料為：

X = iris.data[:,2:] ##表示我們只取特徵空間中的後兩個維度

聚類效果為：

從上述兩種聚類效果來分析，能夠看出當選取鳶尾花最後兩個特徵作為聚類資料時，聚類的效果更好。

這樣我們給出完整的程式碼為：

#############K-means-鳶尾花聚類############
import matplotlib.pyplot as plt
import numpy as np
from sklearn.cluster import KMeans
#from sklearn import datasets
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data[:] ##表示我們只取特徵空間中的後兩個維度
#繪製資料分佈圖
plt.scatter(X[:, 0], X[:, 1], c = "red", marker='o', label='see')
plt.xlabel('petal length')
plt.ylabel('petal width')
plt.legend(loc=2)
plt.show()


estimator = KMeans(n_clusters=3)#構造聚類器
estimator.fit(X)#聚類
label_pred = estimator.labels_ #獲取聚類標籤
#繪製k-means結果
x0 = X[label_pred == 0]
x1 = X[label_pred == 1]
x2 = X[label_pred == 2]
plt.scatter(x0[:, 0], x0[:, 1], c = "red", marker='o', label='label0')
plt.scatter(x1[:, 0], x1[:, 1], c = "green", marker='*', label='label1')
plt.scatter(x2[:, 0], x2[:, 1], c = "blue", marker='+', label='label2')
plt.xlabel('petal length')
plt.ylabel('petal width')
plt.legend(loc=2)
plt.show()

利用python內建K-Means聚類演算法實現鳶尾花資料的聚類

在進去聚類情況分析前，我們需要為我們的IDLE安裝sklearn庫，scikit-learn是Python的一個開源機器學習模組，它建立在NumPy，SciPy和matplotlib模組之上能夠為使用者提供各種機器學習演算法介面，可以讓使用者簡單、高效地進行資料探勘和資料分析

利用python內建下載器-快速分享檔案

一、任務場景：工作中需要將伺服器上的某些檔案傳給對應的同事，如果臨時去搭建檔案伺服器或者配置，操作起來不太方便二、比如臨時需要分享/tools這個目錄的檔案，操作方法如下： 1、採用http的方式進行分享 a) python2的版本中 # cd /tools #&nb

（超實用）利用Python 內建【下載伺服器】傳輸檔案

1. 首先進入我想要傳輸的檔案所在的目錄假設我要傳輸的檔案在/home/pi 目錄下： cd /home/pi/ 2. 然後啟動一個下載伺服器 python3 版： python3 -m http.server python2 版： python -m

利用python內建函式，快速統計單詞在文字中出現的次數

python中包含許多標準程式設計資料結構，如list(列表)，tuple(元組）、dict（字典）和set()，如果現有的資料型別不能滿足需求，可以派生某個內建型別進行定製，或者使用collections中定義的某個抽象基類作為起點構建一個新的容器型別。 c

Python內建進位制轉換函式(實現16進位制和ASCII轉換)

在進行wireshark抓包時你會發現底端視窗報文內容左邊是十六進位制數字，右邊是每兩個十六進位制轉換的ASCII字元，這裡使用Python程式碼實現一個十六進位制和ASCII的轉換方法。 hex() 轉換一個整數物件為十六進位制的字串 >>> hex(16) '0x10' >&

python sklearn 的k-means聚類易懂例項

使用sklearn庫來進行k-means聚類十分簡單，官網的教程是挺好的。但其他地方的一些例子和教程則很多都是要麼只是寫給作者自己看的，要麼是程式碼不能直接執行的。這裡我寫這篇文章，用盡量簡單的易懂方式來封裝k-means程式碼：首先建立一個kmeans.py

Python之使用K-Means演算法聚類消費行為特徵資料分析（異常點檢測）

源資料（這裡僅展示10行）：程式：#-*- coding: utf-8 -*- #使用K-Means演算法聚類消費行為特徵資料 import numpy as np import pandas as pd #引數初始化 inputfile = '../data/consu

python從零開始－－36 python內建類屬性　len getitem 實現 (補充26節)

在網上看到一個關於實現 __len__ __getitem__的程式碼，稍微修改了一下，剛好作為26節內建類屬性的補充。程式碼說明： 1. 定義一稿Card具名元組，用來存放撲克點數和花色的組合，FrenchDeck初始化後，剛好是52組資料 2. __len_

Python內建函式類方法靜態方法例項化方法學習

靜態方法 class C(object): @staticmethod def f(): print('runoob'); C.f(); # 靜態方法無需例項化 cobj = C() cobj.f() # 也可以例項化後

python從零開始－－36 python內建類屬性　len getitem 實現 (補充26節)

在網上看到一個關於實現 __len__ __getitem__的程式碼，剛好作為26節內建類屬性的補充。程式碼說明： 1. 定義一稿Card具名元組，用來存放撲克點數和花色的組合，FrenchDeck初始化後，剛好是52組資料 2. __len__實現了len(o

python中使用k-means對鳶尾花資料集聚類

程式碼和結果： import matplotlib.pyplot as plt import numpy as np from sklearn.cluster import KMeans from sklearn import datasets X

python 內建數據類型

python 元組 cto nag http color num tex list python 內建數據類型字符串(str)列表(list)元組(tuple)數值(num)字典(dict)文件(file) 先創建 title ,後期在做修改python 內建數據類型

k-means演算法實現影象顏色聚類

#include<stdio.h> #include <cstdio> #include<string> #include<math.h> #include<stdlib.h>

python內建數據類型有哪些

bool 布爾 python code color 元組 -- class div 整型--int 布爾型--bool 字符串--str 列表--list 元組--tuple 字典--dict python內建數據類型有哪些

python內建函數

call src print true bool nco cnblogs color 都是 #abs 求絕對值 print(abs(-1)) #all #判斷函數內部的布爾值，如果都是Trun則返回true #空是True print(all([1,2,‘a‘,Non

python--內建屬性

redirect log tca init subject 自定義 att 說明技術一、常用內建屬性常用專有屬性說明觸發方式 __init__ 構造初始化函數創建實例後,賦值時使用,在__new__後 __new__ 生成實例所需屬性創建實例時

Python學習日記（2）Python內建集合及操作

進行添加依然修改 lis ever 原來合並 and 　　列表　列表是零個或多個Python對象的一個序列，這些對象通常稱之為項；　列表示例： [] #An empty list ["test"] #A list of one string

python 內建方法fromkeys()創建一個具有相同元素值的字典

python rom 一個 key 相同元素 fromkeys from code none >>> ddict = {}.fromkeys((‘x‘,‘y‘),-1) >>> ddict {‘y‘: -1, ‘x‘: -1} >&

Python內建函數二

cti obj 字符串聲明內部元素 clas 解決 true 內置函數二： 1.lambda (匿名函數) 為了解決一些簡答的需求而設計的一句話函數。不需要def來聲明。 def func(n):

Python內建函數reduce()用法

red .com 必須 ret 用法文章輸出結果序列下一個 reduce把一個函數作用在一個序列[x1, x2, x3...]上，這個函數必須接收兩個參數，reduce把結果繼續和序列的下一個元素做累積計算,下面講述Python內建函數reduce()用法。

利用python內建K-Means聚類演算法實現鳶尾花資料的聚類

python中安裝sklearn機器學習庫

K-Means聚類

相關推薦