聚類之均值聚類（k-means）演算法的python實現

阿新 • • 發佈：2019-01-03

# -*- coding: UTF-8 -*-
import numpy
import random
import codecs
import copy
import re
import matplotlib.pyplot as plt

def calcuDistance(vec1, vec2):
    # 計算向量vec1和向量vec2之間的歐氏距離
    return numpy.sqrt(numpy.sum(numpy.square(vec1 - vec2)))

def loadDataSet(inFile):
	# 載入資料測試資料集
    # 資料由文字儲存，為二維座標
    inDate = codecs.open(inFile, 'r', 'utf-8').readlines()
    dataSet = list()
    for line in inDate:
    	line = line.strip()
    	strList = re.split('[ ]+', line)  # 去除多餘的空格
    	# print strList[0], strList[1]
    	numList = list()
    	for item in strList:
    		num = float(item)
    		numList.append(num)
    		# print numList
    	dataSet.append(numList)

    return dataSet      # dataSet = [[], [], [], ...]

def initCentroids(dataSet, k):
	# 初始化k個質心，隨機獲取
	return random.sample(dataSet, k)  # 從dataSet中隨機獲取k個數據項返回

def minDistance(dataSet, centroidList):
    # 對每個屬於dataSet的item，計算item與centroidList中k個質心的歐式距離，找出距離最小的，
    # 並將item加入相應的簇類中

	clusterDict = dict()                 # 用dict來儲存簇類結果
	for item in dataSet:
		vec1 = numpy.array(item)         # 轉換成array形式
		flag = 0                         # 簇分類標記，記錄與相應簇距離最近的那個簇
		minDis = float("inf")            # 初始化為最大值

		for i in range(len(centroidList)):
			vec2 = numpy.array(centroidList[i])
			distance = calcuDistance(vec1, vec2)  # 計算相應的歐式距離
			if distance < minDis:    
				minDis = distance
				flag = i                          # 迴圈結束時，flag儲存的是與當前item距離最近的那個簇標記

		if flag not in clusterDict.keys():   # 簇標記不存在，進行初始化
			clusterDict[flag] = list()
		# print flag, item
		clusterDict[flag].append(item)       # 加入相應的類別中

	return clusterDict                       # 返回新的聚類結果

def getCentroids(clusterDict):
    # 得到k個質心
    centroidList = list()
    for key in clusterDict.keys():
        centroid = numpy.mean(numpy.array(clusterDict[key]), axis = 0)  # 計算每列的均值，即找到質心
        # print key, centroid
        centroidList.append(centroid)
    
    return numpy.array(centroidList).tolist()

def getVar(clusterDict, centroidList):
    # 計算簇集合間的均方誤差
    # 將簇類中各個向量與質心的距離進行累加求和

    sum = 0.0
    for key in clusterDict.keys():
        vec1 = numpy.array(centroidList[key])
        distance = 0.0
        for item in clusterDict[key]:
            vec2 = numpy.array(item)
            distance += calcuDistance(vec1, vec2)
        sum += distance

    return sum

def showCluster(centroidList, clusterDict):
    # 展示聚類結果

    colorMark = ['or', 'ob', 'og', 'ok', 'oy', 'ow']      # 不同簇類的標記 'or' --> 'o'代表圓，'r'代表red，'b':blue
    centroidMark = ['dr', 'db', 'dg', 'dk', 'dy', 'dw']   # 質心標記 同上'd'代表稜形
    for key in clusterDict.keys():
        plt.plot(centroidList[key][0], centroidList[key][1], centroidMark[key], markersize = 12)  # 畫質心點
        for item in clusterDict[key]:
            plt.plot(item[0], item[1], colorMark[key]) # 畫簇類下的點

    plt.show()

if __name__ == '__main__':

    inFile = "D:/ML/clustering/testSet.txt"            # 資料集檔案 
    dataSet = loadDataSet(inFile)                      # 載入資料集
    centroidList = initCentroids(dataSet, 4)           # 初始化質心，設定k=4
    clusterDict = minDistance(dataSet, centroidList)   # 第一次聚類迭代
    newVar = getVar(clusterDict, centroidList)         # 獲得均方誤差值，通過新舊均方誤差來獲得迭代終止條件
    oldVar = -0.0001                                   # 舊均方誤差值初始化為-1
    print '***** 第1次迭代 *****'
    print 
    print '簇類'
    for key in clusterDict.keys():
        print key, ' --> ', clusterDict[key]
    print 'k個均值向量: ', centroidList
    print '平均均方誤差: ', newVar
    print 
    showCluster(centroidList, clusterDict)             # 展示聚類結果

    k = 2
    while abs(newVar - oldVar) >= 0.0001:              # 當連續兩次聚類結果小於0.0001時，迭代結束          
        centroidList = getCentroids(clusterDict)          # 獲得新的質心
        clusterDict = minDistance(dataSet, centroidList)  # 新的聚類結果
        oldVar = newVar                                   
        newVar = getVar(clusterDict, centroidList)

        print '***** 第%d次迭代 *****' % k
        print 
        print '簇類'
        for key in clusterDict.keys():
            print key, ' --> ', clusterDict[key]
        print 'k個均值向量: ', centroidList
        print '平均均方誤差: ', newVar
        print
        showCluster(centroidList, clusterDict)            # 展示聚類結果

        k += 1

聚類之均值聚類（k-means）演算法的python實現

# -*- coding: UTF-8 -*- import numpy import random import codecs import copy import re import matplotlib.pyplot as plt def calcuDistance(vec1, vec2):

機器學習——K-均值聚類（K-means）演算法

本文轉載自：https://www.cnblogs.com/ybjourney/p/4714870.html 一 K-均值聚類（K-means）概述聚類 “類”指的是具有相似性的集合。聚類是指將資料集劃分為若干類，使得類內之間的資料最為相似，各類之間的資料相

A*（A星）演算法python實現

在春節放假前兩天我偶然看到了A*演算法，感覺挺有意思。正好放假前也沒有什麼事情，就花了一個下午寫出演算法的骨架，節後又花了半天時間完善螢幕輸出的細節並且除錯完成。該實現只是一時興起的隨手而作，沒有考慮效能和擴充套件性等問題。正在學習A*的朋友可以拿去隨便折騰

K-均值（K-means）聚類算法

簡單 read 原理包含 append 添加 url 學習 readlines 聚類是一種無監督的學習，它將相似的對象歸到同一個簇中。這篇文章介紹一種稱為K-均值的聚類算法，之所以稱為K-均值是因為它可以發現k個不同的簇，且每個簇的中心采用簇中所含值的均值計算而成。聚

K均值聚類（K-means）和高斯混合聚類（Mixture of Gaussian Models）

math del 一個 ans line k-均值聚類初始化 gaussian 樣本 K-means算法流程給定條件： ????example set: \((x_1, y_1), (x_2, y_2), \dots, (x_N, y_N)\) 初始化： ????K個簇

Python機器學習演算法實踐——k均值聚類（k-means）

一開始的目的是學習十大挖掘演算法（機器學習演算法）,並用編碼實現一遍，但越往後學習，越往後實現編碼，越發現自己的編碼水平低下，學習能力低。這一個k-means演算法用Python實現竟用了三天時間，可見編碼水平之低，而且在編碼的過程中看了別人的編碼，才發現自己對

機器學習（二）——K均值聚類演算法（K-means）

概述： 1.聚類 “類”指的是具有相似性的集合。聚類是指將資料集劃分為若干類，使得類內之間的資料最為相識，各類之間的資料相似度差別儘可能大。聚類分析就是以相似性為基礎，對資料集進行聚類分析，屬於無監督學習。 2.無監督學習和監督學習 k-均值聚類（k-means）與k-近鄰（knn）

聚類分析演算法Python3.6實踐K均值聚類（K-means）

在http://blog.csdn.net/zouxy09/article/details/17589329 上看到聚類分析演算法，但是是基於python2.7.5版本，直接移植到Python3.6會有問題，更改程式碼後為增加對比性，繪製原始資料不部分；程式碼如下： ##

聚類:（K-means）算法

sed 經典聚類思想類別藥物 9.png ont 停止 1.歸類：聚類(clustering) 屬於非監督學習 (unsupervised learning) 無類別標記(class label) 2.舉例： 3. K-means 算法：

聚類（K-Means）

main calling imu 好的 stack const row ros final import numpy as np# Function: K Means# -------------# K-Means is an algorithm that takes i

聚類：層次聚類、基於劃分的聚類（k-means）、基於密度的聚類、基於模型的聚類

oca 基本思想初始化 methods 根據範圍下使用對象適用於一、層次聚類 1、層次聚類的原理及分類 1）層次法（Hierarchicalmethods）先計算樣本之間的距離。每次將距離最近的點合並到同一個類。然後，再計算類與類之間的距離，將距離最近的類合

【機器學習演算法推導】K均值（K-means）

非監督演算法是機器學習研究的一大領域，它適用於不帶標籤的樣本資料，採取一定的演算法，將樣本分成自動分類成不同的簇。 K均值（K-meas） K均值演算法接收兩個輸入，一個是K，表示簇的數量，另一個是不帶標籤的訓練集{

步步學習之用python實戰機器學習1－kNN （K-NearestNeighbors）演算法（a）

我最近才開始接觸機器學習，我大學數學學的幾乎忘了，最近才接觸python。所以我以一個完全初學者角度來學習機器學習。我主要用的書籍就是machine learning in action （機器學習實戰）這本書。我主要是用文中已有的程式碼來講解機器學習。同時對程式碼進行

機器學習之KNN（k近鄰）演算法

1、演算法介紹k近鄰演算法是學習機器學習的入門演算法，可實現分類與迴歸，屬於監督學習的一種。演算法的工作原理是：輸入一個訓練資料集，訓練資料集包括特徵空間的點和點的類別，可以是二分類或是多分類。預測時，輸入沒有類別的點，找到k個與該點距離最接近的點，使用多數表決的方法，得出最後的預測分類。

機器學習之KNN（k近鄰）演算法詳解

1-1 機器學習演算法分類一、基本分類： ①監督學習（Supervised learning）資料集中的每個樣本有相應的“正確答案”，根據這些樣本做出預測，分有兩類：迴歸問題和分類問題。步驟1：資料集的建立和分類步

一文搞懂k近鄰（k-NN）演算法（一）

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

【python與機器學習入門1】KNN（k近鄰）演算法2 手寫識別系統

參考部落格：超詳細的機器學習python入門knn乾貨（po主Jack-Cui 參考書籍：《機器學習實戰》——第二章 KNN入門第二彈——手寫識別系統demo ——《機器學習實戰》第二章2.3 手寫識別系統 &

K--最鄰近（K-NN）演算法

程式碼整理： # -*- coding: utf-8 -* import numpy as np import matplotlib.pyplot as plt from collections import Counter def dist(A,B):

JAVA加密解密之凱撒加密（Caesar cipher）演算法

凱撒加密演算法簡介凱撒加密(Caesar cipher)是一種簡單的訊息編碼方式：它根據字母表將訊息中的每個字母移動常量位k。舉個例子如果k等於3，則在編碼後的訊息中，每個字母都會向前移動3位：a會被替換為d；b會被替換成e；依此類推。字母表末尾將回捲到字母

KNN（K鄰近）演算法

k-鄰近演算法的一般流程收集資料：可以使用任何方法準備資料：距離計算（應該是計算距離）所需要的數值，最好是結構化的資料格式分析資料：可以使用任何方法訓練演算法：此步驟不適用與k-鄰近演算法測試演算法：計算錯誤率使用演算法：首先需要輸入樣本資料和

聚類之均值聚類（k-means）演算法的python實現

相關推薦