《機器學習實戰》學習筆記———利用K-均值聚類演算法對未標註資料分組

阿新 • • 發佈：2019-02-02

引言

K-均值演算法試圖將一系列樣本分割成K個不同的類簇（其中K是模型的輸入引數），其形式化的目標函式稱為類簇內的方差和（within cluster sum of squared errors，WCSS）。K-均值聚類的目的是最小化所有類簇中的方差之和。標準的K-均值演算法初始化K個類中心（為每個類簇中所有樣本的平均向量）

原理

k-均值聚類演算法

建立 $K$ 個點作為起始質點（經常是隨機選擇）
進行迭代
將每個資料點分配到離他距離最近的質點的簇。
全部分配後，用各個簇中的資料點的位置均值來更新質點的位置
直到達到迭代次數，或者所有的資料點所在的簇不發生改變

這意味著需要某種距離運算。資料集上k-均值演算法的效能會受到所選距離計算方法的影響。我們可列出k-均值聚類支援函式:

def loadDataSet(fileName):      #general function to parse tab -delimited floats
    dataMat = []                #assume last column is target value
    fr = open(fileName)
    for line in fr.readlines():
        curLine = line.strip().split('\t')
        fltLine = map(float,curLine) #map all elements to float() 

        dataMat.append(fltLine)
    return dataMat

def distEclud(vecA, vecB):
    return sqrt(sum(power(vecA - vecB, 2))) #la.norm(vecA-vecB)

def randCent(dataSet, k):
    n = shape(dataSet)[1]
    centroids = mat(zeros((k,n)))#create centroid mat
    for j in range(n):#create random cluster centers, within bounds of each dimension 

        minJ = min(dataSet[:,j]) 
        rangeJ = float(max(dataSet[:,j]) - minJ)
        centroids[:,j] = mat(minJ + rangeJ * random.rand(k,1))
    return centroids

第一個函式的功能是進行資料匯入，第二個函式的功能是計算兩個向量的歐氏距離，最後一個函式是為給定資料集構建一個包含 $k$ 個隨機之心的集合。
然後便是k-均值聚類演算法：

def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent):
    m = shape(dataSet)[0]
    clusterAssment = mat(zeros((m,2)))#create mat to assign data points 
                                      #to a centroid, also holds SE of each point
    centroids = createCent(dataSet, k)
    clusterChanged = True
    while clusterChanged:
        clusterChanged = False
        for i in range(m):#for each data point assign it to the closest centroid
            minDist = inf; minIndex = -1
            for j in range(k):
                distJI = distMeas(centroids[j,:],dataSet[i,:])
                if distJI < minDist:
                    minDist = distJI; minIndex = j
            if clusterAssment[i,0] != minIndex: clusterChanged = True
            clusterAssment[i,:] = minIndex,minDist**2
        print centroids
        for cent in range(k):#recalculate centroids
            ptsInClust = dataSet[nonzero(clusterAssment[:,0].A==cent)[0]]#get all the point in this cluster
            centroids[cent,:] = mean(ptsInClust, axis=0) #assign centroid to mean 
    return centroids, clusterAssment

例項分析

可以對它進行一些測試，測試集採用如下測試集
這裡寫圖片描述
一個書中自帶的測試集

輸入如下命令：

datMat=mat(loadDataSet('testSet.txt'))
myCentroids,clustAssing=kMeans(datMat,4)

得到如下結果，進行了四次迭代後演算法收斂
這裡寫圖片描述

二分k-均值演算法

將所有點看成一個簇
當簇數目小於k時
對於每一個簇：
計算總誤差
在給定的簇上面進行K-均值聚類 $（ k = 2 ）$
計算將該簇一分為二後的總誤差
選擇使得誤差最小的那個簇進行劃分操作

程式碼如下

def biKmeans(dataSet, k, distMeas=distEclud):
    m = shape(dataSet)[0]
    clusterAssment = mat(zeros((m,2)))
    centroid0 = mean(dataSet, axis=0).tolist()[0]
    centList =[centroid0] #create a list with one centroid
    for j in range(m):#calc initial Error
        clusterAssment[j,1] = distMeas(mat(centroid0), dataSet[j,:])**2
    while (len(centList) < k):
        lowestSSE = inf
        for i in range(len(centList)):
            ptsInCurrCluster = dataSet[nonzero(clusterAssment[:,0].A==i)[0],:]#get the data points currently in cluster i
            centroidMat, splitClustAss = kMeans(ptsInCurrCluster, 2, distMeas)
            sseSplit = sum(splitClustAss[:,1])#compare the SSE to the currrent minimum
            sseNotSplit = sum(clusterAssment[nonzero(clusterAssment[:,0].A!=i)[0],1])
            print ("sseSplit, and notSplit: ",sseSplit,sseNotSplit)
            if (sseSplit + sseNotSplit) < lowestSSE:
                bestCentToSplit = i
                bestNewCents = centroidMat
                bestClustAss = splitClustAss.copy()
                lowestSSE = sseSplit + sseNotSplit
        bestClustAss[nonzero(bestClustAss[:,0].A == 1)[0],0] = len(centList) #change 1 to 3,4, or whatever
        bestClustAss[nonzero(bestClustAss[:,0].A == 0)[0],0] = bestCentToSplit
        print ('the bestCentToSplit is: ',bestCentToSplit)
        print ('the len of bestClustAss is: ', len(bestClustAss))
        centList[bestCentToSplit] = bestNewCents[0,:].tolist()[0]#replace a centroid with two best centroids 
        centList.append(bestNewCents[1,:].tolist()[0])
        clusterAssment[nonzero(clusterAssment[:,0].A == bestCentToSplit)[0],:]= bestClustAss#reassign new clusters, and SSE
    return mat(centList), clusterAssment

例項分析

在上述測試集中進行測試
輸入

datMat=mat(loadDataSet('testSet.txt'))
CentList,MyNewAssments=biKmeans(datMat,4)
print(CentList)

得到聚類結果
這裡寫圖片描述
也可用一個較難的資料集

這裡寫圖片描述
一個書中自帶的測試集

輸入

datMat=mat(loadDataSet('testSet2.txt'))
CentList,MyNewAssments=biKmeans(datMat,3)
print(CentList)

得到聚類結果

這裡寫圖片描述

例項

運用經典的iris資料集進行分類

這裡寫圖片描述
使用經典的k-均值演算法進行分類

datMat=mat(loadDataSet('iris.txt'))
CentList,MyNewAssments=kMeans(datMat,3)

可得到迭代結果

這裡寫圖片描述
經過10次迭代，演算法收斂最後的聚類中心

這裡寫圖片描述
以及最後的聚類集

這裡寫圖片描述
部分聚類集

程式碼

from numpy import *
import matplotlib.pyplot as plt 

def loadDataSet(fileName):      #general function to parse tab -delimited floats
    dataMat = []                #assume last column is target value
    fr = open(fileName)
    for line in fr.readlines():
        curLine = line.strip().split('\t')
        fltLine = list(map(float,curLine)) #map all elements to float()
        dataMat.append(fltLine)
    return dataMat

def distEclud(vecA, vecB):
    return sqrt(sum(power(vecA - vecB, 2))) #la.norm(vecA-vecB)

def randCent(dataSet, k):
    n = shape(dataSet)[1]
    centroids = mat(zeros((k,n)))#create centroid mat
    for j in range(n):#create random cluster centers, within bounds of each dimension
        minJ = min(dataSet[:,j]) 
        rangeJ = float(max(dataSet[:,j]) - minJ)
        centroids[:,j] = mat(minJ + rangeJ * random.rand(k,1))
    return centroids

def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent):
    m = shape(dataSet)[0]
    clusterAssment = mat(zeros((m,2)))#create mat to assign data points 
                                      #to a centroid, also holds SE of each point
    centroids = createCent(dataSet, k)
    clusterChanged = True
    while clusterChanged:
        clusterChanged = False
        for i in range(m):#for each data point assign it to the closest centroid
            minDist = inf; minIndex = -1
            for j in range(k):
                distJI = distMeas(centroids[j,:],dataSet[i,:])
                if distJI < minDist:
                    minDist = distJI; minIndex = j
            if clusterAssment[i,0] != minIndex: clusterChanged = True
            clusterAssment[i,:] = minIndex,minDist**2
        print (centroids)
        for cent in range(k):#recalculate centroids
            ptsInClust = dataSet[nonzero(clusterAssment[:,0].A==cent)[0]]#get all the point in this cluster
            centroids[cent,:] = mean(ptsInClust, axis=0) #assign centroid to mean 
    return centroids, clusterAssment

def biKmeans(dataSet, k, distMeas=distEclud):
    m = shape(dataSet)[0]
    clusterAssment = mat(zeros((m,2)))
    centroid0 = mean(dataSet, axis=0).tolist()[0]
    centList =[centroid0] #create a list with one centroid
    for j in range(m):#calc initial Error
        clusterAssment[j,1] = distMeas(mat(centroid0), dataSet[j,:])**2
    while (len(centList) < k):
        lowestSSE = inf
        for i in range(len(centList)):
            ptsInCurrCluster = dataSet[nonzero(clusterAssment[:,0].A==i)[0],:]#get the data points currently in cluster i
            centroidMat, splitClustAss = kMeans(ptsInCurrCluster, 2, distMeas)
            sseSplit = sum(splitClustAss[:,1])#compare the SSE to the currrent minimum
            sseNotSplit = sum(clusterAssment[nonzero(clusterAssment[:,0].A!=i)[0],1])
            print ("sseSplit, and notSplit: ",sseSplit,sseNotSplit)
            if (sseSplit + sseNotSplit) < lowestSSE:
                bestCentToSplit = i
                bestNewCents = centroidMat
                bestClustAss = splitClustAss.copy()
                lowestSSE = sseSplit + sseNotSplit
        bestClustAss[nonzero(bestClustAss[:,0].A == 1)[0],0] = len(centList) #change 1 to 3,4, or whatever
        bestClustAss[nonzero(bestClustAss[:,0].A == 0)[0],0] = bestCentToSplit
        print ('the bestCentToSplit is: ',bestCentToSplit)
        print ('the len of bestClustAss is: ', len(bestClustAss))
        centList[bestCentToSplit] = bestNewCents[0,:].tolist()[0]#replace a centroid with two best centroids 
        centList.append(bestNewCents[1,:].tolist()[0])
        clusterAssment[nonzero(clusterAssment[:,0].A == bestCentToSplit)[0],:]= bestClustAss#reassign new clusters, and SSE
    return mat(centList), clusterAssment

參考文獻

《機器學習實戰》

《機器學習實戰》學習筆記———利用K-均值聚類演算法對未標註資料分組

引言

原理

k-均值聚類演算法

例項分析

二分k-均值演算法

例項分析

例項

程式碼

參考文獻

《機器學習實戰》學習筆記———利用K-均值聚類演算法對未標註資料分組

機器學習實戰---讀書筆記：第10章利用K均值聚類演算法對未標註資料分組---1

《機器學習實戰》筆記之十——利用K均值聚類演算法對未標註資料分組

機器學習實戰筆記-利用K均值聚類算法對未標註數據分組

機器學習實戰（Machine Learning in Action）學習筆記————06.k-均值聚類演算法（kMeans）學習筆記

【opencv學習之四十三】K均值聚類演算法

機器學習：利用K-均值聚類算法對未標註數據分組——筆記

機器學習實戰———k均值聚類演算法

斯坦福大學機器學習筆記——聚類（k-均值聚類演算法、損失函式、初始化、聚類數目的選擇）

機器學習實戰：K-均值及二分K-均值聚類演算法

機器學習實戰---K均值聚類演算法

吳恩達機器學習筆記八 K-means聚類演算法

機器學習（二）——K均值聚類演算法（K-means）

機器學習練習（七）—— K-均值聚類與主成分分析

MatLab建模學習筆記14——K-Means聚類演算法

機器學習（1）：K-MEANS聚類演算法

K-均值聚類演算法學習心得

機器學習實戰——python實現SOM神經網路聚類演算法

在Ignite中使用k-均值聚類演算法

k-均值聚類演算法

《機器學習實戰》學習筆記———利用K-均值聚類演算法對未標註資料分組

引言

原理

k-均值聚類演算法

例項分析

二分k-均值演算法

例項分析

例項

程式碼

參考文獻

相關推薦