kmeans與kmeans++的python實現

阿新 • • 發佈：2017-08-11

cep name ges poi one lin 進行 print .get

一.kmeans聚類：

基本方法流程

1.首先隨機初始化k個中心點

2.將每個實例分配到與其最近的中心點，開成k個類

3.更新中心點，計算每個類的平均中心點

4.直到中心點不再變化或變化不大或達到叠代次數

優缺點：該方法簡單，執行速度較快。但其對於離群點處理不是很好，這是可以去除離群點。kmeans聚類的主要缺點是隨機的k個初始中心點的選擇不夠嚴謹，因為是隨機，所以會導致聚類結果準確度不穩定。

二.kmeans++聚類：

kmeans++方法是針對kmeans的主要缺點進行改進，通過在初始中心點的選擇上改進不足。

中心點的選擇：

1.首先隨機選擇一個中心點

2.計算每個點到與其最近的中心點的距離為dist，以正比於dist的概率，隨機選擇一個點作為中心點加入中心點集中，重復直到選定k個中心點

3.計算同kmeans方法

三.評估方法

誤差平方和可以評估每次初始中心點選擇聚類的優劣，公式如下：

技術分享

計算每個點到它自己的類的中心點的距離的平方和，外層是不同類間的和。根據每次初始點的選擇聚類結果計算SSE，SSE值越小結果越好。

四.代碼

  1 #!/usr/bin/python
  2 # -*- coding: utf-8 -*-
  3 import math
  4 import codecs
  5 import random
  6 
  7 #k-means和k-means++聚類，第一列是label標簽，其它列是數值型數據
  8 class KMeans:
  9 
 10 
     #一列的中位數
 11     def getColMedian(self,colList):
 12         tmp = list(colList)
 13         tmp.sort()
 14         alen = len(tmp)
 15         if alen % 2 == 1:
 16             return tmp[alen // 2]
 17         else:
 18             return (tmp[alen // 2] + tmp[(alen // 2) - 1]) / 2
 19 
 20     #對數值型數據進行歸一化，使用絕對標準分[絕對標準差->asd=sum(x-u)/len(x),x的標準分->(x-u)/絕對標準差，u是中位數] 

 21     def colNormalize(self,colList):
 22         median = self.getColMedian(colList)
 23         asd = sum([abs(x - median) for x in colList]) / len(colList)
 24         result = [(x - median) / asd for x in colList]
 25         return result
 26 
 27     ‘‘‘
 28     1.讀數據
 29     2.按列讀取
 30     3.歸一化數值型數據
 31     4.隨機選擇k個初始化中心點
 32     5.對數據離中心點距離進行分配
 33     ‘‘‘
 34     def __init__(self,filePath,k):
 35         self.data={}#原始數據
 36         self.k=k#聚類個數
 37         self.iterationNumber=0#叠代次數
 38         #用於跟蹤在一次叠代改變的點
 39         self.pointsChanged=0
 40         #誤差平方和
 41         self.SSE=0
 42         line_1=True
 43         with codecs.open(filePath,‘r‘,‘utf-8‘) as f:
 44             for line in f:
 45                 # 第一行為描述信息
 46                 if line_1:
 47                     line_1=False
 48                     header=line.split(‘,‘)
 49                     self.cols=len(header)
 50                     self.data=[[] for i in range(self.cols)]
 51                 else:
 52                     instances=line.split(‘,‘)
 53                     column_0=True
 54                     for ins in range(self.cols):
 55                         if column_0:
 56                             self.data[ins].append(instances[ins])# 0列數據
 57                             column_0=False
 58                         else:
 59                             self.data[ins].append(float(instances[ins]))# 數值列
 60         self.dataSize=len(self.data[1])#多少實例
 61         self.memberOf=[-1 for x in range(self.dataSize)]
 62 
 63         #歸一化數值列
 64         for i in range(1,self.cols):
 65             self.data[i]=self.colNormalize(self.data[i])
 66 
 67         #隨機從數據中選擇k個初始化中心點
 68         random.seed()
 69         #1.下面是kmeans隨機選擇k個中心點
 70         #self.centroids=[[self.data[i][r] for i in range(1,self.cols)]
 71         #                for r in random.sample(range(self.dataSize),self.k)]
 72         #2.下面是kmeans++選擇K個中心點
 73         self.selectInitialCenter()
 74 
 75         self.assignPointsToCluster()
 76 
 77     #離中心點距離分配點，返回這個點屬於某個類別的類型
 78     def assignPointToCluster(self,i):
 79         min=10000
 80         clusterNum=-1
 81         for centroid in range(self.k):
 82             dist=self.distance(i,centroid)
 83             if dist<min:
 84                 min=dist
 85                 clusterNum=centroid
 86         #跟蹤改變的點
 87         if clusterNum!=self.memberOf[i]:
 88             self.pointsChanged+=1
 89         #誤差平方和
 90         self.SSE+=min**2
 91         return clusterNum
 92 
 93 
 94     #將每個點分配到一個中心點，memberOf=[0,1,0,0,...]，0和1是兩個類別，每個實例屬於的類別
 95     def assignPointsToCluster(self):
 96         self.pointsChanged=0
 97         self.SSE=0
 98         self.memberOf=[self.assignPointToCluster(i) for i in range(self.dataSize)]
 99 
100     # 歐氏距離,d(x,y)=math.sqrt(sum((x-y)*(x-y)))
101     def distance(self,i,j):
102         sumSquares=0
103         for k in range(1,self.cols):
104             sumSquares+=(self.data[k][i]-self.centroids[j][k-1])**2
105         return math.sqrt(sumSquares)
106 
107     #利用類中的數據點更新中心點，利用每個類中的所有點的均值
108     def updateCenter(self):
109         members=[self.memberOf.count(i) for i in range(len(self.centroids))]#得到每個類別中的實例個數
110         self.centroids=[
111             [sum([self.data[k][i] for i in range(self.dataSize)
112                   if self.memberOf[i]==centroid])/members[centroid]
113              for k in range(1,self.cols)]
114             for centroid in range(len(self.centroids))]
115 
116     ‘‘‘叠代更新中心點（使用每個類中的點的平均坐標），
117     然後重新分配所有點到新的中心點，直到類中成員改變的點小於1%(只有不到1%的點從一個類移到另一類中)
118     ‘‘‘
119     def cluster(self):
120         done=False
121         while not done:
122             self.iterationNumber+=1#叠代次數
123             self.updateCenter()
124             self.assignPointsToCluster()
125             #少於1%的改變點，結束
126             if float(self.pointsChanged)/len(self.memberOf)<0.01:
127                 done=True
128         print("誤差平方和（SSE）: %f" % self.SSE)
129 
130     #打印結果
131     def printResults(self):
132         for centroid in range(len(self.centroids)):
133             print(‘\n\nCategory %i\n=========‘ % centroid)
134             for name in [self.data[0][i] for i in range(self.dataSize)
135                 if self.memberOf[i]==centroid]:
136                 print(name)
137 
138     #kmeans++方法與kmeans方法的區別就是初始化中心點的不同
139     def selectInitialCenter(self):
140         centroids=[]
141         total=0
142         #首先隨機選一個中心點
143         firstCenter=random.choice(range(self.dataSize))
144         centroids.append(firstCenter)
145         #選擇其它中心點，對於每個點找出離它最近的那個中心點的距離
146         for i in range(0,self.k-1):
147             weights=[self.distancePointToClosestCenter(x,centroids)
148                      for x in range(self.dataSize)]
149             total=sum(weights)
150             #歸一化0到1之間
151             weights=[x/total for x in weights]
152 
153             num=random.random()
154             total=0
155             x=-1
156             while total<num:
157                 x+=1
158                 total+=weights[x]
159             centroids.append(x)
160         self.centroids=[[self.data[i][r] for i in range(1,self.cols)] for r in centroids]
161 
162     def distancePointToClosestCenter(self,x,center):
163         result=self.eDistance(x,center[0])
164         for centroid in center[1:]:
165             distance=self.eDistance(x,centroid)
166             if distance<result:
167                 result=distance
168         return result
169 
170     #計算點i到中心點j的距離
171     def eDistance(self,i,j):
172         sumSquares=0
173         for k in range(1,self.cols):
174             sumSquares+=(self.data[k][i]-self.data[k][j])**2
175         return  math.sqrt(sumSquares)
176 
177 if __name__==‘__main__‘:
178     kmeans=KMeans(‘filePath‘,3)
179     kmeans.cluster()
180     kmeans.printResults()

kmeans與kmeans++的python實現

cep name ges poi one lin 進行 print .get 一.kmeans聚類：基本方法流程 1.首先隨機初始化k個中心點 2.將每個實例分配到與其最近的中心點，開成k個類 3.更新中心點，計算每個類的平均中心點 4.直到中心點不再變化或變化不大或達到

資料結構筆記-棧與佇列python實現

概述棧與佇列是程式設計中被廣泛應用的兩種重要的資料結構，都是在特定範圍的儲存單元記憶體儲資料，這些資料都可以被重新取出使用，與線性表相比，他們的插入和刪除受到更多的約束，固又稱限定性的線性表結構。他們是最簡單的快取結構，他們只支援資料項的儲存與訪問，不支援資料項之間的任何關係。因此，這兩種

集體智慧程式設計——搜尋與排名-Python實現

學習構建一個簡易的搜尋引擎，步驟如下：網頁抓取：從一個或一組特定的網頁開始，根據網頁內部連結逐步追蹤到其他網頁。這樣遞迴進行爬取，直到到達一定深度或達到一定數量為止。建立索引：建立資料表，包含文件中所有單詞的位置資訊，文件本身不一定要儲存到資料庫中，索引

語音差分編碼（DPCM）的實現與改進——Python實現

介紹這是視聽覺訊號處理的第二個實驗——語音差分編碼（DPCM）。總體來講，思路上還是比較簡單的，很容易理解。如果程式設計能力好的話，相信很快就能完成。奈何我太菜了，寫了幾個晚上才算搞定。做了點擴充套件，添加了自己神奇的想法，在這裡記錄一下。先附上程式碼地址：視

【極限學習機ELM與DELM——python實現與應用】

import numpy as np from sklearn.preprocessing import OneHotEncoder,LabelEncoder import numpy as np from sklearn.datasets import load_iris #資料集 from sklear

神經網路中BP演算法的原理與用Python實現原始碼

（1）什麼是梯度下降和鏈式求導法則 1.梯度下降假設我們有一個函式J(w),如下圖所示。現在，我們要求當w等於什麼的時候，J(w)能夠取到最小值。從圖中我們知道最小值在初始位置的左邊，也就意味著如果想要使J(w)最小，w的值需要減小。而初始位置的切線斜率a>0

Kmeans聚類算法及其 Python實現

lap pytho pan 鏈接 nbsp ade 不知道 ans details python Kmeans聚類之後如何給數據貼上聚類的標簽？用了二分Kmeans 來聚類質心和聚類的簇都得到了，不知道如何給每一條數據貼上具體的標簽？這個鏈接下的代碼，可以作為參

Kmeans 聚類及其python實現

main chang pen wid matplot ret 步驟 -- name 主要參考 K-means 聚類算法及 python 代碼實現還有《機器學習實戰》這本書，當然前面那個鏈接的也是參考這本書，懂原理，會用就行了。 1、概述 K-means 算

kmeans聚類選擇最優K值python實現

Kmeans演算法中K值的確定是很重要的。下面利用python中sklearn模組進行資料聚類的K值選擇資料集自制資料集，格式如下： ①手肘法手肘法的核心指標是SSE(sum of the squared errors，誤差平方和)，其中，Ci是第i個簇

Kmeans&HCA + iris資料集+python實現

基本的聚類分析演算法 K均值 (K-means)：基於原型的、劃分的距離技術，它試圖發現使用者指定個數(K)的簇。 a. 隨機選取k箇中心點 b. 遍歷所有資料，將每個資料劃分到最近的中心點中 c. 計算每個聚類的平均值，並作為新的中心點 d. 重複2-3，直到這k箇中線點不

kMeans聚類的python實現

from numpy import * import matplotlib.pyplot as plt #輔助函式 #載入資料集 def loadDataSet(filename): dataMat = [] f = open(filename

python實現Kmeans聚類

引數設定 Parameters: n_clusters : int, optional, default: 8 The number of clusters to form as well as the number of centroids

python實現Kmeans文字聚類，通過PCA降維和Matplotlib顯示聚類3d三維影象

首先感謝Eastmount寫的內容http://blog.csdn.net/Eastmount/article/details/50545937。點選開啟連結在此基礎上，主要實現以下改進及結果 1.替換使用sklearn.feature_extraction.text.T

【Python資料探勘課程】三.Kmeans聚類程式碼實現、作業及優化

這篇文章直接給出上次關於Kmeans聚類的籃球遠動員資料分析案例，同時介紹這次作業同學們完成的圖例，最後介紹Matplotlib包繪圖的優化知識。希望這篇文章對你有所幫助，尤其是剛剛接觸資料探勘以及大資料的同學，同時準備嘗試以案例為主的方式進行

python實現簡單的kmeans聚類演算法

問題描述：一堆二維資料，用kmeans演算法對其進行聚類，下面例子以分k=3為例。原資料： 1.5,3.1 2.2,2.9 3,4 2,1 15,25 43,13 32,42 0,0 8,9 12,5 9,12 11,8 22,33 24,25 實現程式碼： #codin

【轉】利用python的KMeans和PCA包實現聚類算法

transform from clas 圖片不同 pos efi highlight python實現轉自：https://www.cnblogs.com/yjd_hycf_space/p/7094005.html 題目：通過給出的駕駛員行為數據（t

【Python】11、集合與字典的實現

python一、字典的實現dict是在list之上實現的 i（索引） = hash(key) % solt(槽位數)此時i重復了怎麽辦（hash沖突）？1、拉鏈法每個槽位上拉一個List，就是拉鏈法2、開地址法使用某個算法重新計算i，就交開地址法常用，效率更高，i = fn(key, i)【Pyt

【Python算法】圖與樹的實現

com 遍歷 alt self. als .com 字典分享 def 鄰接列表及其類似結構　　對於圖結構的實現來說，最直觀的方式之一就是使用鄰接列表。下面我們來實現一個最簡單的：假設現在我們有n個節點，編號分別為0，...，n-1。　　然後，每個鄰接列表就是一個數

常見數據結構與python實現

key mov 創建構建動態順序表放下 out ont 系列數據是一個抽象的概念，將其進行分類後得到程序設計語言中的基本類型。如：int，float，char等。數據元素之間不是獨立的，存在特定的關系，這些關系便是結構。數據結構指數據對象中數據元素之間的關系。算法

KNN 算法，以及與Kmeans的簡單對比

機器速度優點相關可能優化四種優缺點 16px KNN與Kmeans感覺沒啥聯系，但是名字挺像的，就拿來一起總結一下吧。初學者的總結。 KNN是監督學習，Kmeans是無監督學習。 KNN用於分類，Kmeans用於聚類。先說KNN: 對於KNN，有一批已

kmeans與kmeans++的python實現

相關推薦