K-means和K-means++演算法程式碼實現（Python）

阿新 • • 發佈：2019-01-30

K-means和K-means++主要區別在於，K-means++演算法選擇初始類中心時，儘可能選擇相距較遠的類中心，而K-means僅僅是隨機初始化類中心。

#K-means演算法
from pylab import *
from numpy import *
import codecs
import matplotlib.pyplot as plt
data=[]
labels=[]
#資料讀取
with codecs.open("data.txt","r") as f:
    for line in f.readlines():
        x,y,label=line.strip().split('\t')
        data.append([float(x),float(y)])
        labels.append(float(label))
datas=array(data)
k=3#聚類數目
#計算歐式距離
def distance(x1,x2):
    return sqrt(sum(power(x1-x2,2)))
#隨機初始化類中心
def randcenter(set,k):
    dim=shape(set)[1]
    init_cen=zeros((k,dim))
    for i in range(dim):
        min_i=min(set[:,i])
        range_i=float(max(set[:,i]) - min_i)
        init_cen[:,i]=min_i + range_i*random.rand(k)
    return init_cen
#主程式
def Kmeans(dataset,k):
    row_m=shape(dataset)[0]
    cluster_assign=zeros((row_m,2))
    center=get_centroids(dataset,k)
    change=True
    while change:
        change=False
        for i in range(row_m):
            mindist=inf
            min_index=-1
            for j in range(k):
                distance1=distance(center[j,:],dataset[i,:])
                if distance1<mindist:
                    mindist=distance1
                    min_index=j
            if cluster_assign[i,0] != min_index:
                change=True
            cluster_assign[i,:]=min_index,mindist**2
        for cen in range(k):
            cluster_data=dataset[nonzero(cluster_assign[:,0]==cen)]
            center[cen,:]=mean(cluster_data,0)
    return center ,cluster_assign
cluster_center,cluster_assign=Kmeans(datas,k)
print(cluster_center)
#設定x,y軸的範圍
xlim(0, 10)
ylim(0, 10)
#做散點圖
f1 = plt.figure(1)
plt.scatter(datas[nonzero(cluster_assign[:,0]==0),0],datas[nonzero(cluster_assign[:,0]==0),1],marker='o',color='r',label='0',s=30)
plt.scatter(datas[nonzero(cluster_assign[:,0]==1),0],datas[nonzero(cluster_assign[:,0]==1),1],marker='+',color='b',label='1',s=30)
plt.scatter(datas[nonzero(cluster_assign[:,0]==2),0],datas[nonzero(cluster_assign[:,0]==2),1],marker='*',color='g',label='2',s=30)
plt.scatter(cluster_center[:,1],cluster_center[:,0],marker = 'x', color = 'm', s = 50)
plt.show()

K-means執行結果：

類中心：

[[ 7.16504475 7.12121176]
[ 2.94805141 2.84547461]
[ 4.92859254 4.93144926]]

#K-means++
from pylab import *
from numpy import *
import codecs
import matplotlib.pyplot as plt
data=[]
labels=[]
#資料讀取
with codecs.open("data.txt","r") as f:
    for line in f.readlines():
        x,y,label=line.strip().split('\t')
        data.append([float(x),float(y)])
        labels.append(float(label))
datas=array(data)

#計算歐氏距離
def distance(x1,x2):
    return sqrt(sum(power(x1-x2,2)))

#對一個樣本找到與該樣本距離最近的聚類中心
def nearest(point, cluster_centers):
    min_dist = inf
    m = np.shape(cluster_centers)[0]  # 當前已經初始化的聚類中心的個數
    for i in range(m):
        # 計算point與每個聚類中心之間的距離
        d = distance(point, cluster_centers[i, ])
        # 選擇最短距離
        if min_dist > d:
            min_dist = d
    return min_dist
#選擇儘可能相距較遠的類中心
def get_centroids(dataset, k):
    m, n = np.shape(dataset)
    cluster_centers = np.zeros((k , n))
    index = np.random.randint(0, m)
    cluster_centers[0,] = dataset[index, ]
    # 2、初始化一個距離的序列
    d = [0.0 for _ in range(m)]
    for i in range(1, k):
        sum_all = 0
        for j in range(m):
            # 3、對每一個樣本找到最近的聚類中心點
            d[j] = nearest(dataset[j, ], cluster_centers[0:i, ])
            # 4、將所有的最短距離相加
            sum_all += d[j]
        # 5、取得sum_all之間的隨機值
        sum_all *= random.rand()
        # 6、獲得距離最遠的樣本點作為聚類中心點
        for j, di in enumerate(d):
            sum_all=sum_all - di
            if sum_all > 0:
                continue
            cluster_centers[i,] = dataset[j, ]
            break
    return cluster_centers

#主程式
def Kmeans(dataset,k):
    row_m=shape(dataset)[0]
    cluster_assign=zeros((row_m,2))
    center=get_centroids(dataset,k)
    change=True
    while change:
        change=False
        for i in range(row_m):
            mindist=inf
            min_index=-1
            for j in range(k):
                distance1=distance(center[j,:],dataset[i,:])
                if distance1<mindist:
                    mindist=distance1
                    min_index=j
            if cluster_assign[i,0] != min_index:
                change=True
            cluster_assign[i,:]=min_index,mindist**2
        for cen in range(k):
            cluster_data=dataset[nonzero(cluster_assign[:,0]==cen)]
            center[cen,:]=mean(cluster_data,0)
    return center ,cluster_assign
cluster_center,cluster_assign=Kmeans(datas,3)
print(cluster_center)

#設定x,y軸的範圍
xlim(0, 10)
ylim(0, 10)
#做散點圖
f1 = plt.figure(1)
plt.scatter(datas[nonzero(cluster_assign[:,0]==0),0],datas[nonzero(cluster_assign[:,0]==0),1],marker='o',color='r',label='0',s=30)
plt.scatter(datas[nonzero(cluster_assign[:,0]==1),0],datas[nonzero(cluster_assign[:,0]==1),1],marker='+',color='b',label='1',s=30)
plt.scatter(datas[nonzero(cluster_assign[:,0]==2),0],datas[nonzero(cluster_assign[:,0]==2),1],marker='*',color='g',label='2',s=30)
plt.scatter(cluster_center[:,1],cluster_center[:,0],marker = 'x', color = 'm', s = 50)
plt.show()

K-means++程式執行結果：

類中心：

[[ 4.92859254 4.93144926]
[ 2.94805141 2.84547461]
[ 7.16504475 7.12121176]]

K-means和K-means++演算法程式碼實現（Python）

K-means和K-means++主要區別在於，K-means++演算法選擇初始類中心時，儘可能選擇相距較遠的類中心，而K-means僅僅是隨機初始化類中心。 #K-means演算法 from pylab import * from numpy import * impo

感知機演算法（Perceptron Learning Algorithm）和程式碼實現（Python）

PLA演算法是機器學習中最為基礎的演算法，與SVM和Neural Network有著緊密的關係。 &n

歸併法的程式碼實現（python）

這個演算法的主要思想是：將被排序的陣列劃分成相等的兩個子陣列，然後遞迴使用同樣的演算法分別對兩個子陣列排序。最好將兩個排好序的子陣列歸併成一個數組。歸併的過程如下：假設兩個子陣列是A和B，它們的元素都按照從小到大的順序排列。將A與B歸併後的

K近鄰演算法理解及實現（python）

KNN的工作原理：給定一個已知標籤類別的訓練資料集，輸入沒有標籤的新資料後，在訓練資料集中找到與新資料最鄰近的k個例項，如果這k個例項的多數屬於某個類別，那麼新資料就屬於這個類別。可以簡單理解為：由那些離X最近的k個點來投票決定X歸為哪一類。在二維平面下：

機器學習演算法-K最近鄰從原理到實現（Python）

本來這篇文章是5月份寫的，今天修改了一下內容，就成今天發表的了，CSDN這是出BUG了還是什麼改規則了。。。引文：決策樹和基於規則的分類器都是積極學習方法（eager learner）的例子，因為一旦訓練資料可用，他們就開始學習從輸入屬性到類標號的對映模型。

k-近鄰演算法程式碼註釋（一）

from numpy import * import operator def createDataSet(): group = array([[1.0,1.1],[1.0,1.0]

Java常用的八種排序演算法與程式碼實現（三）：桶排序、計數排序、基數排序

三種線性排序演算法：桶排序、計數排序、基數排序線性排序演算法（Linear Sort）：這些排序演算法的時間複雜度是線性的O(n)，是非比較的排序演算法桶排序（Bucket Sort）　　將要排序的資料分到幾個有序的桶裡，每個桶裡的資料再單獨進行排序，桶內排完序之後，再把桶裡的

Java常用的八種排序演算法與程式碼實現（二）：歸併排序法、快速排序法

注：這裡給出的程式碼方案都是通過遞迴完成的－－－歸併排序（Merge Sort）：　　分而治之，遞迴實現　　如果需要排序一個數組，我們先把陣列從中間分成前後兩部分，然後對前後兩部分進行分別排序，再將排好序的數組合並在一起，這樣整個陣列就有序了　　歸併排序是穩定的排序演算法，時間

【機器學習】Apriori演算法——原理及程式碼實現（Python版）

Apriopri演算法 Apriori演算法在資料探勘中應用較為廣泛，常用來挖掘屬性與結果之間的相關程度。對於這種尋找資料內部關聯關係的做法，我們稱之為：關聯分析或者關聯規則學習。而Apriori演算法就是其中非常著名的演算法之一。關聯分析，主要是通過演算法在大規模資料集中尋找頻繁項集和關聯規則。

可變形卷積解讀和程式碼實現（TF）

#呼叫普通卷積獲得輸出，輸出結果為(b,h,w,2c)表示圖片中每個畫素需要偏移的量（x,y) offsets = super(ConvOffset2D, self).call(x) #reshape一下輸出，方便後續操作，(b*c,h,w,2)表示共有b*c個圖片，每個圖片為h*w

Java常用的八種排序演算法與程式碼實現（一）：氣泡排序法、插入排序法、選擇排序法

這三種排序演算法適合小規模資料排序－－－　　共同點：基於比較，時間複雜度均為O(n2)，空間複雜度均為O(1)（原地排序演算法）　　不同點：插入排序和氣泡排序是穩定的排序演算法，選擇排序不是－－－　　穩定排序演算法：可以保持數值相等的兩個物件，在排序之

《推薦系統》基於使用者和Item的協同過濾演算法的分析與實現（Python）

開啟微信掃一掃，關注《資料與演算法聯盟》1：協同過濾演算法簡介2：協同過濾演算法的核心3：協同過濾演算法的應用方式4：基於使用者的協同過濾演算法實現5：基於物品的協同過濾演算法實現一：協同過濾演算法簡介關於協同過濾的一個最經典的例子就是看電影，有時候不知道哪一部電影是

ASp.Net Websocket 環境支援和前端程式碼實現（二）

寫文不容易，請尊重原創：轉載註明 http://blog.csdn.net/meng6098 Websocket的環境支援： 1.支援html5的瀏覽器經測試ie10和google可以用 2.Net伺服器環境，.Net 4.5，IIS 8，win8，windows s

K-SVD字典學習及其實現（Python）

演算法思想演算法求解思路為交替迭代的進行稀疏編碼和字典更新兩個步驟. K-SVD在構建字典步驟中，K-SVD不僅僅將原子依次更新，對於原子對應的稀疏矩陣中行向量也依次進行了修正. 不像MOP，K-SVD不需要對矩陣求逆，而是利用SVD數學分析方法得到了一個新

樸素貝葉斯演算法的程式碼例項實現（python）

本文由本人原創，僅作為自己的學習記錄資料：假設下面是課程資料，課程資料分為，價格A，課時B，銷量C 價格A 課時B 銷量C 低多高高中高低少高低中低中中

多種排序算法的思路和簡單代碼的實現（一）

insert i++ 前後端分享 size quicksort 執行判斷 clas 就自己簡單的理解了一些排序算法（JAVA）思路和代碼分享給大家：歡迎大家進行交流。直接插入排序，折半插入排序，冒泡排序，快速排序 1 public class Sort { 2

MVVM模式解析和在WPF中的實現（一）

開發特點還需如果情況下依次顯示尋找這也 MVVM模式簡介 MVVM是Model、View、ViewModel的簡寫，這種模式的引入就是使用ViewModel來降低View和Model的耦合，說是降低View和Model的耦合。也可以說是是降低界面和邏輯的耦合

GIS資訊關聯規則挖掘——Apriori演算法的實現（下）

上篇說明了原理，這篇就直接上核心程式碼了~ 程式碼比較長，所以理解可能有點麻煩，核心思路就是計算選擇的維度後遍歷資料，逐步進行迴圈計算置信度，並淘汰每次迴圈後的最低值。這裡有一點要注意的，我一開始想用arraylist構造一個堆疊結構進行資料遍歷的儲存跟計算，因為這樣效率比較高。

GIS資訊關聯規則挖掘——Apriori演算法的實現（上）

最近閒著無聊沒啥課，幫讀master的朋友做了一個桌面端的GIS系統，主要功能是景區管理。其中有個核心功能挺有意思的，就是統計所有景區受損設施的所有致損型別和每個型別具體包含的致損因子後，計算致損因子之間的關聯規則，然後可以根據使用者選定的致損型別組合計算出其景區設施造成損害的概率。（有點

Softmax程式碼實現（Python，附測試）

import numpy as np import math from matplotlib import pyplot as plt from sklearn import datasets #計算假設的“相對概率”分佈,注意防止指數運算資料溢位 dataset: m*(n+1) the

K-means和K-means++演算法程式碼實現（Python）

相關推薦