西瓜書9.10：實現自動確定聚類數目的k_means演算法

阿新 • • 發佈：2019-01-07

問題：

試設計一個能自動確定聚類數的改進k均值演算法，程式設計實現並在西瓜資料集4.0上執行。

資料集：

西瓜資料集4.0

資料集描述：

該資料集共有30個樣本，每個樣本有密度和含糖度兩個特徵。

思路：

如何確定k的取值：

這裡希望每一類別內部樣本點距離較小而不同聚類之間的誤差較大，所以用：
這裡寫圖片描述
作為損失函式，其值越小越好，希望取得區域性最優點，當值在k時增大，則k=k-1時最優

如何選擇較好的k個均值：

隨機選取的問題：

若是均值隨機選，則很可能尋找到兩個距離很近的均值點，在迭代過程中，這兩個均值點會逐漸靠近最後重合，使得最後聚類數目減少。

演算法思想:

首先隨機選取L個均值點，接著根據這L個均值點對樣本聚類，減去那些聚類內樣本較小的點。接著在剩下的L1個店中隨機選取一個均值點，並且尋找距離該點最遠的均值點，依次迭代直至選取到K個均值點。

演算法流程：

這裡寫圖片描述

k_means演算法：

初始化：首先選取k個均值點
將樣本點劃分到距離自己最近的均值點所在類別
根據聚類結果更新均值點
重複步驟2.3直至均值點不再改變
輸出聚類結果

結果：

通過對損失函式計算，得到當k=3時，聚類結果最優，聚類結果以及圖形化展示如下：
這裡寫圖片描述

原始碼 :

損失函式計算：

clu_unique=np.unique(cluster)
    Di=[]
    D=len(data)
    E=0.0
    for i in range(len(mean)):
        Di.append(len(np.where(cluster==i)[0 
]))
    for i in range(D):
        E+=np.linalg.norm(data[i]-mean[cluster[i][0]],ord=2)
    for i in range(len(mean)):
        for j in range(len(mean)):
            E+=np.linalg.norm(mean[i]-mean[j],ord=2)
    E-=np.log(len(mean)/D)
    return E

優化版本K個均值值選取：

def find_k_means(data,K):
    L=int(K*np.log 
(K))
    if L<K:
        L=K
    np.random.seed(int(time.time()))
    r_index=random_unique(0,data.shape[0],L)
    mean=data[r_index]#隨機選取L箇中心
    cluster = classify(data,mean)  # 紀錄每個樣本所屬類別
    remove_index=remove_center(cluster,data.shape[0],L)#刪除以該中心開始聚類數目最少的中心點
    new_mean=[]#新的中心點
    for i in range(mean.shape[0]):
        if (i not in remove_index) and (mean[i].tolist() not in new_mean):
            new_mean.append(mean[i].tolist())
    if len(new_mean)>K:#new_mean 裡面元素不同
        k_mean=[]
        r_i=np.random.randint(0,len(new_mean),1)[0]
        old_v=new_mean[r_i]
        k_mean.append(old_v)
        while(len(k_mean)<K):
            dis=[]
            for i in range(len(new_mean)):
                dis.append([new_mean[i],np.linalg.norm(np.array(new_mean[i])-np.array(old_v),ord=2)])

            max=np.max(np.array(dis)[:,1])
            max_index=np.where(np.array(dis)[:,1]==max)[0]
            while(dis[max_index[0]][0] in k_mean):
                dis.pop(max_index[0])
                max = np.max(np.array(dis)[:, 1])
                max_index = np.where(np.array(dis)[:, 1] == max)[0]
            old_v=dis[max_index[0]][0]#上一個距離最遠的樣本
            k_mean.append(old_v)
    else:
        k_mean=new_mean
    return np.array(k_mean)

K均值演算法：

oldE=100
color = ['green', 'red', 'purple', 'pink', 'yellow','green','brown','tan','seashell','salmon']
mark=['^','o','*','.','#']
old_cluster=[]
for k in np.arange(2,len(data),1):
    k_mean=find_k_means(data,k)
    old_mean = np.zeros(shape=k_mean.shape)
    cluster = np.zeros(shape=k_mean.shape)
    while (not ((old_mean == k_mean).all())):#直到mean值不再改變 達到最優
        cluster = classify(data, k_mean)
        old_mean = k_mean
        k_mean = update_means(data, cluster)
    E = loss(data, cluster, k_mean)
    if oldE<E:
        print("在k="+str(k-1)+"次達到最優")

        for i in np.unique(old_cluster):
            index = np.where(old_cluster == i)
            x = data[index, 0]
            y = data[index, 1]
            plt.scatter(x, y, color=color[i%10], marker=mark[i%5])
        plt.show()
        break
    oldE=E
    old_cluster=cluster
    print("聚類結果：" + str(cluster.reshape((cluster.shape[1], cluster.shape[0]))))
    print("聚類損失：" + str(E))

西瓜書9.10：實現自動確定聚類數目的k_means演算法

問題：試設計一個能自動確定聚類數的改進k均值演算法，程式設計實現並在西瓜資料集4.0上執行。資料集：西瓜資料集4.0 資料集描述：該資料集共有30個樣本，每個樣本有密度和含糖度兩個特徵。思路：如何確定k的取值：這裡希望每一類別內部

[.NET] 簡單接入微信公眾號開發：實現自動回復

ring echo AC tin 處理過程文本消息 n) () token 簡單接入微信公眾號開發：實現自動回復一、前提　　先申請微信公眾號的授權，找到或配置幾個關鍵的信息（開發者ID、開發者密碼、IP白名單、令牌和消息加解密密鑰等）。二、基本配置信

西瓜書讀書筆記：第二章模型評估與選擇

2.1經驗誤差與過擬合錯誤率：分類錯誤的樣本數佔樣本總數的比例精度accuracy：1-錯誤率誤差：學習器的實際預測輸出與樣本的真實輸出之間的差異訓練誤差training error/經驗誤差empirical error：學習器在訓練集上的誤差泛化誤差：

西瓜書5.5 程式設計實現BP神經網路——標準BP演算法、累積BP演算法

這裡照著書上的公式，實現了一下標準BP演算法，和累積BP演算法，BP是error Back Propagation的意思，誤差逆傳播。BP網路通常是指用BP演算法訓練的多層前饋神經網路。程式碼是照著書本公式自己寫的，沒有參考網上的其他版本。資料和程式碼地址：https:/

第 9 篇：實現分類、標籤、歸檔日期介面

![](https://img2020.cnblogs.com/blog/759200/202004/759200-20200415161158343-1662112908.jpg) 作者：[HelloGitHub-追夢人物](https://www.zmrenwu.com) 我們的部落格有一個側邊欄功能

第八次作業--聚類--K均值演算法：自主實現與sklearn.cluster.KMeans呼叫

import numpy as np x = np.random.randint(1,100,[20,1]) y = np.zeros(20) k = 3 x def initcenter(x, k):#初始聚類中心陣列 return x[:k] kc = initcenter

第八次作業-----#聚類--K均值演算法：自主實現與sklearn.cluster.KMeans呼叫

1. 用python實現K均值演算法 K-means是一個反覆迭代的過程，演算法分為四個步驟：（x,k,y) 1）選取資料空間中的K個物件作為初始中心，每個物件代表一個聚類中心； def initcenter(x, k): kc 2）對於樣本中的資料物件，根據它們與這些聚類中心的歐氏距離，按距

機器學習實戰---讀書筆記：第10章利用K均值聚類演算法對未標註資料分組---1

#!/usr/bin/env python # encoding: utf-8 import os from matplotlib import pyplot as plt from numpy import * ''' 讀書筆記之--<<機器學習實戰>>--第10章_

python實現一個層次聚類方法

mac ima 優先隊列 () don 標簽中位數 filepath normal 層次聚類(Hierarchical Clustering) 一.概念　　層次聚類不需要指定聚類的數目，首先它是將數據中的每個實例看作一個類，然後將最相似的兩個類合並，該過程叠代計算只到剩

通過IDEA及hadoop平臺實現k-means聚類算法

綜合 tle tostring html map apache cnblogs cos textfile 有段時間沒有操作過，發現自己忘記一些步驟了，這篇文章會記錄相關步驟，並隨時進行補充修改。 1 基礎步驟，即相關環境部署及數據準備數據文件類型為.csv文件，excel

使用Java實現K-Means聚類演算法

第一次寫部落格，隨便寫寫。關於K-Means介紹很多，還不清楚可以查一些相關資料。個人對其實現步驟簡單總結為4步: 1.選出k值,隨機出k個起始質心點。 2.分別計算每個點和k個起始質點之間的距離,就近歸類。 3.最終中心點集可以劃分為k類,

演算法設計：基於密度的聚類方法

1、前言我們生活在資料大爆炸時代，每時每刻都在產生海量的資料如視訊，文字，影象和部落格等。由於資料的型別和大小已經超出了人們傳統手工處理的能力範圍，聚類，作為一種最常見的無監督學習技術，可以幫助人們給資料自動打標籤，已經獲得了廣泛應用。聚類的目的就是把不同的資料點按照它們的相似與相異度分割成不

python實現mean-shift聚類演算法

新建MeanShift.py檔案 import numpy as np # 定義預先設定的閾值 STOP_THRESHOLD = 1e-4 CLUSTER_THRESHOLD = 1e-1 # 定義度量函式 def distance(a, b):

在Spark SQL對人類資料實現K-Means聚類，並對聚類中心格式化輸出

簡介本篇博文對UCI提供的 Machine-Learning-Databases 資料集進行資料分析，並通過K-Means模型實現聚類，最後格式化輸出聚類中心點。本文主要包括以下內容：通過VectorAssembler來將多列資料合成一列features

利用Python實現K-Means聚類並進行圖形化展示

利用K-means進行聚類，顯示聚類結果的各類別的數量，最終進行圖形化展示。 import pandas as pd import numpy as np import matplotlib.pyplot as plt from scipy import stats import c

Python實現K-Means聚類演算法

宣告：程式碼的執行環境為Python3。Python3與Python2在一些細節上會有所不同，希望廣大讀者注意。本部落格以程式碼為主，程式碼中會有詳細的註釋。相關文章將會發布在我的個人部落格專欄《Python從入門到深度學習》，歡迎大家關注~

JAVA實現K-means聚類

個人部落格站已經上線了，網址 www.llwjy.com ~歡迎各位吐槽~-------------------------------------------------------------------------------------------------

聚類分析-實現亞洲足球聚類

Description：利用K-Means演算法實現亞洲足球的聚類；下圖是亞洲15只球隊在2005年-2010年間大型盃賽的戰績：下圖是0-1規格化後的資料： Analysis： 1.確定K值

Matlab實現K均值聚類

作為第一個部落格，我寫了一個簡單的K均值聚類演算法。過程大致如下：（1）從n個樣本中任意選擇（一般是隨機分配），k個作為初始聚類中心；（2）對於剩下的其它樣本點，根據它們與這些聚類中心的距離，分

用Python實現文件聚類

在本教程中，我會利用 Python 來說明怎樣聚類一系列的文件。我所演示的例項會識別出 top 100 電影的（來自 IMDB 列表）劇情簡介的隱藏結構。關於這個例子的詳細討論在初始版本里。本教程包括：對所有劇情簡介分詞（tokenizing）和詞幹化（stemming）

西瓜書9.10：實現自動確定聚類數目的k_means演算法

相關推薦