原型聚類（二）學習向量量化（LVQ）和python實現

阿新 • • 發佈：2018-12-11

學習向量量化(Learning Vector Quantization,LVQ)和k-means類似，也屬於原型聚類的一種演算法，不同的是，LVQ處理的是有標籤的樣本集，學習過程利用樣本的標籤進行輔助聚類，個人感覺這個演算法更像是一個分類演算法。。。

若存在一個樣本集 $D=\begin{Bmatrix} (x_{1},y_{1}),(x_{2},y_{2}),...,(x_{m},y_{m}) \end{Bmatrix}$ ，LVQ希望通過這些樣本和標籤，學習一組原型向量 ${$

p1,p2,...,pq}\begin{Bmatrix} p_{1},p_{2},...,p_{q} \end{Bmatrix}

{p_{1}, p_{2}, . . ., p_{q}}

，其中q為樣本中的類別總數，演算法的思想大概是在初始化原型向量後，根據樣本自帶的標籤讓對應的原型向量像該樣本靠攏，最終趨於穩定，返回得到的原型向量。在這裡插入圖片描述

（圖片來自《機器學習》周志華

python3.6實現

# -*- coding: gbk -*-

import numpy as np
import copy
from sklearn.datasets import make_moons
from sklearn.datasets. 
samples_generator import make_blobs
import matplotlib.pyplot as plt


class LVQ():
    def __init__(self, max_iter=10000, eta=0.1, e=0.01):
        self.max_iter = max_iter
        self.eta = eta
        self.e = e

    def dist(self, x1, x2):
        return np.linalg.norm(x1 - x2)

    def get_mu(self, X, 
 Y):
        k = len(set(Y))
        index = np.random.choice(X.shape[0], 1, replace=False)
        mus = []
        mus.append(X[index])
        mus_label = []
        mus_label.append(Y[index])
        for _ in range(k - 1):
            max_dist_index = 0
            max_distance = 0
            for j in range(X.shape[0]):
                min_dist_with_mu = 999999

                for mu in mus:
                    dist_with_mu = self.dist(mu, X[j])
                    if min_dist_with_mu > dist_with_mu:
                        min_dist_with_mu = dist_with_mu

                if max_distance < min_dist_with_mu:
                    max_distance = min_dist_with_mu
                    max_dist_index = j
            mus.append(X[max_dist_index])
            mus_label.append(Y[max_dist_index])

        mus_array = np.array([])
        for i in range(k):
            if i == 0:
                mus_array = mus[i]
            else:
                mus[i] = mus[i].reshape(mus[0].shape)
                mus_array = np.append(mus_array, mus[i], axis=0)
        mus_label_array = np.array(mus_label)
        return mus_array, mus_label_array

    def get_mu_index(self, x):
        min_dist_with_mu = 999999
        index = -1

        for i in range(self.mus_array.shape[0]):
            dist_with_mu = self.dist(self.mus_array[i], x)
            if min_dist_with_mu > dist_with_mu:
                min_dist_with_mu = dist_with_mu
                index = i

        return index

    def fit(self, X, Y):
        self.mus_array, self.mus_label_array = self.get_mu(X, Y)
        iter = 0

        while(iter < self.max_iter):
            old_mus_array = copy.deepcopy(self.mus_array)
            index = np.random.choice(Y.shape[0], 1, replace=False)

            mu_index = self.get_mu_index(X[index])
            if self.mus_label_array[mu_index] == Y[index]:
                self.mus_array[mu_index] = self.mus_array[mu_index] + \
                    self.eta * (X[index] - self.mus_array[mu_index])
            else:
                self.mus_array[mu_index] = self.mus_array[mu_index] - \
                    self.eta * (X[index] - self.mus_array[mu_index])

            diff = 0
            for i in range(self.mus_array.shape[0]):
                diff += np.linalg.norm(self.mus_array[i] - old_mus_array[i])
            if diff < self.e:
                print('迭代{}次退出'.format(iter))
                return
            iter += 1
        print("迭代超過{}次，退出迭代".format(self.max_iter))


if __name__ == '__main__':

    fig = plt.figure(1)

    plt.subplot(221)
    center = [[1, 1], [-1, -1], [1, -1]]
    cluster_std = 0.35
    X1, Y1 = make_blobs(n_samples=1000, centers=center,
                        n_features=2, cluster_std=cluster_std, random_state=1)
    plt.scatter(X1[:, 0], X1[:, 1], marker='o', c=Y1)

    plt.subplot(222)
    lvq1 = LVQ()
    lvq1.fit(X1, Y1)
    mus = lvq1.mus_array
    plt.scatter(X1[:, 0], X1[:, 1], marker='o', c=Y1)
    plt.scatter(mus[:, 0], mus[:, 1], marker='^', c='r')

    plt.subplot(223)
    X2, Y2 = make_moons(n_samples=1000, noise=0.1)
    plt.scatter(X2[:, 0], X2[:, 1], marker='o', c=Y2)

    plt.subplot(224)
    lvq2 = LVQ()
    lvq2.fit(X2, Y2)
    mus = lvq2.mus_array
    plt.scatter(X2[:, 0], X2[:, 1], marker='o', c=Y2)
    plt.scatter(mus[:, 0], mus[:, 1], marker='^', c='r')
    plt.show()

執行返回的原型向量畫出如下紅色三角：在這裡插入圖片描述

圖中左側為原始生成的資料，右邊紅色三角為LVQ聚類獲得的原型向量

參考

《機器學習》周志華

原型聚類（二）學習向量量化（LVQ）和python實現

學習向量量化(Learning Vector Quantization,LVQ)和k-means類似，也屬於原型聚類的一種演算法，不同的是，LVQ處理的是有標籤的樣本集，學習過程利用樣本的標籤進行輔助聚類，個人感覺這個演算法更像是一個分類演算法。。。若存在一個

聚類及相關演算法二（原型聚類、密度聚類、層次聚類）

原型聚類描述：對原型進行初始化，然後對原型進行迭代更新求解。 1.k均值演算法給定樣本集D={x1,x2,...,xm}，D={x1,x2,...,xm}，“k-均值”(k-means)演算法針對聚類所得簇劃分C={C1,C2,C3,...,Ck}

原型聚類（一）k均值演算法和python實現

原型聚類原型聚類演算法假設聚類結構能通過一組原型刻畫，在現實聚類任務中極為常用。通常情形下，演算法先對原型進行初始化，然後對原型進行迭代更新求解。這裡的“原型”我認為實際上就是“原來的模型”，這類演算法企圖模擬出生成資料集的模型。 k均值演算法（k-means

Mixture of Gaussian（高斯混合原型聚類）

高斯混合聚類原理：高斯混合模型（Gaussian Mixture Model ，GMM）也是原型聚類，和上一篇總結的K-means和LVQ一樣,不過與它們不同的是，GMM沒有想用原型向量來刻畫聚類結構的不同。因為比如用k-means演算法解決聚類問題非常

機器學習--K-means演算法（聚類，無監督學習）

一、基本思想聚類屬於無監督學習，以往的迴歸、樸素貝葉斯、SVM等都是有類別標籤y的，也就是說樣例中已經給出了樣例的分類。而聚類的樣本中卻沒有給定y，只有特徵x，比如假設宇宙中的星星可以表示成三維空間中的點集。聚類的目的是找到每個樣本x潛在的類別y，並將同類別y的樣本x

原型聚類之學習向量量化及Python實現

學習向量量化(Learning Vector Quantization) 學習向量量化(Learning Vector Quantization,簡稱LVQ)屬於原型聚類，即試圖找到一組原型向量來聚類，每個原型向量代表一個簇，將空間劃分為若干個簇，從而對於任意

原型聚類演算法綜述（原型聚類演算法開篇）

原型聚類演算法綜述第十六次寫部落格，本人數學基礎不是太好，如果有幸能得到讀者指正，感激不盡，希望能借此機會向大家學習。這一篇作為該類演算法族的開篇，主要介紹了基於原型聚類的最終模型和優化目標。基於原型的聚類最終產生的模型包含以下兩部分： (1)

機器學習（7）——支援向量機（二）：線性可分支援向量機到非線性支援向量機

線性可分支援向量機回顧前面總結了線性可分支援向量機，知道了支援向量機的最終目的就是通過“間隔最大化” 得到最優分類器，能夠使最難區分的樣本點得到最大的分類確信度，而這些難區分的樣本就是支援向量。還是如下圖所示，超平面H1 和 H2 支撐著中間的決

如何利用kmeans將數據更加準確地聚類---利用隱含變量最佳類別（EM算法思想）實現

空間算法 mage ref 變化 val and 情況 ble K-means也是聚類算法中最簡單的一種了，但是裏面包含的思想卻是不一般。最早我使用並實現這個算法是在學習韓爺爺那本數據挖掘的書中，那本書比較註重應用。看了Andrew Ng的這個講義後才有些明白K-mean

TLD目標跟蹤演算法詳解（二）學習器Learning （跟蹤器與檢測器的協調與更新）

原文連結：http://blog.csdn.net/wood_water/article/details/9023151 在上一篇跟蹤器與檢測器（tracker and detector）中，我們已經詳細介紹了TLD中跟蹤器與檢測器的設計方案，而在具體

機器學習經典算法具體解釋及Python實現--線性回歸（Linear Regression）算法

ica single 方便最好的而且 == show des fun （一）認識回歸回歸是統計學中最有力的工具之中的一個。機器學習監督學習算法分為分類算法和回歸算法兩種，事實上就是依據類別標簽分布類型為離散型、連續性而定義的。顧名思義。分類算法用於離散型分布

LeetCode 145 Binary Tree Postorder Traversal（二叉樹的興許遍歷）+（二叉樹、叠代）

int truct fin for data- right class span popu 翻譯給定一個二叉樹。返回其興許遍歷的節點的值。比如：給定二叉樹為 {1。 #， 2， 3} 1 2 / 3 返回

表達式求值（二叉樹方法/C++語言描述）（三）

urn sse 二叉返回新的求值 calc ken node 　　二叉樹方法求值對運算數處理的方法與棧方法求值不太相同，除了將字符串中的運算數轉換為浮點類型外，還需要生成新的節點： 1 void Calculator::dealWithNumber(char *&

紅黑樹-RBT（二、基本操作之左旋）

都是 spa 左旋 class body 節點圖片如果 info 一、左旋　　1、當在含有n個關鍵字的紅黑樹上運行時，TREE-INSERT和TREE-DELETE操作對樹作了修改，結果可能違反（一、紅黑樹--》2、定義）中給出的紅黑樹的性質，為了保持這些性質，就要改

[POJ1014]Dividing（二進制優化多重背包）

tdi sin namespace esp arp getch 原來 ring poj #include <cstdio> #include <algorithm> #include <cstring> using namesp

DZY Loves Fibonacci Numbers CodeForces - 446C （二次剩餘+線段樹維護等比數列）

二次剩餘：斐波那契通項公式：先打表求出根號5在模1e9+9意義下的數。然後就化簡成立區間加上等比數列的形式，維護每段區間加了多少次等比數列就行。下面我們來看如何維護一個等比數列。假如我對區間[L,R]的加上1,2,4,8...2^n

誰說菜鳥不會資料分析（入門篇）----- 學習筆記6（資料分析報告）

1、資料分析報告：三大作用四項基本原則定義是根據資料分析原理和方法，運用資料來反映、研究和分析某項事物的現狀、問題、原因、本質和規律，並得出結論，提出解決辦法的一種分析應用文體。這種文體是決策者認識事物、瞭解事物、

誰說菜鳥不會資料分析（入門篇）----- 學習筆記5（資料展現：圖表）

1、圖表作用：表達形象化、突出重點、體現專業化 2、圖示型別： 3、通過關係選擇圖表 4、圖表製作5步法 5、圖表：圖所不能說的話突出單元格顯示：絕對值專案選取：相對值資料條：量綱不同圖示集：企業運營指標發展態勢監控迷你圖

誰說菜鳥不會資料分析（入門篇）----- 學習筆記4（資料分析方法）

1、資料分析方法資料分析作用與對應的分析方法資料分析作用基本方法資料分析方法現狀分析對比對比分析、平均分析、總和評價分析原因分析

誰說菜鳥不會資料分析（入門篇）----- 學習筆記2（結構為王：確定分析思路 4P 5W2H ）

1、資料分析方法論確定分析思路需要以營銷、管理等理論為指導，把這些跟資料分析相關的營銷、管理等理論統稱為資料分析方法論。資料分析方法論主要用來指導資料分析師進行一次完整的資料分析，更多的是指資料分析思路，如從哪方面開展資料分析？各方面包含什麼內容和指標。資料分析方法論主要

原型聚類（二）學習向量量化（LVQ）和python實現

參考

相關推薦