機器學習實戰——python實現SOM神經網路聚類演算法

阿新 • • 發佈：2019-02-06

演算法基礎

SOM網路結構

輸入層：假設一個輸入樣本為X=[x1,x2,x3,…,xn]，是一個n維向量，則輸入層神經元個數為n個。
輸出層（競爭層）：通常輸出層的神經元以矩陣方式排列在二維空間中，每個神經元都有一個權值向量。
假設輸出層有m個神經元，則有m個權值向量，Wi = [wi1,wi2,....,win], 1<=i<=m。

這裡寫圖片描述

演算法流程

1. 初始化:權值使用較小的隨機值進行初始化，並對輸入向量和權值做歸一化處理 
          X’ = X/||X|| 
          ω’i= ωi/||ωi||， 1<=i<=m 
          ||X||和||ωi||分別為輸入的樣本向量和權值向量的歐幾里得範數。
2.將樣本輸入網路:樣本與權值向量做點積，點積值最大的輸出神經元贏得競爭，
（或者計算樣本與權值向量的歐幾里得距離，距離最小的神經元贏得競爭）記為獲勝神經元。
3.更新權值:對獲勝的神經元拓撲鄰域內的神經元進行更新,並對學習後的權值重新歸一化。 
        ω(t+1)= ω(t)+ η(t，n) * (x-ω(t))
        η(t，n):η為學習率是關於訓練時間t和與獲勝神經元的拓撲距離n的函式。
        η(t，n)=η(t)e^(-n)
        η(t)一般取迭代次數的倒數

4.更新學習速率η及拓撲鄰域N,N隨時間增大距離變小。
5.判斷是否收斂。如果學習率η<=ηmin或達到預設的迭代次數，結束演算法。

演算法實現

#初始化輸入層與競爭層神經元的連線權值矩陣
def initCompetition(n , m , d):
    #隨機產生0-1之間的數作為權值
    array = random.random(size=n * m *d)
    com_weight = array.reshape(n,m,d)
    return com_weight

#計算向量的二範數
def cal2NF(X):
    res = 0
    for x in X:
        res += x*x
    return res ** 0.5

#對資料集進行歸一化處理
def normalize 
(dataSet):
    old_dataSet = copy(dataSet)
    for data in dataSet:
        two_NF = cal2NF(data)
        for i in range(len(data)):
            data[i] = data[i] / two_NF
    return dataSet , old_dataSet
#對權值矩陣進行歸一化處理
def normalize_weight(com_weight):
    for x in com_weight:
        for data in x:
            two_NF = cal2NF(data)
            for 
 i in range(len(data)):
                data[i] = data[i] / two_NF
    return com_weight

#得到獲勝神經元的索引值
def getWinner(data , com_weight):
    max_sim = 0
    n,m,d = shape(com_weight)
    mark_n = 0
    mark_m = 0
    for i in range(n):
        for j in range(m):
            if sum(data * com_weight[i,j]) > max_sim:
                max_sim = sum(data * com_weight[i,j])
                mark_n = i
                mark_m = j
    return mark_n , mark_m

#得到神經元的N鄰域
def getNeibor(n , m , N_neibor , com_weight):
    res = []
    nn,mm , _ = shape(com_weight)
    for i in range(nn):
        for j in range(mm):
            N = int(((i-n)**2+(j-m)**2)**0.5)
            if N<=N_neibor:
                res.append((i,j,N))
    return res

#學習率函式
def eta(t,N):
    return (0.3/(t+1))* (math.e ** -N)

#SOM演算法的實現
def do_som(dataSet , com_weight, T , N_neibor):
'''
T:最大迭代次數
N_neibor:初始近鄰數
'''
    for t in range(T-1):
        com_weight = normalize_weight(com_weight)
        for data in dataSet:
            n , m = getWinner(data , com_weight)
            neibor = getNeibor(n , m , N_neibor , com_weight)
            for x in neibor:
                j_n=x[0];j_m=x[1];N=x[2]
                #權值調整
                com_weight[j_n][j_m] = com_weight[j_n][j_m] + eta(t,N)*(data - com_weight[j_n][j_m])
            N_neibor = N_neibor+1-(t+1)/200
    res = {}
    N , M , _ =shape(com_weight)
    for i in range(len(dataSet)):
        n, m = getWinner(dataSet[i], com_weight)
        key = n*M + m
        if res.has_key(key):
            res[key].append(i)
        else:
            res[key] = []
            res[key].append(i)
    return res

#SOM演算法主方法
def SOM(dataSet,com_n,com_m,T,N_neibor):
    dataSet, old_dataSet = normalize(dataSet)
    com_weight = initCompetition(com_n,com_m,shape(dataSet)[1])
    C_res = do_som(dataSet, com_weight, T, N_neibor)
    draw(C_res, dataSet)
    draw(C_res, old_dataSet)

結果測試

測試資料（來源於西瓜書）

0.697,0.46
0.774,0.376
0.634,0.264
0.608,0.318
0.556,0.215
0.403,0.237
0.481,0.149
0.437,0.211
0.666,0.091
0.243,0.267
0.245,0.057
0.343,0.099
0.639,0.161
0.657,0.198
0.36,0.37
0.593,0.042
0.719,0.103
0.359,0.188
0.339,0.241
0.282,0.257
0.748,0.232
0.714,0.346
0.483,0.312
0.478,0.437
0.525,0.369
0.751,0.489
0.532,0.472
0.473,0.376
0.725,0.445
0.446,0.459

畫圖方法

def draw(C , dataSet):
    color = ['r', 'y', 'g', 'b', 'c', 'k', 'm' , 'd']
    count = 0
    for i in C.keys():
        X = []
        Y = []
        datas = C[i]
        for j in range(len(datas)):
            X.append(dataSet[datas[j]][0])
            Y.append(dataSet[datas[j]][1])
        plt.scatter(X, Y, marker='o', color=color[count % len(color)], label=i)
        count += 1
    plt.legend(loc='upper right')
    plt.show()

測試程式碼及方法引數

#資料處理的方法可以參見上一篇部落格——DBSCAN演算法
dataSet = loadDataSet("dataSet.txt")
SOM(dataSet,2,2,4,2)

聚類結果

按照歸一化的資料繪製的聚類結果

這裡寫圖片描述

按照原資料繪製的聚類結果

這裡寫圖片描述

機器學習實戰——python實現SOM神經網路聚類演算法

演算法基礎 SOM網路結構輸入層：假設一個輸入樣本為X=[x1,x2,x3,…,xn]，是一個n維向量，則輸入層神經元個數為n個。輸出層（競爭層）：通常輸出層的神經元以矩陣方式排列在二維空間中，每個神經元都有一個權值向量。假設輸出層有m個神經元，則有m

【深度學習】python實現簡單神經網路以及手寫數字識別案例

前言 \quad \qu

【深度學習】Python實現簡單神經網路

Python簡單神經網路環境介紹定義神經網路的框架初始化建立網路節點和連結簡單均勻分佈隨機初始權重正態分佈初始權重編寫查詢函式階段性測試編寫訓練函式

機器學習實戰——python實現簡單的樸素貝葉斯分類器

機器學習實戰——python實現Logistic迴歸

簡介 Logistic迴歸的目的是尋找一個非線性函式Sigmoid的最佳擬合引數，一般使用梯度上升演算法。對於有n個屬性的train資料集(X1,X2,...Xn),我們尋找一組迴歸係數(W0,W1

機器學習總結（十）：常用聚類演算法（Kmeans、密度聚類、層次聚類）及常見問題

任務：將資料集中的樣本劃分成若干個通常不相交的子集。效能度量：類內相似度高，類間相似度低。兩大類：1.有參考標籤，外部指標；2.無參照，內部指標。距離計算：非負性，同一性（與自身距離為0），對稱性

python 實現 AP近鄰傳播聚類演算法(Affinity Propagation)

Affinity Propagation (AP) 聚類是2007年在Science雜誌上提出的一種新的聚類演算法。它根據N個數據點之間的相似度進行聚類,這些相似度可以是對稱的,即兩個資料點互相之間的相似度一樣(如歐氏距離);也可以是不對稱的,即兩個資料點互相之間的相似度不等

機器學習（1）：K-MEANS聚類演算法

一、聚類簡介 1.無監督問題：我們手裡沒有標籤了 2.聚類：相似的東西分到一組 3.難點：如何評估，如何調參二、基本概念： 1.K：要得到簇的個數，需要指定K 2.質心：均值，即向量各維取平均 3.距離的度量：常用歐幾里得距離和餘弦相似度（先標準化） 4.優化目標（1）Ci代表

python實現簡單的kmeans聚類演算法

問題描述：一堆二維資料，用kmeans演算法對其進行聚類，下面例子以分k=3為例。原資料： 1.5,3.1 2.2,2.9 3,4 2,1 15,25 43,13 32,42 0,0 8,9 12,5 9,12 11,8 22,33 24,25 實現程式碼： #codin

《機器學習實戰》基於樸素貝葉斯分類演算法構建文字分類器的Python實現

Python程式碼實現：#encoding:utf-8 from numpy import * #詞表到向量的轉換函式 def loadDataSet(): postingList = [['my','dog','has','flea','problems','help','please'],

機器學習：利用卷積神經網路實現影象風格遷移 (一)

相信很多人都對之前大名鼎鼎的 Prisma 早有耳聞，Prisma 能夠將一張普通的影象轉換成各種藝術風格的影象，今天，我們將要介紹一下Prisma 這款軟體背後的演算法原理。就是發表於 2016 CVPR 一篇文章， “ Image Style Transf

機器學習之簡單三層神經網路實現

import numpy as np #本專案實現簡單神經網路模型 #非線性函式 #前向傳播：直接返回sigmoid啟用函式 #反向傳播：對sigmoid函式求倒數,即x*(1-x) def nonlin(x,deriv=False): if (der

機器學習：Python實現聚類算法(三)之總結

.fig ask class ted ssi 缺點處理 blob ron 考慮到學習知識的順序及效率問題，所以後續的幾種聚類方法不再詳細講解原理，也不再寫python實現的源代碼，只介紹下算法的基本思路，使大家對每種算法有個直觀的印象，從而可以更好的理解函數中

機器學習筆記（參考吳恩達機器學習視訊筆記）08_神經網路的學習

8 神經網路的學習 8.1 神經網路的代價函式神經網路的訓練樣本有m個，每個包含一組輸入x和一組輸出訊號y，L表示神經網路層數，表示每層的neuron個數（表示輸出層神經元個數），代表最後一層中處理單元的個數。將神經網路的分類定義為兩種情況：二類分類和多類分類。二類分類：=

機器學習筆記（參考吳恩達機器學習視訊筆記）07_神經網路介紹

7 神經網路介紹當特徵太多時，無論是線性迴歸還是邏輯迴歸模型計算的負荷會非常大。這時需要神經網路。神經網路是一種很古老的演算法，它最初產生的目的是製造能模擬大腦的機器。神經網路是計算量有些偏大的演算法。然而大概由於近些年計算機的執行速度變快，才足以真正執行起大規模的神經網路。類似於神

機器學習實戰python例項

Machine-Learning-With-Python https://github.com/Thinkgamer/Machine-Learning-With-Python 此專案是我在學習《機器學習實戰》這本書時的程式碼記錄情況，用python實現，當然也會包括一些其他的機

機器學習筆記（六）神經網路引入及多分類問題實踐

一、神經網路引入我們將從計算機視覺直觀的問題入手，提出引入非線性分類器的必要性。首先，我們希望計算機能夠識別圖片中的車。顯然，這個問題對於計算機來說是很困難的，因為它只能看到畫素點的數值。應用機器學習，我們需要做的就是提供大量帶標籤的圖片作為訓練集，有的圖片是一輛車，有的圖片不是一輛車，最終我們

使用python實現深度神經網路 1

深度學習基本概念一、實驗介紹 1.1 實驗內容深度學習並沒有你想象的那麼難，本課程將會一邊講解深度學習中的基本理論，一邊通過動手使用python實現一個簡單的深度神經網路去驗證這些理論，讓你從原理上真正入門深度學習。本次實驗將會帶大家學習深度學習中的一些最基本的概念，本次實驗很重要，理解這

吳恩達機器學習筆記（5）—— 神經網路

本教程將教大家如何快速簡單的搭起一個自己的部落格，並不會系統的教會你如何建站，但是可以讓掌握建站的基礎對以後web學習有一定的幫助。購買一個域名域名就相當於地址，我們就是通過域名來訪問我們的網站，現在萬網和騰訊雲都有廉價域名賣，首年大概1-5元一年吧。

使用python實現深度神經網路 3

快速計算梯度的魔法--反向傳播演算法一、實驗介紹1.1 實驗內容第一次實驗最後我們說了，我們已經學習了深度學習中的模型model（神經網路）、衡量模型效能的損失函式和使損失函式減小的學習演算法learn（梯度下降演算法），還了解了訓練資料data的一些概念。但是還沒有解決梯度下降演算法中如何求損失函式梯度的問

機器學習實戰——python實現SOM神經網路聚類演算法

演算法基礎

SOM網路結構

演算法流程

演算法實現

結果測試

測試資料（來源於西瓜書）

畫圖方法

測試程式碼及方法引數

聚類結果

相關推薦