機器學習-*-MeanShift聚類演算法及程式碼實現

阿新 • • 發佈：2018-11-29

MeanShift

該演算法也叫做均值漂移，在目標追蹤中應用廣泛。本身其實是一種基於密度的聚類演算法。
主要思路是：計算某一點A與其周圍半徑R內的向量距離的平均值M，計算出該點下一步漂移（移動）的方向（A=M+A）。當該點不再移動時，其與周圍點形成一個類簇，計算這個類簇與歷史類簇的距離，滿足小於閾值D即合併為同一個類簇，不滿足則自身形成一個類簇。直到所有的資料點選取完畢。

一般形式

對於給定的 n 維空間 $R^{n}$

R^n

R^{n}

中的 m 個樣本點

X^i

，i=1…m，對於其中一個樣本X，他的均值漂移向量為：

M_h(X)=\frac{1}{K}*\sum_{X^i\in S_h}(X^i-X)

，其中

S_h

指的是一個半徑為h的球狀領域，定義為

S_h(X)=\{y|(y-x)(y-x)^T \le h^2\}

，如下圖所示

藍色圈內表示半徑h的區域

S_h

，黃色箭頭尾部指的是計算前的資料點

X

，箭頭本身是指的計算後的漂移向量

M_h (X)

。由上圖可以看出，均值漂移會不斷的往密度較大的區域移動。熟悉的同學可能瞭解到，一般用的均值漂移都是經過核函式改進的，那為什麼要引入核函式呢？
首先，我們再看一下上圖和公式：藍色圈區域內，每一個與

X

相鄰的

X^i

在計算過程中對均值漂移向量的貢獻都是一樣的，不以這個點與X的距離遠近而變化。按照我們人類的思想，近朱者赤近墨者黑，離得中心點越近，受影響/反影響的力度就會越大。比如，都是程式設計師，但是三線城市程式設計師和北京程式設計師在知識廣度、能力、成長速度等方面都有較大差距，畢竟北京是網際網路行業的中心城市嘛。應用到演算法裡也是一樣的，因此就有人提出鄰域內的點需要設定不同的權重來進行漂移計算，故提出了核函式的概念

核函式形式

設 $\Psi$ 是輸入空間，是實數空間的一個子集。設 $H$ 為希爾伯特空間（完備的空間，抽象意義上對有限維歐式空間的擴充套件），設存在一個對映: $\Theta(X):\Psi \to H$ ，此時有函式 $K(X_1,X_2)=\Theta(X_1)\cdot\Theta(X_2)$ ，其中 $X_1,X_2\in\Psi,K(X_1,X_2)稱為核函式，\cdot是內積運算$ 。關於希爾伯特空間和核函式的概念，本人瞭解的也不深，歡迎探討。
高斯核函式是一種應用廣泛的核函式: $K\{\frac{X_1-X_2}{h}\}=\frac{1}{h*\sqrt{2\pi}}*\exp^{-\frac{(X_1-X_2)^2}{2h^2}}$
其中h為bandwidth 頻寬，不同頻寬的核函式形式也不一樣
在這裡插入圖片描述
由上圖可以看到，橫座標指的是兩變數之間的距離。距離越近（接近於0）則函式值越大，否則越小。h越大，相同距離的情況下函式值會越小。因此我們可以選取適當的h值，得到滿足上述要求的那種權重（兩變數距離越近，得到權重越大），故經過核函式改進後的均值漂移為：
$M_h(X)=\frac{\sum_{X^i\in S_h}[K\{\frac{X^i-X}{h}\}*(X^i-X)]}{\sum_{X^i\in S_h}[K\{\frac{X^i-X}{h}\}]}$
其中 $K\{\frac{X^i-X}{h}\}$ 就是高斯核函式
看到其他的文章說，經過核函式改進後的均值漂移，經過證明（求導），會朝著概率密度上升的區域移動。
上程式碼及實驗結果：

Python程式碼


class MeanShift(object):
    """
    均值漂移聚類-基於密度
    """
    def __init__(self,radius = 0.5,distance_between_groups = 2.5,bandwidth = 1,use_gk = True):
        self._radius = radius
        self._groups = []
        self._bandwidth = bandwidth
        self._distance_between_groups = distance_between_groups
        self._use_gk = use_gk #是否啟用高斯核函式

    def _find_nearst_indexes(self,xi,XX):
        if XX.shape[0] == 0:
            return []
        distances= eculide(xi,XX)
        nearst_indexes = np.where(distances <= self._distance_between_groups)[0].tolist()
        return nearst_indexes

    def _compute_mean_vector(self,xi,datas):
        distances = datas-xi
        if self._use_gk:
            sum1 = self.gaussian_kernel(distances)
            sum2 = sum1*(distances)
            mean_vector = np.sum(sum2,axis=0)/np.sum(sum1,axis=0)
        else:
            mean_vector = np.sum(datas - xi, axis=0) / datas.shape[0]
        return mean_vector

    def fit(self,X):
        XX = X
        while(XX.shape[0]!=0):
            # 1.從原始資料選取一箇中心點及其半徑周邊的點 進行漂移運算
            index = np.random.randint(0,XX.shape[0],1).squeeze()
            group = Group()
            xi = XX[index]
            XX = np.delete(XX,index,axis=0) # 刪除XX中的一行並重新賦值
            nearest_indexes = self._find_nearst_indexes(xi, XX)
            nearest_datas = None
            mean_vector = None
            if len(nearest_indexes) != 0:
                nearest_datas = None
                # 2.不斷進行漂移，中心點達到穩定值
                epos = 1.0
                while (True):
                    nearest_datas = XX[nearest_indexes]
                    mean_vector = self._compute_mean_vector(xi,nearest_datas)
                    xi = mean_vector + xi
                    nearest_indexes = self._find_nearst_indexes(xi, XX)
                    epos = np.abs(np.sum(mean_vector))
                    if epos < 0.00001 : break
                    if len(nearest_indexes) == 0 : break
                # 有些部落格說在一次漂移過程中 每個漂移點周邊的點都需要納入該類簇中，我覺得不妥，此處不是這樣實現的，
                # 只把穩定點周邊的資料納入該類簇中
                group.members = nearest_datas.tolist()
                group.center = xi
                XX = np.delete(XX, nearest_indexes, axis=0)
            else:
                group.center = xi
            # 3.與歷史類簇進行距離計算，若小於閾值則加入歷史類簇，並更新類簇中心及成員
            for i in range(len(self._groups)):
                h_group = self._groups[i]
                distance = eculide(h_group.center,group.center)
                if distance <= self._distance_between_groups:
                    h_group.members = group.members
                    h_group.center = (h_group.center+group.center)/2
                else:
                    group.name = len(self._groups) + 1
                    self._groups.append(group)
                    break
            if len(self._groups) == 0:
                group.name = len(self._groups) + 1
                self._groups.append(group)
            # 4.從餘下的點中重複1-3的計算，直到所有資料完成選取

    def plot_example(self):
        figure = plt.figure()
        ax = figure.add_subplot(111)
        ax.set_title("MeanShift Iris Example")
        plt.xlabel("first dim")
        plt.ylabel("third dim")
        legends = []
        cxs = []

 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    機器學習-*-MeanShift聚類演算法及程式碼實現
       
 
  
  
 MeanShift 
 該演算法也叫做均值漂移，在目標追蹤中應用廣泛。本身其實是一種基於密度的聚類演算法。 主要思路是：計算某一點A與其周圍半徑R內的向量距離的平均值M，計算出該點下一步漂移（移動）的方向（A=M+A）。當該點不再移動時，其與周圍點形成一個類簇，計算這個類簇與歷史類簇的距 

  
 

    

    
    機器學習經典聚類演算法 —— k-均值演算法（附python實現程式碼及資料集）
      
    目錄
    
        
        工作原理
        python實現
        演算法實戰
        對mnist資料集進行聚類
        
        小結
        附錄
        
    

工作原理
聚類是一種無監督的學習，它將相似 

  
 

    

    
    機器學習---1.聚類演算法綱領總結
       
 
      近期定了研究生畢設的課題，有種一錘定兩年的趕腳。心裡還是有點方，只好天天催眠自己現在的選擇就是最好的選擇。 
      其中一塊應該會用到聚類演算法，這就需要我對各種種類的適用條件、引數摸清楚了，到時候再選出效果最好的聚類方式。 

  
 

    

    
    吳恩達機器學習之聚類演算法的引數選擇以及優化
       
 
 
 對於K（k<樣本量的）均值聚類，一般引數的自定義主要有兩個，一個是聚類中心初始位置的選擇，二是K值的選擇
 優化目標：每個樣本點到該點聚類中心的平方的累加
 
 解決聚類中心的初始化問題：
 隨機挑選樣本點作為聚類中心，這個過程重複50-1000次，選出J值最低的（通常K值為2-10的時候 

  
 

    

    
    機器學習之聚類演算法（層次聚類）
      
							
							
							層次聚類也叫連通聚類方法，有兩個基本方法：自頂而下和自底而上。自頂而將所有樣本看做是同一簇，然後進行分裂。自底而上將初所有樣本看做不同的簇，然後進行凝聚。這種聚類的中心思想是：離觀測點較近的點相比離觀測點較遠的點更可能是一類。 
這種方法首先會生成下面的樹 

 

  
 

    

    
    【機器學習】聚類演算法：層次聚類
      
                

本文是“漫談 Clustering 系列”中的第 8 篇，參見本系列的其他文章。

系列不小心又拖了好久，其實正兒八經的 blog 也好久沒有寫了，因為比較忙嘛，不過覺得 Hierarchical Clustering 這個話題我能說的東西應該不多，所以還是先寫了吧（我準 

  
 

    

    
    【機器學習】聚類演算法：層次聚類、K-means聚類
      



     所謂聚類，就是將相似的事物聚集在一 起，而將不相似的事物劃分到不同的類別的過程，是資料分析之中十分重要的一種手段。比如古典生物學之中，人們通過物種的形貌特徵將其分門別類，可以說就是 一種樸素的人工聚類。如此，我們就可以將世界上紛繁複雜的資訊，簡化為少數方便人們理解的類別，可以說是人類認知這個 

  
 

    

    
    機器學習_6.隱馬演算法的程式碼實現
       
 
 借鑑：https://github.com/Continue7777/HMM/ 
 依舊基於三個問題進行實現 
 1.評估 
 （1）描述 
 給定觀測序列O（o1,o2,…,oT）和模型u = (π,A,B),求出P（O | u）,即給定模型下觀測序列的概率是多少？ 
 （2）實際演算法 
 不再 

  
 

    

    
    機器學習之logistic迴歸演算法與程式碼實現
                                             Logistic迴歸演算法與程式 

  
 

    

    
    四種聚類方法及程式碼實現。K-means 高斯聚類 密度聚類 均值漂移聚類
      
                四種方法的matlab程式碼實現：連結: https://pan.baidu.com/s/1b6pKH65rYrRcBLnczz-EnA 密碼: 4iag1.K-means聚類：演算法步驟： (1) 首先我們選擇一些類/組，並隨機初始化它們各自的中心點。中心點是與每個資料點向 

  
 

    

    
    kmeans聚類演算法及matlab實現
      
							
							
							一、kmeans聚類演算法介紹：

　　 kmeans演算法是一種經典的無監督機器學習演算法，名列資料探勘十大演算法之一。作為一個非常好用的聚類演算法，kmeans的思想和實現都比較簡單。kmeans的主要思想：把資料劃分到各個區域(簇)，使得資料與區域中心的距 

  
 

    

    
    機器學習-*-DBSCAN聚類及程式碼實現
       
 
  
  
 DBSCAN 
 DBSCAN(Density-Based Spatial Clustering of Applications with Noise，具有噪聲的基於密度的聚類方法) 
 原理 
 首先描述以下幾個概念，假設我們有資料集
     
      
       
     

  
 

    

    
    機器學習筆記（九）聚類演算法及實踐（K-Means,DBSCAN,DPEAK,Spectral_Clustering）
      
								
								            
						
                
這一週學校的事情比較多所以拖了幾天，這回我們來講一講聚類演算法哈。
首先，我們知道，主要的機器學習方法分為監督學習和無監督學習。監督學習主要是指我們已經給出了資料和分類，基於這些我們訓練我們的分類器以 

  
 

    

    
    吳恩達機器學習（十一）K-means（無監督學習、聚類演算法）
      
								
								            
						
                目錄

0. 前言








學習完吳恩達老師機器學習課程的無監督學習，簡單的做個筆記。文中部分描述屬於個人消化後的理解，僅供參考。

如果這篇文章對你有一點小小的幫助，請給個關注喔~我會非常開心 

  
 

    

    
    機器學習演算法及程式碼實現--K鄰近演算法
      
							
							
							機器學習演算法及程式碼實現–K鄰近演算法

1、K鄰近演算法

將標註好類別的訓練樣本對映到X（選取的特徵數）維的座標系之中，同樣將測試樣本對映到X維的座標系之中，選取距離該測試樣本歐氏距離（兩點間距離公式）最近的k個訓練樣本，其中哪個訓練樣本類別佔比最大，我們 

  
 

    

    
    機器學習演算法及程式碼實現--支援向量機
      
							
							
							機器學習演算法及程式碼實現–支援向量機



1、支援向量機

SVM希望通過N-1維的分隔超平面線性分開N維的資料，距離分隔超平面最近的點被叫做支援向量，我們利用SMO（SVM實現方法之一）最大化支援向量到分隔面的距離，這樣當新樣本點進來時，其被分類正確的概率 

  
 

    

    
    斯坦福大學機器學習筆記——聚類（k-均值聚類演算法、損失函式、初始化、聚類數目的選擇）
      
							
							
							上面的部落格的演算法都是有監督學習的演算法，即對於每個資料我們都有該資料對應的標籤，資料集的形式如下： 
 
而今天我們學習的演算法是一種無監督學習的演算法——聚類，該演算法中的每個資料沒有標籤，資料集的形式如下： 


K-均值聚類 
k-均值聚類是一種最常見 

  
 

    

    
    機器學習實戰---k近鄰演算法（程式碼及執行）
      import numpy as np  #匯入numpy
import operator      #運算子模組
#k-近鄰演算法
#計算距離
def classify0(inX,dataSet,labels,k):
    dataSetSize=dataSet.shape[0]   #shape讀取資料矩 

  
 

    

    
    機器學習演算法及程式碼實現--迴歸演算法
      
								
								            
							
							
							機器學習演算法及程式碼實現–迴歸演算法



1 線性迴歸

 線性迴歸假設特徵和結果滿足線性關係。其實線性關係的表達能力非常強大，每個特徵對結果的影響強弱可以由前面的引數體現，而且每個特徵變數可以首先 

  
 

    

    
    機器學習-KMeans聚類 K值以及初始類簇中心點的選取
      src   常用   趨勢   試圖   重復執行   很大的   一個點   3.4   選擇   【轉】http://www.cnblogs.com/kemaswill/archive/2013/01/26/2877434.html
本文主要基於Anand Rajaraman和Jeffrey David