1. 程式人生 > >論文筆記之聚類演算法Clustering by propagating probabilities between data points

論文筆記之聚類演算法Clustering by propagating probabilities between data points

聚類在資料探勘中佔有重要地位,聚類即是將一系列資料點劃分成一個個簇,將擁有同樣特性的資料點判為同一個簇內,以此來做進一步的分析。目前最基礎的、運用最廣泛的聚類演算法當數K均值演算法,初始(隨機)選定K箇中心點,計算每個點到這K箇中心點的距離,將其劃分進距離最近的中心點的簇內。根據簇內點的平均值來更新簇的中心點,再根據新的中心點劃分簇。不斷迭代,直到中心點不再變化。K均值演算法的優點是運算方法十分簡單明瞭,計算簡單,但它同樣存在缺點,K均值演算法對初始點十分敏感,初始點的選擇會影響到聚類的結果和收斂速度。另外,K均值演算法只能聚類出球型簇。
對K均值演算法的優化有很多方式,AP(Affinity Propagation 近鄰傳播)演算法就是其中一種,它可以避免初始值敏感的問題,但計算規則十分複雜。而這篇論文中提出了一個新的聚類演算法,作者稱其為PP演算法,“probability propagation”,概率傳播演算法。這個新演算法與AP演算法相比,計算規則更簡潔,並且可以識別出非球形的簇。
這種演算法其實是在不斷計算點i選擇點j作為中心點的概率,當概率矩陣w穩定後,概率最大的j即為i的中心點。所以PP演算法的核心就是計算初始的w矩陣和確定迭代公式。

初始概率矩陣w0:

– 在初始化w之前,我們需要計算每個點的區域性密度V(y) :
Alt text其中D(x,y)是點x到點y的距離,K是一個核函式,引數delta是使用者預先設定的,N(y)是與點y距離不大於delta的所有點的集合。初始的矩陣w0正比於區域性密度:

Alt text
通過預定引數s來限定中心點的個數,從而控制簇的形狀:

Alt text
這是修改後的初始概率矩陣

迭代公式:

初始的w矩陣蘊含著兩點直連的資訊,為了能劃分出任意形狀的簇,我們還應該考慮兩點之間距離很遠但中間存在許多點將其連線的情況,因此我們需要通過第三個點來重新計算兩點之間的概率:

Alt text

相關推薦

論文筆記演算法Clustering by propagating probabilities between data points

聚類在資料探勘中佔有重要地位,聚類即是將一系列資料點劃分成一個個簇,將擁有同樣特性的資料點判為同一個簇內,以此來做進一步的分析。目前最基礎的、運用最廣泛的聚類演算法當數K均值演算法,初始(隨機)選定K箇中心點,計算每個點到這K箇中心點的距離,將其劃分進距離最近的

基於密度的演算法(Clustering by fast search and find of density peaksd)

一、概述 “Clustering by fast search and find of density peaks”(下面簡稱CFDP)是在《Science》期刊上發表的的一篇論文,論文中提出了一種非常巧妙的聚類演算法-基於密度的聚類演算法。雖然文章出來後遭到

【機器學習】筆記Cluster—— 層次 Hierarchical clustering

什麼是層次聚類Hierarchical clustering? 平面聚類是高效且概念上簡單的,但它有許多缺點。 演算法返回平坦的非結構化簇集合,需要預先指定的簇數目作為輸入並且這個數目是不確定的。 分層聚類(或分層聚類)輸出層次結構,這種結構比平面聚類返回的非結構化聚類

吳恩達機器學習演算法的引數選擇以及優化

對於K(k<樣本量的)均值聚類,一般引數的自定義主要有兩個,一個是聚類中心初始位置的選擇,二是K值的選擇 優化目標:每個樣本點到該點聚類中心的平方的累加 解決聚類中心的初始化問題: 隨機挑選樣本點作為聚類中心,這個過程重複50-1000次,選出J值最低的(通常K值為2-10的時候

機器學習演算法(層次

層次聚類也叫連通聚類方法,有兩個基本方法:自頂而下和自底而上。自頂而將所有樣本看做是同一簇,然後進行分裂。自底而上將初所有樣本看做不同的簇,然後進行凝聚。這種聚類的中心思想是:離觀測點較近的點相比離觀測點較遠的點更可能是一類。 這種方法首先會生成下面的樹

影象分割演算法

常見的聚類演算法有:kmeans、fuzzy c-means、EM、hierarchical clustering、graph theoretic、self organizing map 參考文章:A Review on Image Segmentation Cluster

Mahout機器學習平臺演算法詳細剖析(含例項分析)

第一部分: 學習Mahout必須要知道的資料查詢技能: 學會查官方幫助文件: 解壓用於安裝檔案(mahout-distribution-0.6.tar.gz),找到如下位置,我將該檔案解壓到win7的G盤mahout資料夾下,路徑如下所示: G:\mahout\mahout

大資料分析演算法

資料分析之聚類演算法 1. 什麼是聚類演算法 所謂聚類,就是比如給定一些元素或者物件,分散儲存在資料庫中,然後根據我們感興趣的物件屬性,對其進行聚集,同類的物件之間相似度高,不同類之間差異較大。最

MLClustering演算法:普演算法的相關論文、主要思路、關鍵步驟、程式碼實現等相關配圖詳細攻略

ML之Clustering之普聚類演算法:普聚類演算法的相關論文、主要思路、關鍵步驟、程式碼實現等相關配圖之詳細攻略   普聚類演算法的相關論文 1、論文推薦 Clustering by fast search and find of density peak.

MATLAB學習路(一) 實現簡單的基於歐式距離的新型演算法Clustering by fast search and find of density peaksd)

大學本科三年,眨眼而已,對於一個考研黨來說,本科時間已所剩不多,大三上學期初次接觸到MATLAB。的確如大牛們所說,強大的計算能力,充足的數學工具,帶來使用者極大的便利。 在大資料的學習過程中,MAT

機器學習筆記(7)——演算法

對於監督學習,訓練資料都是事先已知預測結果的,即訓練資料中已提供了資料的類標。無監督學習則是在事先不知道正確結果(即無類標資訊或預期輸出值)的情況下,發現數據本身所蘊含的結構等資訊。 無監督學習通過對無標記訓練樣本的學習來尋找這些資料的內在性質。 聚類的目標是發現數據中自然形成的分組,使得每

【看論文《西紅柿果實目標識別方法研究-基於模糊演算法_王富春》

論文資訊 題目:西紅柿果實目標識別方法研究-基於模糊聚類演算法 論文作者:王富春等 作者單位:柳州職業技術學院 期刊:農機化研究 提交時間:2014-10-20 摘要 為識別成熟的西紅柿目標,提出了一種“模糊C-均值聚類演算法(Fuzzy Clustering Mea

《機器學習實戰》筆記十——利用K均值演算法對未標註資料分組

第十章 利用K均值聚類演算法對未標註資料分組 10.1 K-均值聚類演算法 K-均值是發現給定資料集的k個簇的演算法,每個簇通過其質心來描述。其優點為容易實現,但可能收斂到區域性最小值,在大規模資料集上收斂較慢。 隨機確定k個初始點為質心,為每個點找距其最近的質心,並將

Andrew Ng機器學習課程筆記(十二)無監督學習K-means演算法

Preface Unsupervised Learning(無監督學習) K-means聚類演算法 Unsupervised Learning 我們以前介紹的所有演算法都是基於有類別標籤的資料集,當我們對於沒有標籤的資料進行分類時,以前的方

王小草【機器學習】筆記--無監督演算法

標籤(空格分隔): 王小草機器學習筆記 1. 聚類的概述 存在大量未標註的資料集,即只有特徵,沒有標籤的資料。 根據這些特徵資料計算樣本點之間的相似性。 根據相似性將資料劃分到多個類別中。 使得,同一個類別內的資料相似度大,類別之間的資料相似度小。

【再回首Python美】【矩陣】求矩陣中最大元素/最小元素的行列座標 For 層次演算法Hierarchical Clustering Alg

求多維矩陣中最小元素的行列座標,這個在層次聚類演算法中用到,這裡實現記錄一下。1.簡介矩陣M: [[1 3 2] [2 6 0] [9 8 5]]最大元素是9,對應的行列座標為(2,0)最小元素是

非監督學習k-means演算法——Andrew Ng機器學習筆記(九)

寫在前面的話 在聚類問題中,我們給定一個訓練集,演算法根據某種策略將訓練集分成若干類。在監督式學習中,訓練集中每一個數據都有一個標籤,但是在分類問題中沒有,所以類似的我們可以將聚類演算法稱之為非監督式學習演算法。這兩種演算法最大的區別還在於:監督式學習有正確答

【神經網路】自編碼演算法--DEC (Deep Embedded Clustering)

1.演算法描述      最近在做AutoEncoder的一些探索,看到2016年的一篇論文,雖然不是最新的,但是思路和方法值得學習。論文原文連結 http://proceedings.mlr.press/v48/xieb16.pdf,論文有感於t-SNE演算法的t-

演算法DBSCAN演算法二:高維資料剪枝應用NQ-DBSCAN

一、經典DBSCAN的不足 1.由於“維度災難”問題,應用高維資料效果不佳 2.執行時間在尋找每個點的最近鄰和密度計算,複雜度是O(n2)。當d>=3時,由於BCP等數學問題出現,時間複雜度會急劇上升到Ω(n的四分之三次方)。 二、DBSCAN在高維資料的改進 目前的研究有

演算法DBSCAN演算法之一:經典DBSCAN

DBSCAN是基於密度空間的聚類演算法,與KMeans演算法不同,它不需要確定聚類的數量,而是基於資料推測聚類的數目,它能夠針對任意形狀產生聚類。 1.epsilon-neighborhood epsoiln-neighborhood(簡稱e-nbhd)可理解為密度空間,表示半徑為e