聚類演算法（K-means + Fuzzy C-means + Hierarchical + Mixture of Gaussians）---第一部分：簡介

阿新 • • 發佈：2019-01-19

前言

什麼是聚類？聚類可以被認為是最重要的無監督學習問題; 所以，像這樣的其他問題一樣，它涉及在未標記資料的集合中找到一個結構。聚類的簡單定義可能是“將物件組織成某些成員相似的組的過程”。因此，"cluster"是它們之間“相似”的物件的集合，並且與屬於其他"cluster"的物件“不相似”。我們可以用簡單的圖示來顯示它：

在這種情況下，我們可以輕鬆識別資料可以劃分為4個簇; 相似性標準是距離：如果兩個或更多個物件屬於相同的cluster，則它們根據給定的距離（在這種情況下是幾何距離）是“接近”的。這被稱為基於距離的聚類。
另一種聚類是概念聚類：如果這個物件定義了所有物件共有的概念，則兩個或多個物件屬於同一個cluster

。換句話說，物件根據它們對描述性概念的適應性分組，而不是根據簡單的相似性度量。

補充：

將資料分成多個類別，在同一個類內，物件（實體）之間具有較高的相似性，不同類物件間差異性較大。
–對一批沒有類別標籤的樣本集，按照樣本之間的相似程度分類，相似的歸為一類，不相似的歸為其它類。這種分類稱為聚類分析，也稱為無監督分類。
–聚類的質量(或結果)取決於對度量標準的選擇。
–聚類結果因不同任務而不同。

聚類的目標：

聚類的目的是確定一組未標記資料的內在分組，但是如何決定什麼構成好的聚類？可以看出，沒有絕對的“最佳”標準獨立於聚類的最終目標。因此，使用者必須提供這個標準，使得聚類的結果能滿足他們的需要。

可能的應用：

聚類演算法可以應用於許多領域，例如：

營銷：找到具有相似行為的客戶群體，提供包含其屬性和過去購買記錄的大量客戶資料資料庫;
生物學：賦予植物和動物特徵的分類;
圖書館：書籍訂購;
保險：確定平均索賠成本高的汽車保險單位群體; 識別欺詐
城市規劃：根據房屋型別，價值和地理位置確定房屋群;
地震研究：聚類觀測地震震中識別危險區域;
WWW：檔案分類; 將網路日誌資料聚類以發現類似訪問模式的組。

聚類的要求：

可擴充套件性
處理不同型別的屬性;
發現任意形狀的cluster;
域知識的最小要求確定輸入引數;
處理噪音和異常值的能力;
輸入記錄排序不敏感;

高維度
可解釋性和可用性。

存在的問題：

當前的聚類技術不能充分（併發）滿足所有的要求;
處理大量的維數和大量的資料項可能會因為時間複雜而有問題;
該方法的有效性取決於“距離”的定義（用於基於距離的聚類）;
如果不存在明顯的距離度量，我們必須“定義”它，這並不總是容易的，特別是在多維空間中;
聚類演算法的結果（在許多情況下可以是任意的）可以用不同的方式來解釋。

聚類演算法介紹

距離與相似性度量

聚類演算法的一個重要組成部分是資料點之間的距離測量。如果資料例項向量的元件都處於相同的物理單元中，那麼簡單的歐幾里得距離度量就足以成功地組合類似的資料例項。然而，即使在這種情況下，歐幾里得距離有時也會產生誤導。下圖顯示了一個物件的寬度和高度測量示例。儘管在相同的物理單位中進行了兩次測量，但是必須對相對比例做出明智的決定。如圖所示，不同的縮放可能導致不同的聚類。

補充：

距離的定義:

設有 d 維空間的三個樣本x，y 和 z，記 d(. , .)為一個 R^d × R^d →R的對映，如滿足如下幾個條件則稱d(. , .)為一個距離:
•d(x, y) ≥ 0 非負性
•d(x, x) = 0 自相似性
•d(x, y) = d(y, x) 對稱性
•d(x, y) ≤ d(x, z) + d(z, y) 三角不等式
–距離可以描述對點間的相異程度，距離越大，兩個點越不相似；距離越小，兩個點越相似。

閔可夫斯基度量

對於更高維尺寸的資料，流行的做法是閔可夫斯基度量，

其中d是資料的維數。可以看出歐幾里德距離是一個特殊情況，其中p = 2，而曼哈頓度量（城區距離）具有p = 1。常見的距離還有：

切比雪夫距離：

Mahalanobis (馬氏)距離，其中，M是半正定矩陣。M為單位矩陣時，退化為歐氏距離度量。M為對角矩陣時，退化為特徵加權歐氏距離

相似性

然而，對於任何給定的應用來說，選擇一個度量沒有一般的理論指導。

通常情況下，資料特徵向量的元件不能立即比較。可能原因是，元件不是連續變數，如長度，而是名義類別，例如一週中的幾天。在這些情況下，必須使用領域知識來制定適當的措施。

Reference:

1. http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/index.html

2. 《pattern classification》

3. 《pattern recongnition and machine learning》

聚類演算法（K-means + Fuzzy C-means + Hierarchical + Mixture of Gaussians）---第一部分：簡介

前言

聚類的目標：

可能的應用：

聚類的要求：

存在的問題：

聚類演算法介紹

分類

距離與相似性度量

閔可夫斯基度量

相似性

聚類演算法（K-means + Fuzzy C-means + Hierarchical + Mixture of Gaussians）---第一部分：簡介

機器學習（二）——K均值聚類演算法（K-means）

鳶尾花三種聚類演算法（K-means,AGNES,DBScan）的python實現

幾種計算機視覺中常用的聚類演算法（K-means, Agglomerative clustering, Mean shift, Spectral clustering）

K-中心點聚類演算法（K-Medoide）

吳恩達老師機器學習筆記K-means聚類演算法（二）

吳恩達老師機器學習筆記K-means聚類演算法（一）

聚類演算法（一）—— k-means演算法以及其改進演算法

聚類演算法（一）：k-均值 (k-means)演算法

機器學習實戰（Machine Learning in Action）學習筆記————06.k-均值聚類演算法（kMeans）學習筆記

用Python開始機器學習（10：聚類演算法之K均值）

深入淺出聚類演算法之k-means演算法

高斯混合模型聚類演算法和K-Means聚類演算法

聚類演算法之K-means演算法與聚類演算法衡量指標

聚類演算法之K-means演算法

基於R語言的聚類分析（k-means,層次聚類）

聚類演算法（1）

聚類演算法（二）

時間序列聚類演算法-《k-Shape: Efficient and Accurate Clustering of Time Series》解讀

使用Matlab完成層次聚類演算法（最小生成樹演算法）

聚類演算法（K-means + Fuzzy C-means + Hierarchical + Mixture of Gaussians）---第一部分：簡介

前言

聚類的目標：

可能的應用：

聚類的要求：

存在的問題：

聚類演算法介紹

分類

距離與相似性度量

閔可夫斯基度量

相似性

相關推薦