用Python進行無監督學習的幾種最熱門的聚類演算法

阿新 • • 發佈：2019-01-07

無監督學習是機器學習技術中的一類，用於發現數據中的模式。本文介紹用Python進行無監督學習的幾種聚類演算法，包括K-Means聚類、分層聚類、t-SNE聚類、DBSCAN聚類等。

無監督學習是機器學習技術中的一類，用於發現數據中的模式。無監督演算法的資料沒有標註，這意味著只提供輸入變數（X），沒有相應的輸出變數。在無監督學習中，演算法自己去發現數據中有意義的結構。

Facebook首席AI科學家Yan Lecun解釋說，無監督學習——即教機器自己學習，不需要明確地告訴它們所做的每一件事情是對還是錯，是“真正的”AI的關鍵。

更多Python視訊、原始碼、資料加群960410445免費獲取

監督學習 VS 無監督學習

在監督學習中，系統試圖從之前給出的例子中學習。反之，在無監督學習中，系統試圖從給出的例子中直接找到模式。因此，如果資料集有標記，那麼它是有監督問題，如果資料集無標記，那麼它是一個無監督問題。

用Python進行無監督學習的幾種最熱門的聚類演算法

如上圖，左邊是監督學習的例子; 我們使用迴歸技術來尋找特徵之間的最佳擬合線。而在無監督學習中，輸入是基於特徵分離的，預測則取決於它屬於哪個聚類（cluster）。

重要術語

特徵（Feature）：用於進行預測的輸入變數。
預測（Predictions）：當提供一個輸入示例時，模型的輸出。
示例（Example）

：資料集的一行。一個示例包含一個或多個特徵，可能有標籤。
標籤（Label）：特徵的結果。

為無監督學習做準備

在本文中，我們使用Iris資料集（鳶尾花卉資料集）來進行我們的第一次預測。該資料集包含150條記錄的一組資料，有5個屬性——花瓣長度，花瓣寬度，萼片長度，萼片寬度和類別。三個類別分別是Iris Setosa（山鳶尾），Iris Virginica（維吉尼亞鳶尾）和Iris Versicolor（變色鳶尾）。對於我們的無監督演算法，我們給出鳶尾花的這四個特徵，並預測它屬於哪一類。我們在Python中使用sklearn Library來載入Iris資料集，並使用matplotlib來進行資料視覺化。以下是程式碼片段。

用Python進行無監督學習的幾種最熱門的聚類演算法

紫羅蘭色：山鳶尾，綠色：維吉尼亞鳶尾，黃色：變色鳶尾

聚類（Clustering）

在聚類中，資料被分成幾個組。簡單地說，其目的是將具有相似特徵的組分開，並將它們組成聚類。

視覺化示例：

用Python進行無監督學習的幾種最熱門的聚類演算法

在上圖中，左邊的影象是未完成分類的原始資料，右邊的影象是聚類的（根據資料的特徵對資料進行分類）。當給出要預測的輸入時，就會根據它的特徵在它所屬的聚類中進行檢查，並做出預測。

Python中的K-Means聚類

K-Means是一種迭代聚類演算法，它的目的是在每次迭代中找到區域性最大值。首先，選擇所需數量的聚類。由於我們已經知道涉及3個類，因此我們通過將引數“n_clusters”傳遞到K-Means模型中，將資料分組為3個類。

現在，隨機將三個點（輸入）分成三個聚類。基於每個點之間的質心距離，下一個給定的輸入被分為所需的聚類。然後，重新計算所有聚類的質心。

聚類的每個質心是特徵值的集合，定義生成的組。檢查質心特徵權重可以定性地解釋每個聚類代表什麼型別的組。

我們從sklearn庫匯入K-Means模型，擬合特徵並進行預測。

Python中的K Means實現：

用Python進行無監督學習的幾種最熱門的聚類演算法

分層聚類

顧名思義，分層聚類是一種構建聚類層次結構的演算法。該演算法從分配給它們自己的一個cluster的所有資料開始，然後將最近的兩個cluster加入同一個cluster。最後，當只剩下一個cluster時，演算法結束。

分層聚類的完成可以使用樹狀圖來表示。下面是一個分層聚類的例子。資料集可以在這裡找到：https://raw.githubusercontent.com/vihar/unsupervised-learning-with-python/master/seeds-less-rows.csv

Python中的分層聚類實現：

用Python進行無監督學習的幾種最熱門的聚類演算法

K Means聚類與分層聚類的區別

分層聚類不能很好地處理大資料，但K Means聚類可以。因為K Means的時間複雜度是線性的，即O（n），而分層聚類的時間複雜度是二次的，即O（n2）。
在K Means聚類中，當我們從聚類的任意選擇開始時，多次執行演算法產生的結果可能會有所不同。不過結果可以在分層聚類中重現。
當聚類的形狀是超球形時（如2D中的圓形，3D中的球形），K Means聚類更好。
K-Means聚類不允許嘈雜的資料，而在分層聚類中，可以直接使用嘈雜的資料集進行聚類。

t-SNE聚類

t-SNE聚類是用於視覺化的無監督學習方法之一。t-SNE表示t分佈的隨機近鄰嵌入。它將高維空間對映到可以視覺化的2或3維空間。

具體而言，它通過二維點或三維點對每個高維物件進行建模，使得相似的物件由附近的點建模，而不相似的物件很大概率由遠離的點建模。

Python中的t-SNE聚類實現，資料集是Iris資料集：

用Python進行無監督學習的幾種最熱門的聚類演算法

這裡Iris資料集具有四個特徵（4d），它被變換並以二維圖形表示。類似地，t-SNE模型可以應用於具有n個特徵的資料集。

DBSCAN聚類

DBSCAN（Density-Based Spatial Clustering of Applications with Noise，具有噪聲的基於密度的聚類方法）是一種流行的聚類演算法，用作預測分析中 K-means的替代。它不要求輸入聚類的數值才能執行。但作為交換，你必須調整其他兩個引數。

scikit-learn實現提供了eps和min_samples引數的預設值，但這些引數通常需要調整。eps引數是在同一鄰域中考慮的兩個資料點之間的最大距離。min_samples引數是被認為是聚類的鄰域中的資料點的最小量。

Python中的DBSCAN聚類：

用Python進行無監督學習的幾種最熱門的聚類演算法

更多無監督技術：

主成分分析（PCA）
異常檢測（Anomaly detection）
自動編碼（Autoencoders）
深度置信網路（Deep Belief Nets）
Hebbian Learning
生成對抗網路（GAN）
自組織對映（Self-Organizing maps）

用Python進行無監督學習的幾種最熱門的聚類演算法

監督學習 VS 無監督學習

為無監督學習做準備

聚類（Clustering）

Python中的K-Means聚類

Python中的K Means實現：

分層聚類

K Means聚類與分層聚類的區別

t-SNE聚類

Python中的t-SNE聚類實現，資料集是Iris資料集：

DBSCAN聚類

Python中的DBSCAN聚類：

更多無監督技術：

用Python進行無監督學習的幾種最熱門的聚類演算法

【無監督學習】5：譜聚類演算法原理介紹

【無監督學習】2：DBSCAN聚類演算法原理

機器學習——監督學習幾種經典模型特點

（轉）用Python讀寫Excel檔案&&幾種模組比較

用PYTHON進行字串提取的兩種方法

Andrew Ng機器學習課程筆記（十六）之無監督學習之因子分析模型與EM演算法

【機器學習】：Kmeans均值聚類演算法原理(附帶Python程式碼實現)

機器學習實戰（Machine Learning in Action）學習筆記————06.k-均值聚類演算法（kMeans）學習筆記

吳恩達機器學習筆記八 K-means聚類演算法

《機器學習實戰》KMeans均值聚類演算法

MatLab建模學習筆記14——K-Means聚類演算法

機器學習學習筆記第二十章聚類演算法-DBSCAN

機器學習筆記（九）聚類演算法及實踐（K-Means,DBSCAN,DPEAK,Spectral_Clustering）

機器學習(25)之K-Means聚類演算法詳解

《機器學習實戰》學習筆記———利用K-均值聚類演算法對未標註資料分組

用python進行微信公眾號開發（僅測試學習）

無監督學習算法-Apriori進行關聯分析

機器學習之用Python進行邏輯迴歸分析

用Python 進行深度學習

用Python進行無監督學習的幾種最熱門的聚類演算法

監督學習 VS 無監督學習

為無監督學習做準備

聚類（Clustering）

Python中的K-Means聚類

Python中的K Means實現：

分層聚類

K Means聚類與分層聚類的區別

t-SNE聚類

Python中的t-SNE聚類實現，資料集是Iris資料集：

DBSCAN聚類

Python中的DBSCAN聚類：

更多無監督技術：

相關推薦