使用Python進行層次聚類（一）——基本使用+主成分分析繪圖觀察結果+繪製熱圖

阿新 • • 發佈：2019-01-12

Python常用資料探勘的工具包

python對於資料處理非常有好的語言，比如常用的scikit-learn和scipy都可以用來進行機器學習和資料探勘。同時為了使得結果視覺化，Python還提供了非常好用的視覺化工具包matplotlib和seaborn。

使用Python進行層次聚類

聚類對於機器學習和資料探勘來說都是一個非常常用的的工具。其中層次聚類又以其顯示效果和可解釋效果好而在資料處理中非常常用，那是其缺點就是所需的
時間複雜度———

O (m^{2} l o g m)

和空間複雜度———

O (m^{2})

比較高，但是對於少量資料來說無疑是最好的選擇。

我們首先用excle的隨機函式RAND()

生成一個隨機資料列表，進行測試，取名為test.xlsx，表格內容如下圖所示：

糟糕：圖片顯示失敗，請通知我，非常感謝！

然後就可以開始寫程式碼了，首先需要匯入要用到的包：

import pandas as pd
import seaborn as sns  #用於繪製熱圖的工具包
from scipy.cluster import hierarchy  #用於進行層次聚類，話層次聚類圖的工具包
from scipy import cluster   
import matplotlib.pyplot as plt
from sklearn import decomposition as skldec #用於主成分分析降維的包

1. 使用pandas裡面的檔案讀取函式進行

pandas工具包是Python語言中專門進行資料結構化儲存和資料分析的工具包，很多其他包都以pandas的結構化資料作為其函式的輸入，因此資料處理的第一步大多使用pandas進行資料結構化儲存，關於excel檔案，pandas就要專門的讀取函式read_excel，根據函式的說明文件，我們寫下如下讀取檔案的程式碼

df = pd.read_excel("test.xlsx")
#df = df.T    #python預設每行是一個樣本，如果資料每列是一個樣本的話，轉置一下即可

這樣裡需要注意，後面使用各種Python的資料探勘或者機器學習演算法包時，預設每一行代表一個樣本，
我生成的excel測試資料滿足這個要求，因此不用改變，如果你讀取的excel資料每一列是一個數據的話
需要先將資料轉置一下，才能進行後面的操作

2. 繪製層次聚類圖

讀取資料後，我們就可以進行層次聚類圖的繪製了，首先進入scipy參考文件頁面，然後找到聚類包Clustering package (scipy.cluster)->層次聚類scipy.cluster.hierarchy，在當前頁面下，就可以看到所有層次聚類相關的函數了，我們找到可以畫圖的函式dendrogram，進入該函式的文件頁面，發現該函式需要傳入的第一個引數是linkage矩陣，這個矩陣需要函式linkage，進入該函式的文件頁面我們看到linkage的說明文件上面的函式scipy.cluster.hierarchy.linkage(y, method='single', metric='euclidean', optimal_ordering=False)，傳入第一個引數是需要進行層次聚類的資料，這裡即可用使用開始讀取的資料變數df，第二個引數代表層次聚類選用的方法，底下羅列了七種方法，比如：

single方法代表將兩個組合資料點中距離最近的兩個資料點間的距離作為這兩個組合資料點的距離。這種方法容易受到極端值的影響。
兩個很相似的組合資料點可能由於其中的某個極端的資料點距離較近而組合在一起。
即兩個簇之間的距離使用公式： $d (u, v) = min (d i s t (u [i], v [j]))$ 計算。
complete方法代表與Single Linkage相反，將兩個組合資料點中距離最遠的兩個資料點間的距離作為這兩個組合資料點的距離。
Complete Linkage的問題也與Single Linkage相反，兩個不相似的組合資料點可能由於其中的極端值距離較遠而無法組合在一起。
即兩個簇之間的距離使用公式： $d (u, v) = max (d i s t (u [i], v [j]))$ 計算。
average方法代表是計算兩個組合資料點中的每個資料點與其他所有資料點的距離。將所有距離的均值作為兩個組合資料點間的距離。這種方法計算量比較大，但結果比前兩種方法更合理。
即兩個簇之間的距離使用公式： $d (u, v) = \sum_{i j} \frac{d (u [i], v [j])}{(| u | * | v |)}$ 計算。
weighted 即兩個簇之間的距離使用公式： $d (u, v) = (d i s t (s, v) + d i s t (t, v)) / 2$ 計算。
centroid 即兩個簇之間的距離使用公式： $d i s t (s, t) = ‖ c_{s} - c_{t} ‖_{2}$ 計算。
median 同centroid
ward 即兩個簇之間的距離使用公式： $d (u, v) = \sqrt{\frac{| v | + | s |}{T} d (v, s)^{2} + \frac{| v | + | t |}{T} d (v, t)^{2} - \frac{| v |}{T} d (s, t)^{2}}$ 計算。

第三個引數代表距離計算的方法，即上面方法中的dist()函式具體的計算方式，具體方式可以見這個頁面。
然後這裡我隨便選擇兩個，然後將返回的結果Z傳入dendrogram函式，程式碼如下：

Z = hierarchy.linkage(df, method ='ward',metric='euclidean')
hierarchy.dendrogram(Z,labels = df.index)

執行程式，即可得到層次聚類圖如下：
糟糕：圖片顯示失敗，請通知我，非常感謝！

根據上圖，我們即可看到在不同的位置裁剪即可得到不同的聚類數目。但是我們具體要聚集多少類呢？
我們先寫上裁剪的程式碼：

label = cluster.hierarchy.cut_tree(Z,height=0.8)
label = label.reshape(label.size,)

上面程式碼中的高度我取的是0.8，根據層次聚類圖明顯是聚成三類，為啥我要這樣取值呢？下一小節給出答案。

3. 繪製兩個主成分方向座標的散點圖

為了將聚類結果視覺化，我們需要降維，因為在大多數情況下，我們處理資料的維度超過三維，因此可以使用主成分分析法，找到佔據方差最大的兩個維度的散點得到，然後進行繪圖，來觀察結果。
由於我沒有在scipy裡面找到主成分分析的相關函式，因此就在scikit-learn包裡找相關函式，發現裡面有主成分分析的函式PCA，進入該函式的說明文件，我們可以進行相關操作和繪圖，程式碼如下：

#根據兩個最大的主成分進行繪圖
pca = skldec.PCA(n_components = 0.95)    #選擇方差95%的佔比
pca.fit(df)   #主城分析時每一行是一個輸入資料
result = pca.transform(df)  #計算結果
plt.figure()  #新建一張圖進行繪製
plt.scatter(result[:, 0], result[:, 1], c=label, edgecolor='k') #繪製兩個主成分組成座標的散點圖
for i in range(result[:,0].size):
    plt.text(result[i,0],result[i,1],df.index[i])     #在每個點邊上繪製資料名稱
x_label = 'PC1(%s%%)' % round((pca.explained_variance_ratio_[0]*100.0),2)   #x軸標籤字串
y_label = 'PC1(%s%%)' % round((pca.explained_variance_ratio_[1]*100.0),2)   #y軸標籤字串
plt.xlabel(x_label)    #繪製x軸標籤
plt.ylabel(y_label)    #繪製y軸標籤

執行程式碼，得到下圖：
糟糕：圖片顯示失敗，請通知我，非常感謝！

根據改圖，我們可以看到大致分為三類比較合理，因此上一小節層次聚類裁剪的高度取了一個可以裁剪得到三類的高度0.8。

4. 繪製熱圖

熱圖的繪製非常簡單，因為seaborn的工具包非常強大，我們使用clustermap函式即可，該函式的說明文件
中有詳細介紹，僅需一行程式碼，即可搞定，程式碼如下：

sns.clustermap(df,method ='ward',metric='euclidean')

執行程式碼，得到下圖：
糟糕：圖片顯示失敗，請通知我，非常感謝！

最後，本篇的全部程式碼在下面這個網頁可以下載：

使用Python進行層次聚類（一）——基本使用+主成分分析繪圖觀察結果+繪製熱圖

Python常用資料探勘的工具包