1. 程式人生 > >聚類(1)——混合高斯模型 Gaussian Mixture Model

聚類(1)——混合高斯模型 Gaussian Mixture Model

聚類系列:
聚類(序)----監督學習與無監督學習
聚類(1)----混合高斯模型 Gaussian Mixture Model 
聚類(2)----層次聚類 Hierarchical Clustering 
聚類(3)----譜聚類 Spectral Clustering
--------------------------------

    聚類的方法有很多種,k-means要數最簡單的一種聚類方法了,其大致思想就是把資料分為多個堆,每個堆就是一類。每個堆都有一個聚類中心(學習的結果就是獲得這k個聚類中心),這個中心就是這個類中所有資料的均值,而這個堆中所有的點到該類的聚類中心都小於到其他類的聚類中心(分類的過程就是將未知資料對這k個聚類中心進行比較的過程,離誰近就是誰)。其實k-means算的上最直觀、最方便理解的一種聚類方式了,原則就是把最像的資料分在一起,而“像”這個定義由我們來完成,比如說歐式距離的最小,等等。想對k-means的具體演算法過程瞭解的話,請看這裡。而在這篇博文裡,我要介紹的是另外一種比較流行的聚類方法----GMM(Gaussian Mixture Model)。

    GMM和k-means其實是十分相似的,區別僅僅在於對GMM來說,我們引入了概率。說到這裡,我想先補充一點東西。統計學習的模型有兩種,一種是概率模型,一種是非概率模型。所謂概率模型,就是指我們要學習的模型的形式是P(Y|X),這樣在分類的過程中,我們通過未知資料X可以獲得Y取值的一個概率分佈,也就是訓練後模型得到的輸出不是一個具體的值,而是一系列值的概率(對應於分類問題來說,就是對應於各個不同的類的概率),然後我們可以選取概率最大的那個類作為判決物件(算軟分類soft assignment)。而非概率模型,就是指我們學習的模型是一個決策函式Y=f(X),輸入資料X是多少就可以投影得到唯一的一個Y,就是判決結果(算硬分類hard assignment)。回到GMM,學習的過程就是訓練出幾個概率分佈,所謂混合高斯模型就是指對樣本的概率密度分佈進行估計,而估計的模型是幾個高斯模型加權之和(具體是幾個要在模型訓練前建立好)。每個高斯模型就代表了一個類(一個Cluster)。對樣本中的資料分別在幾個高斯模型上投影,就會分別得到在各個類上的概率。然後我們可以選取概率最大的類所為判決結果。

    得到概率有什麼好處呢?我們知道人很聰明,就是在於我們會用各種不同的模型對觀察到的事物和現象做判決和分析。當你在路上發現一條狗的時候,你可能光看外形好像鄰居家的狗,又更像一點點女朋友家的狗,你很難判斷,所以從外形上看,用軟分類的方法,是女朋友家的狗概率51%,是鄰居家的狗的概率是49%,屬於一個易混淆的區域內,這時你可以再用其它辦法進行區分到底是誰家的狗。而如果是硬分類的話,你所判斷的就是女朋友家的狗,沒有“多像”這個概念,所以不方便多模型的融合。

    從中心極限定理的角度上看,把混合模型假設為高斯的是比較合理的,當然也可以根據實際資料定義成任何分佈的Mixture Model,不過定義為高斯的在計算上有一些方便之處,另外,理論上可以通過增加Model的個數,用GMM近似任何概率分佈。

    混合高斯模型的定義為:

    其中K為模型的個數,πk為第k個高斯的權重,則為第k個高斯的概率密度函式,其均值為μk,方差為σk。我們對此概率密度的估計就是要求πk、μk和σk各個變數。當求出的表示式後,求和式的各項的結果就分別代表樣本x屬於各個類的概率。

    在做引數估計的時候,常採用的方法是最大似然。最大似然法就是使樣本點在估計的概率密度函式上的概率值最大。由於概率值一般都很小,N很大的時候這個連乘的結果非常小,容易造成浮點數下溢。所以我們通常取log,將目標改寫成:

    也就是最大化log-likelyhood function,完整形式則為:

    一般用來做引數估計的時候,我們都是通過對待求變數進行求導來求極值,在上式中,log函式中又有求和,你想用求導的方法算的話方程組將會非常複雜,所以我們不好考慮用該方法求解(沒有閉合解)。可以採用的求解方法是EM演算法——將求解分為兩步:第一步是假設我們知道各個高斯模型的引數(可以初始化一個,或者基於上一步迭代結果),去估計每個高斯模型的權值;第二步是基於估計的權值,回過頭再去確定高斯模型的引數。重複這兩個步驟,直到波動很小,近似達到極值(注意這裡是個極值不是最值,EM演算法會陷入區域性最優)。具體表達如下:

    1、對於第i個樣本xi來說,它由第k個model生成的概率為:

    在這一步,我們假設高斯模型的引數和是已知的(由上一步迭代而來或由初始值決定)。

   (E step)

    (M step)

    3、重複上述兩步驟直到演算法收斂(這個演算法一定是收斂的,至於具體的證明請回溯到EM演算法中去,而我也沒有具體關注,以後補上)。

    最後總結一下,用GMM的優點是投影后樣本點不是得到一個確定的分類標記,而是得到每個類的概率,這是一個重要資訊。GMM每一步迭代的計算量比較大,大於k-means。GMM的求解辦法基於EM演算法,因此有可能陷入區域性極值,這和初始值的選取十分相關了。GMM不僅可以用在聚類上,也可以用在概率密度估計上。

 
--------------------- 
作者:姜文暉 
來源:CSDN 
原文:https://blog.csdn.net/jwh_bupt/article/details/7663885 
版權宣告:本文為博主原創文章,轉載請附上博文連結!