【機器學習筆記13】聚類(高斯混合聚類)
阿新 • • 發佈:2018-12-12
【參考資料】 【1】《統計學習方法》 【2】《概率論與數理統計》 【3】小象學院 EM演算法
高斯分佈
定義: 如果隨機變數X的概率密度為 則稱X服從正態分佈,記作: ,如下圖所示:
高斯函式是最常用的一種連續型分佈,通常當一個隨機變數收到多個隨機因素的影響,而每一個都不是主導因素的時候,該變數就會服從高斯分佈(正態分佈)。它具備如下一些性質:
- 關於直線x=u對稱
- 在x=u時取得最大值
- 在處存在拐點
- 當|x|區域無窮大時,以x軸為漸近線,即無限趨近於0
當u=0,時為標準正態分佈
高斯混合模型
定義: 高斯混合模型是指具有如下形式的概率分佈: ,其中是係數,且,的是高斯分佈概率密度函式,定義,表示第k個高斯分佈模型。
小象學院的EM章節中舉了一個非常直觀的例子
上述表示如果把學校同學的身高資料取樣後建模,實際上會發現可聚類成兩個正態分佈模型,即男生和女生的身高正太分佈模型。
高斯混合模型引數估計的EM演算法
EM演算法是以迭代的方式來解決極大似然的方法,針對高斯混合模型其演算法如下:
輸入: 觀測資料 輸出: 高斯混合模型引數
E步驟:依據當前模型引數計算分模型k對觀測資料的影響度
,其中j=1,2…N,k=1,2…K
M步驟: 計算新一輪的模型迭代引數
,k=1,2…K
,k=1,2…K
重複E和M步驟,直到收斂:)