高斯混合模型(GMM Gaussian Mixture Model)
高斯混合模型是一種業界廣泛使用的聚類演算法,該方法使用了高斯分佈作為引數模型,並使用了期望最大演算法(EM)進行訓練。
什麼是高斯分佈
高斯分佈有時也被稱作正態分佈,是一個在數學、物理及工程等領域都非常重要的概率分佈,在統計學的許多方面都有著重大的影響。
若隨機變數X服從一個數學期望為
、標準方差為
的高斯分佈,記作:
則其概率密度函式為:
公式中含有2個引數,引數
有了概率密度函式,在已知引數 的前提下,輸入變數x,可以獲得其相對應的概率密度。
高斯混合模型
定義:高斯混合模型是指具有如下形式的概率分佈模型:
(1)
其中, 是係數,且 ; 是高斯分佈密度函式,其中
(2)
稱為第k個分模型。
一般混合模型可以由任意概率分佈密度函式代替2中的高斯密度函式,現在只介紹最常用的高斯混合模型。
高斯混合模型引數估計的EM演算法
假設觀測資料
由高斯混合模型生成,
其中 ,我們用EM演算法估計高斯混合模型的引數
1明確隱變數,寫出完全資料的對數似然函式
可以設想觀測資料
,j=1,2……N,是這樣產生的:
1)首先依概率
選擇第k個高斯分佈分模型
2)然後依第k個分模型的概率分佈 生成觀測資料
這時,觀測資料 時已知的,反映觀測資料 來自第k個分模型的資料時未知的。以變數 表示。
隱變數
,他的取值只能是1或者0
1)當第j個觀測變數來自第k個高斯分佈時,隱變數
=1
2)當第j個觀測變數不是來自第k個高斯分佈時,隱變數
=0
那麼對於每一個觀測資料 ,都會對應一個向量變數