1. 程式人生 > >機器學習之混合高斯模型(Gaussian Mixture Model)聚類演算法+程式碼

機器學習之混合高斯模型(Gaussian Mixture Model)聚類演算法+程式碼

機器學習之混合高斯模型聚類演算法

機器學習分為監督學習、無監督學習和半監督學習(強化學習)。無監督學習最常應用的場景是聚類(clustering)和降維(dimension reduction)。聚類演算法包括:K均值聚類(K-Means)、層次聚類(Hierarchical Clustering)和混合高斯模型(Gaussian Mixture Model)。降維演算法包括:主成因分析(Principal Component Analysis)和線性判別分析(Linear Discriminant Analysis)。

高斯混合模型(Gaussian Mixture Model)簡稱GMM, 高斯混合模型使用K個高斯分佈的結合組成的概率分佈模型,並使用了期望最大(Expectation Maximization,簡稱EM)演算法進行訓練。其理論基礎是:K個高斯分佈的結合組成的概率分佈模型理論上可以任意地逼近任何連續的概率密分佈。

高斯分佈(Gaussian distribution)也被稱為正態分佈(normal distribution),是一種在自然界大量的存在的、最為常見的分佈形式。

1 演算法原理

混合高斯模型(Gaussian Mixture Model)聚類演算法的核心步驟如下:

  • 通過觀察取樣的概率值和模型概率值的接近程度,來判斷一個模型是否擬合良好;
  • 通過模型來計算資料的期望值,通過更新分佈的均值和標準差(引數μ和σ)來讓期望值最大化;
  • 反覆迭代這個過程很多次,直到兩個概率值非常接近時;
  • 停止更新並完成模型訓練。

混合高斯模型(Gaussian Mixture Model)聚類演算法的核心優勢如下:

  • 計算伸縮性: 使用多個高斯分佈的組合來刻畫資料分佈, 計算伸縮性好;
  • 引數依賴性: 可調整引數為分佈的均值和標準差(引數μ和σ);
  • 普適性能力: 描述能力和泛化能力優於K均值聚類(K-Means);
  • 抗噪音能力: 由於K均值聚類(K-Means);
  • 結果解釋性: 模型和結果均具有解釋性。

2 演算法例項

[TODO, Coming Soon!]

3 典型應用

  • 使用者畫像: 在電子商務、新聞客戶端、視訊客戶端通過對使用者行為資料的聚類分析,可以準確刻畫使用者畫像。精準的使用者畫像,對於優化內容推送,內容搜尋,廣告分發具有重大意義。
  • 地理資訊: 對於地域性比較強的領域,諸如:汽車保險、個人意外險、房屋租賃和二手房交易等。從使用者資料中聚類出此類資訊,能夠在上述領域充分匹配使用者和產品,實現精準營銷。

參考資料

  • [1] 周志華. 機器學習. 清華大學出版社. 2016.
  • [2] [日]杉山將. 圖解機器學習. 人民郵電出版社. 2015.
  • [3] 佩德羅·多明戈斯. 終極演算法-機器學習和人工智慧如何重塑世界. 中信出版社. 2018.