R || 高斯混合模型GMM

阿新 • • 發佈：2019-01-11

GMM模型的R實現

預備知識：

友情提示：本程式碼配合GMM演算法原理中的步驟閱讀更佳哦！

本文分為一元高斯分佈的EM演算法以及多元高斯分佈的EM演算法，分別採用兩本書上的資料《統計學習方法》和《機器學習》。

一元高斯混合模型

步驟：

1、設定模型引數的初始值，以及給出測試的資料

data <- c(-67,-48,6,8,14,16,23,24,28,29,41,49,56,60,75)
a = c(0.5,0.5) #係數
u = c(0,1)     #初始均值
sigma2 =c(9,9) #初始方差

data資料來自《統計機器學習》

2：E步迭代計算gamma值，也就是響應度

首先利用dnorm()計算高斯公式的密度值,sapply()來向量化帶入函式計算

p <- t(sapply(data,dnorm,u,sigma))
amatrix <- matrix(rep(a,N),nrow=N,byrow = T) #便於計算
r = (p * amatrix) / rowSums(p * amatrix)     
#r(gamma):分模型k對觀測資料data的響應度

M步迭代更新均值、方差和模型係數

u <-  colSums(data*r)/colSums(r)
umatrix <- matrix(rep(u,N),nrow=N 
,byrow = T)
sigma2 <- colSums(r*(mat-umatrix)^2)/colSums(r) 
a <- colSums(r)/length(data)

3：設定迭代停止條件

根據自己需要設定，這裡設定為均值和方差變化不大則停止（也可以設定迭代最大輪數）

4：根據每個觀測值對每個高斯分佈的響應度，響應度大則歸為該分佈（也就是簇）。

 cluster <- which(r == apply(r,1,max),arr.ind = T)

將上述過程寫成函式

GaussCluster <- function(data,k,a,u,sigma2 
){
  #data:資料集,向量
  #k:聚類的個數，或高斯分佈的個數
  #a0:高斯分佈的先驗概率,選擇各個高斯分佈的概率,向量
  #u0:高斯分佈的初始均值
  #sigma2:一元高斯分佈即為方差,sigma為標準差

  mat = matrix(rep(data,k),ncol = k) #方便後續計算
  N = length(data)
  i=0
  while(TRUE){
    u0 <- u
    sigma  = sqrt(sigma2)
    sigma0 <- sigma
    umatrix <- matrix(rep(u,N),nrow=N,byrow = T)
    p <- t(sapply(data,dnorm,u,sigma)) 
    amatrix <- matrix(rep(a,N),nrow=N,byrow = T) 
    r = (p * amatrix) / rowSums(p * amatrix)     
    u <-  colSums(data*r)/colSums(r)
    sigma2 <- colSums(r*(mat-umatrix)^2)/colSums(r) 
    a <- colSums(r)/length(data)
    sumU <- sum((u-u0)^2)
    sumsigma <- sum((sigma-sigma0)^2)
    if((sumU <= 1e-4) & (sumsigma <= 1e-4)){
      break
    }
  }
  cluster <- which(r == apply(r,1,max),arr.ind = T)
  return(list(u = u,d = sigma2,a = a,cluster = cluster))
}

呼叫函式

GaussCluster(data,2,c(0.5,0.5),c(0,1),c(9,9))

最終得到的結果

多元高斯混合模型

多元高斯混合模型採用的是《機器學習》中的西瓜資料集。

多元高斯分佈中的密度值需要用mvtnorm包中的dmvnorm()來計算。

library(mvtnorm)
mulGaussCluster <- function(data,k,a,u,cov0){
  #data:資料集,向量或資料框
  #k:聚類的個數，或高斯分佈的個數
  #a:高斯分佈的先驗概率,選擇各個高斯分佈的概率,向量
  #u:高斯分佈的初始均值
  #cov0:多元高斯分佈的初始協方差陣
  N = nrow(data)
  covList = list()
  for(i in 1:k){
    covList[[i]] <- cov0
  }
  count=1
  while(TRUE){
    u0 <- u
    p = c()
    for(j in 1:k){
      prob = apply(data,1,dmvnorm,mean=u[j,],sigma = covList[[j]])
      p = cbind(p,prob)
    }
    amatrix <- matrix(rep(a,N),nrow=N,byrow = T)
    r = (p * amatrix) / rowSums(p * amatrix)  
    u <- t(r) %*% data / colSums(r) #求和可以轉化為向量相乘的形式，簡化計算
    for(j in 1:k){
      sigma = matrix(rep(0,4),ncol=2)
      for(i in 1:N){
        sigma = sigma + r[i,j] * (data[i,]-u0[j,]) %*% t(data[i,]-u0[j,])  #R中向量預設為列向量
      }
      covList[[j]]= sigma/sum(r[,j]) 
    }
    a <- colSums(r)/N
    count = count + 1
    if(count == 100){
      break
    }
  }
  cluster <- which(r == apply(r,1,max),arr.ind = T)
  cluster <- cluster[order(cluster[,1]),]
  return(list(u = u,covList = covList,a = a,cluster = cluster))
}

呼叫：

wamellondata <- read.csv('watermelon.csv')
data = as.matrix(wamellondata[,2:3])
a = c(1/3,1/3,1/3)
u = rbind(data[6,],data[22,],data[27,])
cov0 <- matrix(c(0.1,0,0,0.1),ncol = 2)
list=mulGaussCluster(data,k=3,a,u,cov0)
cluster = list$cluster

結果：

當然這時候還可以用ggplot2來繪製聚類圖

library(ggplot2)
ggplot(data=NULL,mapping=aes(x=data[,1],y=data[,2],group = cluster[,2])) + 
  geom_point(colour = cluster[,2]) + xlab('density')+ylab('sugarContent')+
  theme_minimal()

得到的圖：

參考網址：

R || 高斯混合模型GMM

GMM模型的R實現預備知識：友情提示：本程式碼配合GMM演算法原理中的步驟閱讀更佳哦！本文分為一元高斯分佈的EM演算法以及多元高斯分佈的EM演算法，分別採用兩本書上的資料《統計學習方法》和《機器學習》。一元高斯混合模型步驟： 1

網格缺陷檢測（高斯混合模型GMM）

*此示例程式向您展示如何使用GMM分類器進行新穎性檢測以執行Web檢查任務。要進行新奇檢測， *計算屬於單個訓練類的所有畫素，然後進行計算從分類ROI中減去以提取錯誤畫素。對於網路檢查任務，GMM因此可用於檢測紋理與訓練好的物體的紋理不對應。 &nb

高斯混合模型(GMM Gaussian Mixture Model)

高斯混合模型是一種業界廣泛使用的聚類演算法，該方法使用了高斯分佈作為引數模型，並使用了期望最大演算法（EM）進行訓練。什麼是高斯分佈高斯分佈有時也被稱作正態分佈，是一個在數學、物理及工程等領域都非常重要的概率分佈，在統計學的許多方面都有著重大的影響。若隨機變數X服從一個數學

05 EM演算法 - 高斯混合模型 - GMM

04 EM演算法 - EM演算法收斂證明 __GMM__(Gaussian Mixture Model, 高斯混合模型)是指該演算法由多個高斯模型線性疊加混合而成。每個高斯模型稱之為component。 __GMM演算法__描述的是資料的本身存在的一種分佈，即樣本特徵屬性的分佈，和預測值Y無關。顯然G

Spark2.0機器學習系列之10：聚類(高斯混合模型 GMM）

在Spark2.0版本中（不是基於RDD API的MLlib），共有四種聚類方法：（1）K-means （2）Latent Dirichlet allocation (LDA) （3）Bisecting k-m

機器學習讀書筆記（高斯混合模型GMM與EM）（改）

高斯混合模型（Gaussian mixture model，GMM）是單一高斯概率密度函式的延伸。GMM能夠平滑地近似任意形狀的密度分佈。欲瞭解高斯混合模型，那就先從基礎的單一高斯概率密度函式講起。（數學公式字型太難看了！！！！！！！）注意：這一一篇致力於詳

高斯混合模型GMM

使用概率模型的原因 k均值等價於假設了球對稱形狀的聚類。使用帶權歐式距離，仍然假設了軸對齊的橢球。沒有考慮聚類的形狀。促使概率模型的原因：混合模型提供觀測點到聚類的軟分配soft assig

EM演算法和高斯混合模型GMM介紹

EM演算法 EM演算法主要用於求概率密度函式引數的最大似然估計，將問題$\arg \max _{\theta_{1}} \sum_{i=1}^{n} \ln p\left(x_{i} | \theta_{1}\right)$轉換為更加易於計算的$\sum_{i=1}^{n} \ln p\left(x_{i}

[R][原始碼]EM演算法實現基於高斯混合模型（GMM）的聚類

要求：用EM演算法實現基於GMM的聚類演算法。一、實驗資料參考[1] 3.3.2章節。由兩個二維高斯分佈混合生成1000個數據，混合係數分別是0.4、0.6，均值和方差如下：mu1=[-2,-2]sigma1=[1.2, 0.5, 0.5, 1]mean2=[2,2]sigm

高斯混合模型（Gaussian Mixture Model，GMM）

先從簡單的離散型隨機變數看起離散型隨機變數P{X=ak}=pk,k=1,2,3,...,n 其中：∑i=1npi=1 那麼它的期望值是：E(X)=∑kakpk 以上都是中學數學知識，那麼到了高等數學的概率論與數理統計這門課才開始討論連續隨機變數的情況。

高斯混合模型（GMM）介紹以及學習筆記

1.高斯混合模型概述高斯密度函式估計是一種引數化模型。高斯混合模型（Gaussian Mixture Model, GMM）是單一高斯概率密度函式的延伸，GMM能夠平滑地近似任意形狀的密度分佈。高斯混合模型種類有單高斯模型（Single Gaussian Model, S

高斯混合模型（GMM）及其EM演算法的理解

一個例子高斯混合模型（Gaussian Mixed Model）指的是多個高斯分佈函式的線性組合，理論上GMM可以擬合出任意型別的分佈，通常用於解決同一集合下的資料包含多個不同的分佈的情況（或者是同一類分佈但引數不一樣，或者是不同型別的分佈，比如正態分佈和伯

高斯混合模型（GMM model）以及梯度下降法（gradient descent）更新引數

關於GMM模型的資料和 EM 引數估算的資料，網上已經有很多了，今天想談的是GMM的協方差矩陣的分析、GMM的引數更新方法 1、GMM協方差矩陣的物理含義涉及到每個元素，是這樣求算：用中文來描述就是：注意後面的那個除以（樣本數-1），就是大括號外面的E求期望　（這叫

高斯混合模型（GMM）及其求解（期望最大化（EM）演算法）

1、高斯混合模型的公式表達高斯混合模型是指隨機變數x具有如下形式的分佈（概率密度函式）： (公式1) 其中，引數θθ代表所有混合成分的引數（均值向量μ與協方差矩陣Σ）的集合： (公式2) 每個混合成分的概率密度函式為：

R語言：EM演算法和高斯混合模型的R語言實現

本文我們討論期望最大化理論，應用和評估基於期望最大化的聚類。軟體包install.packages("mclust");require(mclust)## Loading required package: mclust## Package 'mclust' version

高斯混合模型（GMM）的EM演算法實現

在聚類演算法K-Means, K-Medoids, GMM, Spectral clustering，Ncut一文中我們給出了GMM演算法的基本模型與似然函式，在EM演算法原理中對EM演算法的實現與收斂性證明進行了詳細說明。本文主要針對如何用EM演算法在混合高

EM演算法及GMM(高斯混合模型）的詳解

一、預備知識 1.1、協方差矩陣在高維計算協方差的時候，分母是n-1，而不是n。協方差矩陣的大小與維度相同。 1.2、黑塞矩陣 1.3、正定矩陣二、高斯混合模型點模式的分析中，一般會考察如下五種內容

K-Means(K均值)、GMM(高斯混合模型)，通俗易懂，先收藏了！

1. 聚類演算法都是無監督學習嗎? 什麼是聚類演算法？聚類是一種機器學習技術，它涉及到資料點的分組。給定一組資料點，我們可以使用聚類演算法將每個資料點劃分為一個特定的組。理論上，同一組中的資料點應該具有相似的屬性和/或特徵，而不同組中的資料點應該具有高度不同的屬性和/或特徵。聚類是一種無監督學習的方法，是許多

估計高斯混合模型參數的三種方式

als .so ons die from ssi object sqrt int 對於如下的兩類別的高斯混合模型 \[ \pi\cdot N(\mu_1,\sigma_1^2)+(1-\pi)\cdot N(\mu_2,\sigma_2^2) \] 參數為\(\theta

CS229 Machine Learning學習筆記:Note 7(K-means聚類、高斯混合模型、EM算法)

learn 不同的 inf ear 公式 course splay alt spa K-means聚類 ng在coursera的機器學習課上已經講過K-means聚類，這裏不再贅述高斯混合模型問題描述聚類問題：給定訓練集\(\{x^{(1)},\cdots,x^{(m

R || 高斯混合模型GMM

GMM模型的R實現

一元高斯混合模型

多元高斯混合模型

相關推薦