機器學習之GMM-EM

阿新 • • 發佈：2018-11-06

參考資料：機器學習課程的ppt……

Mixture Models

我們將研究混合模型，包括高斯混合模型和伯努利混合模型。

關鍵思想是引入潛變數，它允許從更簡單的分佈形成複雜的分佈。·

我們將看到，混合模型可以用具有離散的潛在變數（在有向的圖形模型中）來解釋。

在後面的課堂上，我們還會看到連續的潛在變數。

K-Means Clustering

k-群集分析

首先，我們來看看下面的問題：在多維空間中識別資料點的簇或組。

我們希望把資料劃分成K簇，其中給出k。

我們觀察到由N維觀測組成的資料集。

其次，我們介紹了D維向量，原型我們可以認為K代表聚類中心。

我們的目標是：找到資料點到叢集的分配。-每個資料點到其最接近的原型的平方距離的總和是最小值。

·對於每個資料點xn，我們引入長度為K的二進位制向量rn（K的1/K編碼），它指示資料點xn被分配給哪個K簇。

定義目標（失真測度）：

它表示每個資料點到其指定的原型k的距離的平方和。

我們的目標是找到rnk和聚類中心uk的值，以便最小化目標J。

Iterative Algorithm

定義迭代過程以最小化：

關於給定的k，將j相對於RNK（E步驟）最小化：

簡單地說，將第n個數據點Xn分配到它最接近的叢集中心。

給出給定的RNK，相對於k（m步驟）最小化J：

其中n是分配給群集K的點的數目。

集合k等於分配給群集K的所有資料點的平均值。

保證了收斂到區域性最小值（不是全域性最小值）。

舉例

在舊的資料集上使用k-均值（k＝2）的例子，收斂步驟如下：

參考資料：

https://www.cnblogs.com/cfantaisie/archive/2011/08/20/2147075.html

matlab程式碼：

如果理解了上面的內容，寫起來一小時內就可以完成，為何不自己試一試呢。

函式：

function [data, mu, var, weight] = CreateSample(M, dim, N)
% 生成實驗樣本集，由M組正態分佈的資料構成
% % GMM模型的原理就是僅根據資料估計引數：每組正態分佈的均值、方差，
% 以及每個正態分佈函式在GMM的權重alpha。
% 在本函式中，這些引數均為隨機生成，
% 
% 輸入
%   M    : 高斯函式個數
%   dim  : 資料維數
%   N    : 資料總個數
% 返回值
%   data : dim-by-N, 每列為一個數據
%   miu  : dim-by-M, 每組樣本的均值，由本函式隨機生成
%   var  : 1-by-M, 均方差，由本函式隨機生成
%   weight: 1-by-M, 每組的權值，由本函式隨機生成
% ---------------------------------------------------- 
%
% 隨機生成不同組的方差、均值及權值
weight = rand(1,M);
weight = weight / norm(weight, 1); % 歸一化，保證總合為1
var = double(mod(int16(rand(1,M)*100),10) + 1);  % 均方差，取1~10之間，採用對角矩陣
mu = double(round(randn(dim,M)*100));            % 均值，可以有負數
 
for i = 1: M
  if i ~= M
    n(i) = floor(N*weight(i));
  else
    n(i) = N - sum(n);
  end
end
 
% 以標準高斯分佈生成樣本值，並平移到各組相應均值和方差
start = 0;
for i=1:M
  X = randn(dim, n(i));
  X = X.* var(i) + repmat(mu(:,i),1,n(i));
  data(:,(start+1):start+n(i)) = X;
  start = start + n(i);
end
save('d:\data.mat', 'data');

function [MU_pre,SIGMA_pre,Alpha_Pre,Center_Pre]=CreatePre(Gao_siNum,dimention);
% 生成隨機的MU,SIGMA和權重
% 輸入
%   Gao_siNum    : 高斯函式個數
%   dimention    : 資料維數
% 返回值
%   MU_pre : dim-Num, 每組樣本的均值，由本函式隨機生成
%   SIGMA_pre  : dim-M, 均方差，由本函式隨機生成
%   Alpha_Pre  : 1-M, 權重
%   Center_Pre : 2-M，每個點的中心 
% ---------------------------------------------------- 
% 

MU_pre=normrnd(10,5,dimention,Gao_siNum);
SIGMA_pre=normrnd(10,5,1,Gao_siNum);
Alpha_Pre=normrnd(10,5,1,Gao_siNum);
Center_Pre=normrnd(30,100,2,Gao_siNum);
% MU_pre=normrnd(rand(1),rand(1),dimention,Gao_siNum);
% SIGMA_pre=normrnd(rand(1),rand(1,1),dimention,Gao_siNum);
% Alpha_Pre=normrnd(rand(1,1),rand(1,1),1,Gao_siNum);

主程式：

close all
% %% 畫圖
% num=60;%每個集合的樣本數
% x=1:1:num;
% MU1=4;
% MU2=6;
% MU3=2;
% SIGMA=2;
% y1=normrnd(MU1,SIGMA,1,num);
% y2=normrnd(MU2,SIGMA,1,num);
% y3=normrnd(MU3,SIGMA,1,num);
% %% 畫出原影象
% figure();
% hold on
% scatter(x,y1);
% scatter(x,y2);
% scatter(x,y3);
% hold off
%% 建立生成資料並且繪圖
Gao_siNum=4;
dimention=2;
sampleNum=180;
[data, MU, SIGMA, weight] = CreateSample(Gao_siNum, dimention, sampleNum);  % 生成測試資料
draw_x=data(1,:);%x軸
draw_y=data(2,:);%y軸
figure();
scatter(draw_x,draw_y);
hold on
scatter(MU(1,:),MU(2,:));
hold off
%% 進行區分GMM_EM演算法
[MU_pre,SIGMA_pre,Alpha_Pre,Center_Pre]=CreatePre(Gao_siNum,dimention);
hold on
scatter(Center_Pre(1,:),Center_Pre(2,:));
legend('data','real center',' pre_trained center');
hold off
%% EM 迭代停止條件
maxStep=2000;
%% 初始化引數
[dim, N] = size(data);
nbStep = 0;
Epsilon = 0.0001;
distance=zeros(Gao_siNum,sampleNum);
distance_min=zeros(1,sampleNum);
distance_min_Index=zeros(1,sampleNum);
while (nbStep < 1200)
   nbStep=nbStep+1;
   %計算每個點到各自中心的衡量，需要一個dimention*sampleNum大小的矩陣來儲存
   for i=1:sampleNum
         for j=1:Gao_siNum
             %(x1-x2)^2+(y1-y2)^2
             distance(j,i)=sqrt((data(1,i)-Center_Pre(1,j))^2+(data(2,i)-Center_Pre(2,j))^2);
         end
   end
     %% E-步驟 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
     for i=1:sampleNum
             distance_min(1,i)=min(distance(:,i));
             for j=1:Gao_siNum
                 if distance(j,i)==distance_min(1,i);
                     distance_min_Index(1,i)=j;%將第n個數據點Xn分配到它最接近的叢集中心。
                 end
             end
     end
     %% M-步驟 %%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
        %給出給定的RNK，相對於k（m步驟）最小化J：重新貼標籤
        %先把每個類的對應標籤找出來，然後再計算均值。
        find_dimention1= find(distance_min_Index==1); %查詢對應的類
        
        find_dimention1(1)=1;
        n=length(find_dimention1);
        Center_Pre(1,1)=sum(data(1,find_dimention1))/n;
        Center_Pre(2,1)=sum(data(2,find_dimention1))/n;
        find_dimention2= find(distance_min_Index==2); %查詢對應的類   
        
        find_dimention2(1)=1;
        n=length(find_dimention2);
        Center_Pre(1,2)=sum(data(1,find_dimention2))/n;
        Center_Pre(2,2)=sum(data(2,find_dimention2))/n;
        find_dimention3= find(distance_min_Index==3); %查詢對應的類
        
        find_dimention3(1)=1;
        n=length(find_dimention3);
        Center_Pre(1,3)=sum(data(1,find_dimention3))/n;
        Center_Pre(2,3)=sum(data(2,find_dimention3))/n;
        find_dimention4= find(distance_min_Index==4); %查詢對應的類
        n=length(find_dimention4);
        find_dimention4(1)=1;
        Center_Pre(1,4)=sum(data(1,find_dimention4))/n;
        Center_Pre(2,4)=sum(data(2,find_dimention4))/n;
%         for j=1:Gao_siNum
%             n=length(find_dimention(:,j));
%             Center_Pre(1,j)=sum(data(1,find_dimention(:,j)))/n;
%             Center_Pre(2,j)=sum(data(2,find_dimention(:,j)))/n;
%         end
%%
cost=0;
for j=1:Gao_siNum
cost=cost+sum(distance(:,j));
end
end
%%
figure();
hold on
scatter(draw_x,draw_y,'y');
scatter(MU(1,:),MU(2,:),'b');
scatter(Center_Pre(1,:),Center_Pre(2,:),'g');
legend('data','real center',' pre_trained center');
hold off

成果：

機器學習之GMM-EM

參考資料：機器學習課程的ppt…… Mixture Models 我們將研究混合模型，包括高斯混合模型和伯努利混合模型。關鍵思想是引入潛變數，它允許從更簡單的分佈形成複雜的分佈。· 我們將看到，混合模型可以用具有離散的潛在變數（在有向的圖形模型中）來解釋。在後面的課堂上，我們還會看到連續的潛在變

哈工大-機器學習之GMM-EM

function [data, mu, var, weight] = CreateSample(M, dim, N) % 生成實驗樣本集，由M組正態分佈的資料構成 % % GMM模型的原理就是僅根據資料估計引數：每組正態分佈的均值、方差， % 以及每個正態分

[六]機器學習之EM演算法

6.1 實驗概要通過EM演算法解決部分觀測資料的引數估計問題，使用sklearn提供的EM模組和高斯混合模型資料集，實驗EM演算法的實際效果 6.2 實驗輸入描述本次實驗使用模擬資料集，該資料集有300條資料構成，每個樣本為3維。假定該資料由兩個高斯分佈混合得到。 &nbs

【ML1】機器學習之EM演算法（含演算法詳細推導過程）

寫在前面的話：對於EM演算法（Expectation Maximization Algorithm，最大期望演算法），大家如果僅僅是為了使用，則熟悉演算法流程即可。此處的演算法推導過程，僅提供給大家進階之用。對於其應用，

機器學習之最大期望(EM)演算法

1.EM演算法簡介最大期望(Expectation Maximum)演算法是一種迭代優化演算法，其計算方法是每次迭代分為期望(E)步和最大(M)步。我們先看下最大期望演算法能夠解決什麼樣的問題。假如班級裡有50個男生和50個女生，且男生站左，女生站右。我們假

機器學習之分類問題實戰(基於UCI Bank Marketing Dataset)

表示般的機構文件 cnblogs opened csv文件 mas htm 導讀：分類問題是機器學習應用中的常見問題，而二分類問題是其中的典型，例如垃圾郵件的識別。本文基於UCI機器學習數據庫中的銀行營銷數據集，從對數據集進行探索，數據預處理和特征工程，到學習

機器學習之良/惡性乳腺癌腫瘤預測

nan n) gin sample 通過回歸 ipy read 數據集知識點：　　邏輯斯蒂回歸分類器　　訓練數據集：https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-w

機器學習之 SVM VC維度、樣本數目與經驗風險最小化的關系

能力 pan dsm 過擬合引入 div 不但機器 con VC維在有限的訓練樣本情況下，當樣本數 n 固定時。此時學習機器的 VC 維越高學習機器的復雜性越高。VC 維反映了函數集的學習能力，VC 維越大則學習機器越復雜(容量越大)。

機器學習之SVM初解與淺析（一）:最大距離

機器學習 svm 最大距離 2 / ||w|| 這段時間在看周誌華大佬的《機器學習》，在看書的過程中，有時候會搜搜其他人寫的文章，對比來講，周教授講的內容還是比較深刻的，但是前幾天看到SVM這一章的時候，感覺甚是晦澀啊，第一感覺就是比較抽象，特別是對於像本人這種I

機器學習之SVM初解與淺析（一）:

機器學習 svm 最大距離 2 / ||w||sdsshngshan‘gccha 這段時間在看周誌華大佬的《機器學習》，在看書的過程中，有時候會搜搜其他人寫的文章，對比來講，周教授講的內容還是比較深刻的，但是前幾天看到SVM這一章的時候，感覺甚是晦澀啊，第一感覺就

機器學習之PCA主成分分析

ping app 最大們的理解 style 避免 -m size 前言以下內容是個人學習之後的感悟，轉載請註明出處~ 簡介　　在用統計分析方法研究多變量的課題時，變量個數太多就會增加課題的復雜性。人們自然希望變量個數較少而得到的信息較

機器學習之大數據集

曲線叠代 ... 問題 alt 流數據疊加沒有 cost 前言以下內容是個人學習之後的感悟，轉載請註明出處~ 簡介　　大數據時代已經來臨，它將在眾多領域掀起變革的巨浪。機器學習對於大數據集的處理也變得越來越重要。大數據集務必會帶來恐

機器學習之梯度下降法

梯度學習模型最快參數 nbsp 函數 bsp 每一個在吳恩達的機器學習課程中，講了一個模型，如何求得一個參數令錯誤函數值的最小，這裏運用梯度下降法來求得參數。首先任意選取一個θ 令這個θ變化，怎麽變化呢，怎麽讓函數值變化的快，變化的小怎麽變化，那麽函數值怎麽才能

機器學習之numpy庫中常用的函數介紹（一）

做的 string idt 維度數據 round float 數值 array 1. mat() mat()與array的區別： mat是矩陣，數據必須是2維的，是array的子集，包含array的所有特性，所做的運算都是針對矩陣來進行的。 array是數組，數據可以是多

機器學習之學習路線

機器學習機器學習機器學習樸素貝葉斯（NBC) 決策樹K-近鄰算法回歸K-均值聚類算法Apriori算法FP-growth算法主成分分析（PCA)奇異值分析（SVD)支持向量機logistic回歸python 實現明星專家系統http://9399369.blog.51cto.com/9389369/d-22/

機器學習之決策樹與隨機森林模型

會有 strong pytho red -s 很多 4.5 是我機器歡迎大家前往騰訊雲技術社區，獲取更多騰訊海量技術實踐幹貨哦~ 作者：汪毅雄導語本文用容易理解的語言和例子來解釋了決策樹三種常見的算法及其優劣、隨機森林的含義，相信能幫助初學者真正地理解相關知識

20171028機器學習之線性回歸過擬合問題的解決方案

ces 函數彈性 alpha mach rom 定性 ast cep 在函數中加入一個正則項：三種方式：一、Ridge回歸（嶺回歸）：　　優點：具有較高的準確性、魯棒性以及穩定性　　缺點：求解速度慢二、Lasso回歸：　　優點：求解速度快（原理降維計算

機器學習之邏輯回歸

反向 margin -1 mil 局部最優一個數簡單 line 滿足給定一張圖片，如何讓計算機幫助我們識別它是不是一張貓的圖片，這個問題可以看成一個簡單的分類問題。如下圖所示，平面上有兩種不同顏色（黑色，紅色）的點，我們要做到就是要找到類似與那條直線那樣的界限。當某個

機器學習之Logistic 回歸算法

簡單生成選擇效率 split max 坐標 opened 似然函數 1 Logistic 回歸算法的原理 1.1 需要的數學基礎我在看機器學習實戰時對其中的代碼非常費解，說好的利用偏導數求最值怎麽代碼中沒有體現啊，就一個簡單的式子：θ= θ - α Σ [( hθ(

機器學習之支持向量機（三）：核函數和KKT條件的理解

麻煩 ron 現在調整所有核函數多項式 err ges 註：關於支持向量機系列文章是借鑒大神的神作，加以自己的理解寫成的；若對原作者有損請告知，我會及時處理。轉載請標明來源。序：我在支持向量機系列中主要講支持向量機的公式推導，第一部分講到推出拉格朗日對偶函數的對

機器學習之GMM-EM

相關推薦