1. 程式人生 > >EM演算法:從極大似然估計匯出EM演算法(還算通俗易懂)

EM演算法:從極大似然估計匯出EM演算法(還算通俗易懂)

之前看了《統計學習方法》,吳恩達老師的cs229講義,一起看感覺很昏(如果要看建議選擇其中一個,《統計學習方法》裡面基本很少會寫到 y i y_i 而都是用 Y Y

只用了極大化沒有寫出我們熟悉的似然函式?!,cs229有視訊,但我喜歡看書),網上看了點部落格大部分好像也是來自cs229講義。這裡結合七月裡面一個博士講的與自己的理解來寫出從極大似然估計推出EM演算法好了。

1、隱變數與概率模型引數

EM演算法:概率模型有時既含有觀測變數,又含有隱變數。如果概率模型的變數都是觀測變數,那麼給定資料,就可以直接使用極大似然估計來求得引數或者貝葉斯估計模型引數。但是如果變數中有因變數,那麼這些方法就不行了,這個時候就可以使用EM演算法,EM演算法就是含有隱變數的概率模型引數的極大似然估計方法。

下面給出《統計學習方法》中的例子

在這裡插入圖片描述

觀測結果 1 , 1 , 0 , 1 , 0 ,

0 , 1 , 0 , 1 , 1 {1,1,0,1,0,0,1,0,1,1} 我們用變數 Y Y 表示,叫做顯變數,這裡取值是0或1

而擲的硬幣A的結果我們是不知道的,我們用變數 Z Z 表示,叫做隱變數

2、EM演算法推導

π p q \pi,p,q 則是模型引數,現在我們要求這三個引數。由於是改了模型,我們知道觀測結果來求引數,自然想到使用極大似然估計。根據極大似然估計定義,概率分佈 P ( Y = y i ) = p θ ( y i ; ) P(Y=y_i)=p_\theta(y_i;) ,其中 θ \theta 為模型引數

先回顧下概率公式 (推導會用到):
p ( y ) = z p ( z ) p ( y z ) = z p ( y , z ) p(y)=\sum\limits_{z}p(z)p(y|z)=\sum\limits_{z}p(y,z) 全概率公式和貝葉斯公式
z p ( z y ) = 1 \sum\limits_{z}p(z|y)=1

寫出極大似然函式

L ( θ ) = i = 1 n p θ ( y i ) = i = 1 n z p θ ( y i , z ) = i = 1 n z p θ ( z ) p θ ( y i z ) L(\theta)=\prod\limits_{i=1}^{n}p_\theta(y_i)\\=\prod\limits_{i=1}^{n}\sum\limits_{z}p_\theta(y_i,z)\\=\prod\limits_{i=1}^{n}\sum\limits_{z}p_\theta(z)p_\theta(y_i|z)

寫出對數形式

l ( θ ) = l n L ( θ ) = l n i = 1 n z p θ ( z ) p θ ( y i z ) = i = 1 n l n [ z p θ ( z ) p θ ( y i z ) ] l(\theta)=lnL(\theta)=ln\prod\limits_{i=1}^{n}\sum\limits_{z}p_\theta(z)p_\theta(y_i|z)=\sum\limits_{i=1}^{n}ln[\sum\limits_{z}p_\theta(z)p_\theta(y_i|z)]

通常到這裡就要對引數求導 θ \theta 求導從而得到似然函式的極大值,但是這裡由於對數裡面存在求和,這種情況是難以求解的。這種情況下,通常的做法是使用迭代逐步去畢竟最優解,而EM演算法就是這樣一種迭代演算法,假設第 n n 次迭代求出的引數為 θ n \theta_n ,我們希望下一次迭代得到的引數滿足 l ( θ n + 1 ) > l ( θ n ) l(\theta_{n+1})>l(\theta_{n})

l ( θ ) l ( θ n ) = i = 1 n ( l n z p θ ( z ) p θ ( y i z ) l n p θ n ( y i ) ) l(\theta)-l(\theta_n)=\sum\limits_{i=1}^{n}(ln\sum\limits_{z}p_\theta(z)p_\theta(y_i|z)-ln^{p_{\theta_n}(y_i))}

p θ ( z ) p θ ( y i z ) p_\theta(z)p_\theta(y_i|z)

相關推薦

EM演算法極大估計匯出EM演算法通俗易懂

之前看了《統計學習方法》,吳恩達老師的cs229講義,一起看感覺很昏(如果要看建議選擇其中一個,《統計學習方法》裡面基本很少會寫到 y

MLE極大估計EM最大期望演算法

         EM的意思是“Expectation Maximization”,在我們上面這個問題裡面,我們是先隨便猜一下男生(身高)的正態分佈的引數:如均值和方差是多少。例如男生的均值是1米7,方差是0.1米(當然了,剛開始肯定沒那麼準),然後計算出每個人更可能屬於第一個還是第二個正態分佈中的(例如

極大估計EM演算法

極大似然估計 1.用途 在已知樣本的情況下,估計滿足樣本分佈的引數。 2.例子   為了調查一個學校中男生的身高分佈,我們隨機抽取了100個男生作為樣本X = {x1,x2,…,x100};已知男生身高分佈滿足高斯分佈,求高斯分佈的引數均值和標

機器學習演算法1——極大估計EM演算法

極大似然估計 在講解極大似然估計前,需要先介紹貝葉斯分類: 貝葉斯決策:       首先來看貝葉斯分類,經典的貝葉斯公式:                 &nb

極大估計EM演算法

轉自:http://blog.csdn.net/zouxy09/article/details/8537620 一、最大似然          假設我們需要調查我們學校的男生和女生的身高分佈。你怎麼做啊?你說那麼多人不可能一個一個去問吧,肯定是抽樣了。假設你在校園裡隨

python機器學習案例系列教程——極大估計EM演算法

極大似然 極大似然(Maximum Likelihood)估計為用於已知模型的引數估計的統計學方法。 也就是求使得似然函式最大的代估引數的值。而似然函式就是如果引數已知則已出現樣本出現的概率。 比如,我們想了解拋硬幣是正面(head)的概率分佈θθ

極大估計EM

tle 標準 rod 獨立 ble com 評估 n) date title: 最大似然估計和EM算法 date: 2018-06-01 16:17:21 tags: [算法,機器學習] categories: 機器學習 mathjax: true --- 本文是對最大似

極大估計的角度理解深度學習中loss函式

從極大似然估計的角度理解深度學習中loss函式 為了理解這一概念,首先回顧下最大似然估計的概念: 最大似然估計常用於利用已知的樣本結果,反推最有可能導致這一結果產生的引數值,往往模型結果已經確定,用於反推模型中的引數.即在引數空間中選擇最有可能導致樣本結果發生的引數.因為結果已知,則某一引數使得結果產生的概率

使用EM演算法對含有缺失資料的聯合泊松分佈的引數進行極大估計

本文是對《ML estimation in the bivariate passion distribution in the presence of missing values via the em algorithm》K.Adamids & S.L

缺失資料的極大估計《Statistical Analysis with Missing Data》習題7.16

一、題目 a)極大似然估計 X X X為伯努利分佈,並且

機器學習筆記極大估計與貝葉斯估計的區別

似然函式: 樣本資料的分佈和在引數為下的概率分佈的相似程度 極大似然估計:只要求出符合樣本資料分佈的最優引數即可,不需要考慮先驗。 貝葉斯估計   MAP(最大後驗估計)

01 EM演算法 - 大綱 - 最大估計(MLE)、貝葉斯演算法估計、最大後驗概率估計(MAP)

EM演算法的講解的內容包括以下幾個方面: 1、最大似然估計2、K-means演算法3、EM演算法4、GMM演算法 __EM演算法本質__是統計學中的一種求解引數的方法,基於這種方法,我們可以求解出很多模型中的引數。 1、最大似然估計在__求解線性模型__的過程中,我們用到了__最大似然估計(MLE)

機器學習極大估計

一、問題描述 二、演算法核心思想分析 三、程式碼及執行結果 a.py import xlrd import numpy as np # 讀取資料 def read_d

最大估計演算法極大估計演算法

寫的很通俗易懂……. 最大似然估計提供了一種給定觀察資料來評估模型引數的方法,即:“模型已定,引數未知”。簡單而言,假設我們要統計全國人口的身高,首先假設這個身高服從服從正態分佈,但是該分佈的均值與方差未知。我們沒有人力與物力去統計全國每個人的身高,但是可以通

MATLAB學習筆記極大估計

極大似然估計的步驟: 1、寫出似然函式 2、對似然函式取對數,並整理 3、求導數 4、解似然方程 極大似然估計的Matlab命令mle呼叫格式: phat=mle(data) 返回服從正態分佈的資料引數的極大似然估計。 phat=mle(data,'distributi

概率統計與機器學習獨立同分布,極大估計,線性最小二乘迴歸

獨立同分布 獨立性 概念:事件A,B發生互不影響 公式:P(XY)=P(X)P(Y) , 即事件的概率等於各自事件概率的乘積 舉例: 正例:兩個人同時向上拋硬幣,兩個硬幣均為正面的概率 反例:獅子在某地區出現的概率為X,老虎出現概率為Y,同時出現

【ML學習筆記】17多元正態分佈下極大估計最小錯誤率貝葉斯決策

簡述多元正態分佈下的最小錯誤率貝葉斯 如果特徵的值向量服從d元正態分佈,即其概率密度函式為: 即其分佈可以由均值向量和對稱的協方差矩陣 唯一確定。 如果認為樣本的特徵向量在類內服從多元正態分佈: 即對於每個類i,具有各自的類內的均值向量和協

機器學習演算法最大估計證明最小二乘法合理性

最小二乘法的核心思想是保證所有資料誤差的平方和最小,但我們是否認真思考過為什麼資料誤差平方和最小便會最優,本文便從最大似然估計演算法的角度來推導最小二乘法的思想合理性,下面我們先了解一下最大似然估計和最小二乘法,最後我們通過中心極限定理剋制的誤差ε服從正態分佈

極大估計一個例子

1 題目: 已知甲、乙兩射手命中靶心的概率分別為0.9及0.4,今有一張靶紙上面的彈著點表明為10槍6中,已知這張靶紙肯定是甲、乙之一射手所射,問究竟是誰所射? 【題目選自《應用數理統計》,吳翊、李永樂、胡慶軍編著,國防科技大學出版社,1995年8月第1版,第33頁例2.7】

數理統計7矩法估計MM極大估計MLE,定時截尾實驗

在上一篇文章的最後,我們指出,引數估計是不可能窮盡討論的,要想對各種各樣的引數作出估計,就需要一定的引數估計方法。今天我們將討論常用的點估計方法:矩估計、極大似然估計,它們各有優劣,但都很重要。由於本系列為我獨自完成的,缺少審閱,**如果有任何錯誤,歡迎在評論區中指出,謝謝**! [TOC] ## Par