Preface

Jensen’s Inequality（Jensen不等式）
Expectation-Maximization Algorithm（EM演算法）

Jensen’s Inequality

對於凸函式

令 $f (x)$ 為一個凸函式，且如果它有二階導數，其二階導數恆大於等於0（ $f (x)^{^{″}} \geq 0$ ）。令 $x$ 為一個隨機變數，那麼：

\begin{aligned} E [f (x)] \geq f (E X) \end{aligned}

這個不等式的含義如下圖所示：
這裡寫圖片描述

我們可以進一步推匯出，如果

f (x)^{^{″}} > 0

，即

f (x)

為一個嚴格的凸函式。那麼：

\begin{aligned} E [f (x)] = f (E X) & ⟺ x 为常量的概率为1 \\ ⟺ X = E X 的概率为1 \end{aligned}

對於凹函式

如果 $f (x)^{^{″}} \leq 0$ ，即 $f (x)$ 為一個凸函式。那麼：

\begin{aligned} f (E X) \geq E [f (x)] \end{aligned}

Expectation-Maximization Algorithm

問題定義

假設訓練集 ${x^{(1)}, x^{(2)}, . . ., x^{(m)}}$ 是由m個獨立的無標記樣本構成。我們有這個訓練集的概率分佈模型 $p (x, z; θ)$ ，但是我們只能觀察到 $x$ 。我們需要使引數 $θ$ 的對數似然性最大化，即：

\begin{aligned} arg max_{θ} l (θ) & = arg max_{θ} \underset{i = 1}{\sum^{m}} l o g p (x^{(i)}; θ) \\ = arg max_{θ} \underset{i = 1}{\sum^{m}} l o g \sum_{z} p (x^{(i)}, z^{(i)}; θ) \end{aligned}

形式化過程

EM演算法的過程大致如下：

首先，初始化 $θ^{(0)}$ ，調整 $Q (z)$ 使得 $J (Q, θ^{(0)})$ 與 $θ^{(0)}$ 相等，然後求出 $J (Q, θ^{(0)})$ 使得到最大值的 $θ^{(1)}$

相關推薦

Andrew Ng機器學習課程筆記（十三）之無監督學習之EM演算法

Preface Jensen’s Inequality（Jensen不等式） Expectation-Maximization Algorithm（EM演算法） Jensen’s Inequality 對於凸函式令f(x)f(x)為

Andrew Ng機器學習課程筆記（四）之神經網絡

sca 優化介紹 www 之間 output 現在利用 href Andrew Ng機器學習課程筆記（四）之神經網絡版權聲明：本文為博主原創文章，轉載請指明轉載地址 http://www.cnblogs.com/fydeblog/p/7365730.html 前言

Andrew NG機器學習課程筆記（十）

特徵選擇嚴格上來說也是模型選擇的一種。這裡不去辨析他們的關係，重點說明問題。假設我們想對維度為n的樣本進行迴歸，然後，n可能大多以至於遠遠大於訓練樣例數。但是我們感覺很多特徵對於結果是無用的，想剔除n中的無用特徵。n個特徵就有2^n種情況。如果我們去列舉這些情況，然後利用交叉驗證去選，太麻煩了。因此需要一些啟

Andrew NG機器學習課程筆記（六）

支援向量機學習方法包括構建由簡至繁的模型：線性可分支援向量機，線性支援向量機，以及非線性支援向量機。簡單模型是複雜模型的基礎，也是複雜模型的特殊情況。當訓練資料線性可分時，通過硬間隔最大化，學習一個線性的分類器，即線性支援向量機，又稱為硬間隔支援向量機。當訓練集近似線性可分時，通過軟間隔最大化，也學習一個線性

機器學習課程筆記（2）

分類問題（接1） logistic迴歸中的代價函式：對於原來的迴歸方程， J（θ）=1/m∑1/2（hθ（x）-y）2 與線性迴歸相同，所不同的是線性迴歸中hθ（x）為f（x），logistics中hθ（x）為sigmoid-f（x）我們先設cost（h

2018-3-21李巨集毅機器學習視訊筆記（十三）--“Hello Wrold” of Deep learning

Keras：有關的介紹：總的來說就是一個深度學習框架keras - CSDN部落格https://blog.csdn.net/xiaomuworld/article/details/52076202軟體工程中的框架：一種可複用的設計構件（從巨集觀上大體結構的一種規定約束）軟體

機器學習讀書筆記（三）決策樹基礎篇之從相親說起

方法事務家裏分類筆記判斷都是 rom tro 一、決策樹決策樹是什麽？決策樹(decision tree)是一種基本的分類與回歸方法。舉個通俗易懂的例子，如下圖所示的流程圖就是一個決策樹，長方形代表判斷模塊(decision block)，橢圓形成代

Elam的吳恩達深度學習課程筆記（一）

記憶力是真的差，看過的東西要是一直不用的話就會馬上忘記,於是乎有了寫部落格把學過的東西儲存下來，大概就是所謂的集鞏固，分享，後期查閱與一身的思想吧，下面開始正題深度學習概論什麼是神經網路什麼是神經網路呢，我們就以房價預測為例子來描述一個最簡單的神經網路模型。　　假設有6間

斯坦福深度學習課程筆記（二）

損失函式和優化官網 ppt 1 損失函式損失函式是用來定量地分析我們的模型預測效果有多糟糕的函式。損失函式輸出值越大，代表我們的模型效果越糟糕。損失函式的通用表示：假設我們的資料集有N個樣本，{(xi,yi)}i=1N\{(x_i,y_i)\}^{N}_

David Silver強化學習課程筆記（五）

第五課：模型無關的控制         本文主要介紹模型無關的控制，包括同策略方法（On-Policy，也譯作“在策略”）和異策略（Off-Policy，也譯作“離策略”）方法，由於是模型無關，因此本文聊的是學習（learning），而不是規劃（planning）。

David Silver強化學習課程筆記（三）

第三課：動態規劃        課程標題本來是“Planning by Dynamic Programming”，應該翻譯為”利用動態規劃方法進行規劃“，但是感覺有點長，所以就使用”動態規劃“作為標題，大家理解就好......        先說下這節課講的主要內容，主要有：

David Silver強化學習課程筆記（一）

  大家好，我是微念。         國慶這些天大致學習了一下David Silver的強化學習課程，感覺挺受用的，大家可以去百度雲盤（無字幕版本）下載視訊，或者去B站搜尋觀看（有字幕版本），課程課件下載地址為David Silver課程課件。

David Silver強化學習課程筆記（八）（下）

第八課（下）：基於Simulation的搜尋方法在《第八課（上）：學習與規劃的結合》中，我們講到了Model-Based RL方法，在該方法中，我們首先擬合得到一個模型，然後可以利用各種規劃方法進行規劃，或者，可以引申出Sample-Based Plann

斯坦福深度學習課程筆記（一）

影象分類 ppt 1 資料驅動方法人眼和計算機看到的圖片不同，計算機看到的圖片是由很多代表畫素點的數字表示的陣列，所以人眼和計算機的視覺識別存在著Semantic Gap(語義鴻溝)。同時，讓計算機能夠有效地識別圖片中的物體之前，還存在很多挑戰：比如一些

Python學習總結筆記（4）--執行緒區域性變數之Threading.local

當我們使用執行緒的時候，能使用執行緒的區域性變數，就儘量不要用全域性變數，因為使用全域性變數涉及同步的問題（參見我的上一篇部落格Python學習總結筆記（3）–多執行緒與執行緒同步）。使用區域性變數的時候，需要傳遞引數，比如有這樣一個例子，程式需要處理客戶

Andrew Ng機器學習課程筆記（十二）之無監督學習之K-means聚類演算法

Preface Unsupervised Learning（無監督學習） K-means聚類演算法 Unsupervised Learning 我們以前介紹的所有演算法都是基於有類別標籤的資料集，當我們對於沒有標籤的資料進行分類時，以前的方

Andrew Ng機器學習課程筆記（十六）之無監督學習之因子分析模型與EM演算法

Preface Marginals and Conditionals of Gaussians（高斯分佈的邊緣分佈與條件分佈） Restrictions of ΣΣ（限制協方差矩陣） Factor Analysis（因子分析模型） EM Alg

吳恩達（Andrew Ng）《機器學習》課程筆記（1）第1周——機器學習簡介，單變數線性迴歸

吳恩達（Andrew Ng）在 Coursera 上開設的機器學習入門課《Machine Learning》：目錄一、引言一、引言 1.1、機器學習（Machine Learni

吳恩達（Andrew Ng）《機器學習》課程筆記（2）第2周——多變數線性迴歸

目錄四、多變數線性迴歸（Linear Regression with multiple variables） 4.1. 多維特徵（Multiple features）前面介紹的是單變數線性迴歸如下圖所示：

機器學習（十三）：CS229ML課程筆記（9）——因子分析、主成分分析（PCA）、獨立成分分析（ICA）

1.因子分析：高維樣本點實際上是由低維樣本點經過高斯分佈、線性變換、誤差擾動生成的，因子分析是一種資料簡化技術，是一種資料的降維方法，可以從原始高維資料中，挖掘出仍然能表現眾多原始變數主要資訊的低維資料。是基於一種概率模型，使用EM演算法來估計引數。因子分析，是分析屬性們的公