機器學習導論（張志華）：EM演算法

阿新 • • 發佈：2018-12-07

#前言
這個筆記是北大那位老師課程的學習筆記，講的概念淺顯易懂，非常有利於我們掌握基本的概念，從而掌握相關的技術。
#basic concepts
EM演算法的核心是，首先假設模型符合什麼分佈，然後計算相關引數，再根據計算出的結果，重新劃分樣本分佈，然後再計算相關引數，直到收斂為止。
公式證明比較繁瑣，這裡就不貼了，附上一個python實現的EM

#! -*- coding=utf-8 -*-
 
#模擬兩個正態分佈的均值估計
 
from numpy import *
import numpy as np
import random
import copy
 
SIGMA = 6
EPS = 0.0001
#生成方差相同,均值不同的樣本
def generate_data():	
	Miu1 = 20
	Miu2 = 40
	N = 1000
	X = mat(zeros((N,1)))
	for i in range(N):
		temp = random.uniform(0,1)
		if(temp > 0.5):
			X[i] = temp*SIGMA + Miu1
		else:
			X[i] = temp*SIGMA + Miu2
	return X
 
#EM演算法
def my_EM(X):
	k = 2
	N = len(X)
	Miu = np.random.rand(k,1)
	Posterior = mat(zeros((N,2)))
	dominator = 0
	numerator = 0
	#先求後驗概率
	for iter in range(1000):
		for i in range(N):
			dominator = 0
			for j in range(k):
				dominator = dominator + np.exp(-1.0/(2.0*SIGMA**2) * (X[i] - Miu[j])**2)
				#print dominator,-1/(2*SIGMA**2) * (X[i] - Miu[j])**2,2*SIGMA**2,(X[i] - Miu[j])**2
				#return
			for j in range(k):
				numerator = np.exp(-1.0/(2.0*SIGMA**2) * (X[i] - Miu[j])**2)
				Posterior[i,j] = numerator/dominator			
		oldMiu = copy.deepcopy(Miu)
		#最大化	
		for j in range(k):
			numerator = 0
			dominator = 0
			for i in range(N):
				numerator = numerator + Posterior[i,j] * X[i]
				dominator = dominator + Posterior[i,j]
			Miu[j] = numerator/dominator
		print (abs(Miu - oldMiu)).sum() 
			#print '\n'
		if (abs(Miu - oldMiu)).sum() < EPS:
			print Miu,iter
			break
 
if __name__ == '__main__':
	X = generate_data()
	my_EM(X)

機器學習導論（張志華）：EM演算法

#前言這個筆記是北大那位老師課程的學習筆記，講的概念淺顯易懂，非常有利於我們掌握基本的概念，從而掌握相關的技術。 #basic concepts EM演算法的核心是，首先假設模型符合什麼分佈，然後計算相關引數，再根據計算出的結果，重新劃分樣本分佈，然後再計算相關引數，直到收斂為止。公式證

機器學習導論（張志華）：概率PCA

前言這個筆記是北大那位老師課程的學習筆記，講的概念淺顯易懂，非常有利於我們掌握基本的概念，從而掌握相關的技術。 basic concepts PCA： X

機器學習導論（張志華）：基本概念

前言這個筆記是北大那位老師課程的學習筆記，講的概念淺顯易懂，非常有利於我們掌握基本的概念，從而掌握相關的技術。正文 Data Mining 是半自動化的 Machine Learning 是自動化的。 Michal Jordon。 ML：A f

機器學習導論（張志華）：多項式分佈

前言這個筆記是北大那位老師課程的學習筆記，講的概念淺顯易懂，非常有利於我們掌握基本的概念，從而掌握相關的技術。基本概念兩個矩陣相似：兩個矩陣特徵值一樣。兩個矩陣合同：矩一樣，就是個數一樣。 #高斯分佈的特性知道μ和σ \mu 和\sigmaμ和σ就可以

機器學習導論（張志華）：正定核應用

前言這個筆記是北大那位老師課程的學習筆記，講的概念淺顯易懂，非常有利於我們掌握基本的概念，從而掌握相關的技術。 basic concepts If a function is positive definite，then matrix is P.S.D. x

《機器學習》（周志華）習題3.1-3.3個人筆記

3.1 試分析在什麼情況下式（3.2）中不必考慮偏置項b. 其實從前面第一章開始的習題就有很多不會的，第二章更是隻會做前兩道，現在到第三章，發現第一題都不是很明瞭了。從我個人來看：f(x)=w'x+b中，x代表d維向量，w則是相應的權重向量，而b=b*x0可看做權重為b，

機器學習筆記（周志華）3

1· 第三章線性模型 3.1基本形式非線性模型可以線上性模型的基礎上通過引入層級結構或高維對映而得 3.2線性迴歸對離散屬性，若屬性值間存在“序”關係，比如{1，0}，若屬性值間不存在序關係，假定有k個屬性值，則通常轉化為k維向量，線性迴歸試圖學得f

《機器學習》（周誌華）第4章決策樹筆記理論及實現——“西瓜樹”

取數據 dataset 結點（六） eight dot 都是 ret 集合參考書籍：《機器學習》（周誌華）說明：本篇內容為讀書筆記，主要參考教材為《機器學習》（周誌華）。詳細內容請參閱書籍——第4章決策樹。部分內容參考網絡資源

（二）《機器學習》（周誌華）第4章決策樹筆記理論及實現——“西瓜樹”——CART決策樹

cati create def __main__ element iuc 文件取數 min CART決策樹（一）《機器學習》（周誌華）第4章決策樹筆記理論及實現——“西瓜樹” 參照上一篇ID3算法實現的決策樹（點擊上面鏈接直達），進一步實現CART決策樹。其實

機器學習筆記（二十一）：TensorFlow實戰十三（遷移學習）

1 - 引言越複雜的神經網路，需要的訓練集越大，ImageNet影象分類資料集有120萬標註圖片，所以才能將152層的ResNet的模型訓練到大約96.%的正確率。但是在真正的應用中，很難收集到如此多的標註資料。即使收集到也需要花費大量人力物力來標註。並且即使有了大量的資料集，要訓練一

機器學習筆記（二十二）：TensorFlow實戰十四（影象風格遷移）

1 - 引言相信大家都使用過一種濾鏡，可以把一張照片轉換成不同風格的照片，如下圖所示：那麼我們就來利用TensorFlow來實現以下這個演算法，這個演算法出自Gatys的A Neural Algorithm of Artistic Style論文，十分有趣，讓我們來詳細的介紹一下這

西瓜書（周志華）：什麼是版本空間以及如何求取版本空間

下面是自己結合百度的資料來理解的一些比較通俗的說法：假設空間：屬性所有可能取值組成的可能的樣本版本空間：與已知資料集一致的所有假設的子集集合。（綠色加號代表正類樣本，紅色小圈代表負類樣本） GB 是最大泛化正假設邊界(maximally General positi

《機器學習（周志華）》——第6章支援向量機

1、間隔與支援向量（1）分類學習的最基本思想就是：基於訓練集D在樣本空間中找到一個劃分超平面，將不同類別的樣本分開。（2）在樣本空間中，用線性方程來表示劃分超平面：ωTx + b = 0 ；其中ω = (ω1;ω2; … ; ωd)為法向量，決定超平面內的方向；b

機器學習-第五章神經網路讀書筆記（周志華）

前言博主第一次接觸機器學習，內容可能有許多原文復現，但是我儘量用自己的話來講，覺得寫得還行的話點個喜歡，謝謝！讀書筆記第一目的是為了總結，第二是順便在部落格上記錄我的學習歷程，同時也希望讀者能有一點點收穫吧~如果不對的地方，還請多多指教！正文周志華的機器學習第五章講的是關於神

機器學習（周志華）習題3.3

本人菜鳥一枚，由於需要完成作業，所以嘗試使用機器學習工具庫去解決該題（周志華《機器學習》3.3題），主要參考別人的程式碼進行了改寫，如有不足請多多指教！以下附上本題程式碼 import tensorflow as tf fro

機器學習（周志華）第四章習題解答

轉自：http://blog.csdn.NET/wzmsltw/article/details/51059394 本文是對周志華的《機器學習》的習題解答，文章整理的很好，為方便之後檢視，記錄如下～～～～注：本文中的程式碼均使用Python，常用工具包包括 pandas，

機器學習（周志華）（第八章）課後答案（歡迎探討）

作為一個初學者，嘗試著去寫作業，並對答案做個整理附錄。這裡是第八章。整合學習8.1 假設拋硬幣正面朝上的概率為p , 反面朝上的概率為 1-p. 令H(n)代表拋n次硬幣所得正面朝上的次數，則最多k次正面朝上的概率為 (典型的二項分佈對小於等於k 的做累加和）

《機器學習（周志華）》西瓜資料集3.0

書上的一個常用資料集編號,色澤,根蒂,敲聲,紋理,臍部,觸感,密度,含糖率,好瓜 1,青綠,蜷縮,濁響,清晰,凹陷,硬滑,0.697,0.46,是 2,烏黑,蜷縮,沉悶,清晰,凹陷,硬滑,0.774

機器學習（周志華）參考答案第一章緒論

表1.1中若只包含編號為1和4的兩個樣例，試給出相應的版本空間。表1.1 西瓜資料集編號色澤根蒂敲聲好瓜1青綠蜷縮濁響是2烏黑蜷縮濁響是3青綠硬挺清脆否4烏黑稍蜷沉悶否假設空間指的是問題所有的假設組成的空間，我們可以把學習過程看做是在假設空間中搜索的過程，搜尋目標是尋找與訓練

《機器學習（周志華）》Chapter1 緒論課後習題答案

表1.1 包含4個樣例，3種屬性，假設空間中有3 * 4 * 4 + 1 = 49種假設。在不考慮冗餘的情況下，最多包含k個合取式來表達假設空間，顯然k的最大值是49，每次從中選出k個來組成析合式，共種可能。但是其中包含了很多沉餘的情況(至少存在一個合取式被剩餘的析合式完全

機器學習導論（張志華）：EM演算法

相關推薦