資料探勘十大演算法（五）：EM(Expectation Maximum)演算法原理與Python實現

阿新 • • 發佈：2019-01-06

參考：

一、一個簡單的概率問題

實驗：現在有A和B兩個硬幣，我們從這兩個硬幣中，隨機選取5次，做5組實驗，每組實驗內容是：丟擲所選的硬幣，記錄正反面。

實驗資料如下：

目標：根據所得到的實驗資料，分別求出硬幣A和B丟擲後正面向上的概率。

根據古典概率的原理，容易求出:

硬幣A正面向上的概率為 PA = (9 + 8 + 7) / (10*3) = 0.8

硬幣B正面向上的概率為 PB = (5 + 4) / (10*2) = 0.45

二、如果不知道所選擇的的硬幣呢

如果不知道所選取的硬幣是A還是B，只記錄硬幣拋下後的正反面，那麼記錄的資料如下：

在這種情況下，目標相同：根據上面的實驗資料，分別求出硬幣A和B丟擲後正面向上的概率。

EM演算法的做法如下：

隨機設定PA = 0.8, PB = 0.6，我們計算一下，針對每次實驗，我們分別假設是硬幣A還是B，然後計算出現對應實驗結果的概率。比如針對第一次實驗，假設選擇的硬幣是A，那麼出現對應的實驗結果（5正5反）的概率為：

0.8^5*(1-0.8)^5

如此，計算對應的概率分別為：

反推的結果意思是，比較每組的兩個概率。比如，針對第一次實驗，選擇A得到的實驗結果的概率<B，所以反推得到本次所選擇的硬幣為B。

因此，計算PA和PB:

PA = (9 + 8) / (10 * 2) = 0.85

PB = (5 + 4 + 7) / (10 * 3) = 0.5333...

可以看出這和之前假設的PA = 0.85， PB = 0.6有所不同。這個過程是一個迭代的過程，一直用上面的方法，更新PA和PB，直到收斂，得到的PA和PB就是最終的答案。

上述問題的Python程式碼如下：

import numpy as np


if __name__ == '__main__':

    n, m = 5, 10    # 5組實驗，每組10次
    nzs = [5, 9, 8, 4, 7]   # 每組實驗，硬幣正面的次數

    # 初始化
    PA = 0.8    # 待求的概率：拋硬幣A正面向上的概率
    PB = 0.6    # 待求的概率：拋硬幣B正面向上的概率

    n_iter = 10
    for i in range(0, n_iter):  # 迭代多次
        selected_coins = []
        for j in range(0, n):
            # P_A 記錄的是，如果第j次實驗，選擇的是硬幣A，那麼出現對應的實驗結果的概率
            P_A = np.power(PA, nzs[j])*np.power(1-PA, m-nzs[j])
            P_B = np.power(PB, nzs[j])*np.power(1-PB, m-nzs[j])
            if P_A > P_B:
                selected_coins.append('A')
            else:
                selected_coins.append('B')
        fenzi = [0, 0]
        fenmu = [0, 0]
        for j, x in enumerate(selected_coins):
            if x == 'A':
                fenzi[0] += nzs[j]
                fenmu[0] += m
            else:
                fenzi[1] += nzs[j]
                fenmu[1] += m

        PA = fenzi[0] / fenmu[0]
        PB = fenzi[1] / fenmu[1]
        print(PA, PB)

迭代10次之後，執行結果如下：

可以看出，第二次就收斂了。真實的值是PA = 0.8, PB = 0.45。EM演算法求得結果與實際結果有差別。

三、小結

上述過程，可以歸納為如下幾個步驟：

step1. 隨機設定PA和PB的值

step2. 反推所取的硬幣是A還是B（Maximum）

step3. 根據反推的結果重新計算PA和PB（Expectation）

step4. 迭代上述過程

以上就是期望最大化的過程。其中step2，“反推”的過程採用的是極大似然估計。

四、改進的方法

上述案例中，step2“反推”的過程採用極大似然估計，“反推”所選取的硬幣是A還是B，改進的方法是：將概率歸一化如下：

針對第一組資料，此時不再根據 0.116 < 0.884，直接判定，第一組選擇的硬幣是B，而是說，選擇硬幣A的概率是0.116，選擇硬幣B的概率是0.884。

在這種情況下，PA的計算方法如下：

PA = 正面的情況 / [正面的情況 + (反面的情況)]

正面的情況 = (5*0.116 + 9*0.869 + 8*0.714 + 4*0.0471 + 7*0.484)

反面的情況 = (5*0.116 + 1*0.869 + 2*0.714 + 4(0.0471 + 3*0.484)

正面的情況 + 反面的情況 = 10 * （0.116 + 0.869 + 0.714 + 0.0471 + 0.484）

對應的程式碼如下：

import numpy as np


if __name__ == '__main__':

    n, m = 5, 10    # 5組實驗，每組10次
    nzs = [5, 9, 8, 4, 7]   # 每組實驗，硬幣正面的次數

    # 初始化
    PA = 0.8    # 待求的概率：拋硬幣A正面向上的概率
    PB = 0.6    # 待求的概率：拋硬幣B正面向上的概率

    n_iter = 10
    for i in range(0, n_iter):  # 迭代多次
        selected_coins_p_a = []
        selected_coins_p_b = []
        for j in range(0, n):
            # P_A 記錄的是，如果第j次實驗，選擇的是硬幣A，那麼出現對應的實驗結果的概率
            P_A = np.power(PA, nzs[j])*np.power(1-PA, m-nzs[j])
            P_B = np.power(PB, nzs[j])*np.power(1-PB, m-nzs[j])

            # 歸一化
            P_A = P_A / (P_A + P_B)
            P_B = 1 - P_A
            
            selected_coins_p_a.append(P_A)
            selected_coins_p_b.append(P_B)
            #
            # print('P_A', P_A)
            # print('P_B', P_B)
            # exit()

        zhengmian, fanmian = 0, 0
        for j in range(0, n):
            zhengmian += nzs[j] * selected_coins_p_a[j]
            fanmian += (m - nzs[j]) * selected_coins_p_a[j]
        PA = zhengmian / (zhengmian + fanmian)

        zhengmian, fanmian = 0, 0
        for j in range(0, n):
            zhengmian += nzs[j] * selected_coins_p_b[j]
            fanmian += (m - nzs[j]) * selected_coins_p_b[j]
        PB = zhengmian / (zhengmian + fanmian)

        print(PA, PB)

執行結果如下：

真實結果是0.8, 0.45。同樣是迭代10次，改進之前的結果是0.85, 0.53。改進之後的結果是0.79， 0.51，更接近真實值。

本文通過簡單的案例，理解了EM演算法背後的原理。

資料探勘十大演算法（五）：EM(Expectation Maximum)演算法原理與Python實現

參考：一、一個簡單的概率問題實驗：現在有A和B兩個硬幣，我們從這兩個硬幣中，隨機選取5次，做5組實驗，每組實驗內容是：丟擲所選的硬幣，記錄正反面。實驗資料如下：目標：根據所得到的實驗資料，分別求出硬幣A和B丟擲後正面向上的概率。根據古典概率的原

資料探勘入門系列教程（五）之Apriori演算法Python實現

資料探勘入門系列教程（五）之Apriori演算法Python實現載入資料集獲得訓練集頻繁項的生成生成規則獲得support獲得confidence獲得Lift進行驗證總結參考資料探勘入門系列教程（五）之Apriori演算法Python實現在上一篇部落格中，我們介紹了Apriori演算法的演算法流

資料探勘入門系列教程（二）之分類問題OneR演算法

資料探勘入門系列教程（二）之分類問題OneR演算法資料探勘入門系列部落格：https://www.cnblogs.com/xiaohuiduan/category/1661541.html 專案地址：GitHub 在上一篇部落格中，我們通過分析親和性來尋找資料集中資料與資料之間的相關關係。這篇部落

資料探勘十大演算法——支援向量機SVM（五）：線性支援迴歸

首先感謝“劉建平pinard”的淵博知識以及文中詳細準確的推導！！！支援向量機原理SVM系列文章共分為5部分：（一）線性支援向量機（二）線性支援向量機的軟間隔最大化模型（三）線性不可分支援向量機與核函式（四）SMO演算法原理（五）線性支援迴歸

資料探勘十大演算法（一）：決策樹演算法 python和sklearn實現

學完到第三章——決策樹，python程式碼實現的僅是ID3演算法，sklearn為優化過的C4.5，這裡做一個詳細的總結包括（原理、程式碼、視覺化、scikit-learn實現），皆為親自實踐後的感悟。以下進入正文。早前簡單瞭解了決策樹的原理，然後為了儘快使用便沒有深究直

資料探勘十大演算法——支援向量機SVM（一）：線性支援向量機

首先感謝“劉建平pinard”的淵博知識以及文中詳細準確的推導！！！本文轉自“劉建平pinard”，原網址為：http://www.cnblogs.com/pinard/p/6097604.html。支援向量機原理SVM系列文章共分為5部分：（一）線性支援向量機

資料探勘十大演算法之決策樹詳解（1）

在2006年12月召開的 IEEE 資料探勘國際會議上（ICDM， International Conference on Data Mining），與會的各位專家選出了當時的十大資料探勘演算法（ top 10 data mining algorithms ），

資料探勘十大演算法——支援向量機SVM（四）：SMO演算法原理

資料探勘十大演算法（九）：樸素貝葉斯 python和sklearn實現

第三個演算法終於算是稍有了解了，其實當你結合資料瞭解了它的實現原理後，你會發現確實很樸素。這裡對樸素貝葉斯演算法做一個介紹和總結，包括（原理、一個程式碼示例、sklearn實現），皆為親自實踐後的感悟，下面進入正文。原理：首先我們需要了解概率論的一些簡單知識：

資料探勘十大經典演算法（詳解）

資料探勘十大經典演算法一、 C4.5 C4.5演算法是機器學習演算法中的一種分類決策樹演算法,其核心演算法是ID3 演算法. C4.5演算法繼承了ID3演算

資料探勘十大演算法——支援向量機SVM（二）：線性支援向量機的軟間隔最大化模型

資料探勘十大演算法（九）：樸素貝葉斯原理、例項與Python實現

一、條件概率的定義與貝葉斯公式二、樸素貝葉斯分類演算法樸素貝葉斯是一種有監督的分類演算法，可以進行二分類，或者多分類。一個數據集例項如下圖所示：現在有一個新的樣本， X = (年齡：<=30, 收入：中，是否學生：是，信譽：中)，目標是利用樸素貝

資料探勘十大演算法----EM演算法（最大期望演算法）

概念在統計計算中，最大期望（EM）演算法是在概率（probabilistic）模型中尋找引數最大似然估計或者最大後驗估計的演算法，其中概率模型依賴於無法觀測的隱藏變數（Latent Variable）。最大期望經常用在機器學習和計算機視覺的資料聚類（Data Clust

資料探勘十大經典演算法之K-means 演算法

K-means演算法（非監督性學習） 1.演算法思想 k-means演算法是一種簡單的迭代型聚類演算法，採用距離作為相似性指標，從而發現給定資料集中的K個類，且每個類的中心是根據類中所有值的均值得到，每個類

資料探勘十大經典演算法之KNN演算法

KNN演算法（監督性學習） 1.演算法思想 KNN是通過測量不同特徵值之間的距離進行分類。它的思路是：如果一個樣本在特徵空間中的k個最相似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別，其

資料探勘十大經典演算法原理

資料探勘十大經典演算法一、 C4.5 C4.5演算法是機器學習演算法中的一種分類決策樹演算法,其核心演算法是ID3 演算法. C4.5演算法繼承了ID3演算法的優點，並在以下幾方面對ID3演算法進行了改進： 1) 用資訊增益率來選擇屬性，克服了

資料探勘十大演算法之Apriori詳解

資料探勘十大經典演算法(九) 樸素貝葉斯分類器 Naive Bayes

分類演算法--------貝葉斯定理：樸素貝葉斯的基本思想：對於給出的待分類項，求解在此項出現的條件下各個類別出現的概率，哪個最大，就認為此待分類項屬於哪個類別。可以看到，整個樸素貝葉斯分類分為三個階段：第一階段——準備工作階段，這個階段的任務是為樸

資料探勘十大經典演算法

國際權威的學術組織the IEEE International Conference on Data Mining (ICDM) 2006年12月評選出了資料探勘領域的十大經典演算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, Ada

資料探勘十大經典演算法--CART: 分類與迴歸樹

一、決策樹的型別在資料探勘中，決策樹主要有兩種型別: 分類樹的輸出是樣本的類標。迴歸樹的輸出是一個實數 (例如房子的價格，病人呆在醫院的時間等)。術語分類和迴歸樹 (CART) 包含了上述兩種決策樹, 最先由Breiman 等提出.分類樹和迴歸樹有些共同點和不同

資料探勘十大演算法（五）：EM(Expectation Maximum)演算法原理與Python實現

參考：

一、一個簡單的概率問題

二、如果不知道所選擇的的硬幣呢

三、小結

四、改進的方法

相關推薦