1. 程式人生 > >機器學習(周志華) 參考答案 第十四章 概率圖模型

機器學習(周志華) 參考答案 第十四章 概率圖模型

機器學習(周志華西瓜書) 參考答案 總目錄

1.試用盤式記法表示條件隨機場和樸素貝葉斯分類器。

條件隨機場:
這裡寫圖片描述
這樣畫的問題在於無法表示N個y之間的關係,到底怎麼畫我也不知道。

樸素貝葉斯分類器:y依賴於所有的變數x

這裡寫圖片描述

2.證明圖模型中的區域性馬爾可夫性:給定某變數的鄰接變數,則該變數條件獨立於其他變數。

直接使用全域性馬爾科夫性:將兩個非鄰接的變數看成A和C,肯定存在A的所有鄰接變數集合的子集B,把A和C分離(否則與條件矛盾),所以A和C獨立。

3.證明圖模型中的正對馬爾科夫性:給定其他所有變數,則兩個非鄰接變數條件獨立。

直接使用全域性馬爾科夫性:將兩個非鄰接的變數看成A和C,其他已知的變數為B。顯然B把A,C給分離了,所以A和C獨立。

4.試述在馬爾科夫隨機場中為何僅需對極大團定義勢函式。

顯然極大團的勢函式可以看成是所有子團勢函式的聯合分佈,再乘上規範化因子使得ψ(x)是正確的概率。

5.比較條件隨機場和對率迴歸,試析其異同。

這裡引用crftut-fnt書裡的圖
這裡寫圖片描述
可以看出鏈式條件隨機場是對率迴歸的序列化結果。通俗來說,對率迴歸是一維變數y對所有自變數x的條件概率,那麼條件隨機場就是每個自變數xi都會對應一個yi,就是多維變數y對自變數的條件概率。同時多元變數y還可能是結構型變數,比如鏈式結構,或者樹形結構等。
對率迴歸只有一個y節點,公式為:

P(y|x)=1Z(x)eψ(y,x)

鏈式條件隨機場相鄰的兩個y節點組成極大團,公式為:
P(y|x)=1Z(x)in1eψ(yi,yi+1,xi)
其中Z是歸一化引數,f是勢函式。

最大的區別在於在求條件概率時,對率迴歸考慮所有的變數x,而條件隨機場僅考慮當前與之對應的變數xi

6.證明變數消去法的計算複雜度隨圖模型中極大團的增長而呈指數增長,但隨著節點數的增長未必呈指數增長。

可以參考書329與330頁的公式,當對極大團計算概率累加時,要對內部所有變數同時進行累加,公式為:

...p(x1,x2,x3....)
所需要的計算次數是ti , ti表示每個變數的取值可能性,所以是指數級的。
而單獨增加節點數目,比如鏈式地增加,那麼可以列出公式:
p(xn|xn1)p(xn1|xn2)...p(x2|x1)
那麼最終要計算的次數只是ti,並不一定是指數增長。

7.吉布斯取樣可以看作MH演算法的特例,但吉布斯取樣中未使用“拒絕取樣”的策略,試述這樣做的好處。

MH演算法通過拒絕取樣最終能生成平穩的馬爾科夫鏈,但是有時因為拒絕概率太大導致狀態轉移頻繁的被拒絕,使得演算法效率低下。
吉布斯取樣通過每次僅改變一個變數,其他變數保持不變的方法,使得每次改變僅在一個維度,此時接受率為100%,所以不再拒絕,提升了效率。

8.平均場是一種近似推斷方法。考慮式(14.32),試析平均場法求解的近似問題與原問題的差異,以及實踐中如何選擇變數服從的先驗分佈。

平均場法通過將多元變數z拆分成數個相互獨立的多遠變數zi,然後單獨求出每一個zi最有可能的分佈來簡化問題。第一個差異是多個變數的獨立性假設並不一定存在,所以選擇變數時儘可能將相關性較大的劃為一組,以此逼近真實解。第二是假設每個zi所服從的先驗分佈,如果假設不當會造成該方法結果效果很差。所以應該根據當前子變數集合的現有樣本資料進行估計,結合可能的專業知識,來得到較好的分佈假設。

9.從網上下載或者自己實現LDA,分析《天龍八部》中每10回的話題演變情況。

10.試設計一個無須事先指定話題數目的LDA改進演算法。

暫無