1. 程式人生 > >《統計學習方法》第1章 課後題答案

《統計學習方法》第1章 課後題答案

1.1 說明伯努利模型的極大似然估計以及貝葉斯估計中的統計學習方法三要素。伯努利模型是定義在取值為0與1的隨機變數上的概率分佈。假設觀測到伯努利模型n次獨立的資料生成結果,其中k次的結果為1,這時可以用極大似然估計或貝葉斯估計來估計結果為1的概率。

解:
三要素分別是模型、策略、演算法。

模型:伯努利模型,即定義在取值為0與1的隨機變數上的概率分佈。

策略:極大似然估計和貝葉斯估計的策略都是對數損失函式,只不過貝葉斯估計使用的是結構風險最小化。

演算法:極大似然估計所使用的演算法是求取經驗風險函式的極小值,貝葉斯估計所使用的演算法是求取引數的後驗分佈,然後計算其期望。

定義A為取值為0或1的隨機變數,並設A

=1的概率是θ,即:

P(A=1)=θ,P(A=0)=1θ

獨立抽取n個同分布的隨機變數A1,A2,,An。使用極大似然估計即求取以下經驗風險函式的極值點:

L(P)=i=1nlogP(Ai)=klogθ(nk)log(1θ)
即求θ,使得:
L(P)Pθ=kθnk1θ=0
即得θ的估計值為θ=kn

如果使用貝葉斯估計,則將A=1的概率θ也看做是一個隨機變數,假設其先驗分佈為均勻分佈,即:

f(θ)=1
那麼根據貝葉斯定理,其後驗分佈為:
f(θ|A1,,An)=f(A1,,An|θ)f(θ)f(A1,,An)f(θ)dθ

上式中分母與θ無關,所以可忽略,即:
f(θ|A1,,An)θk(1θ)(nk)=θk+11(1θ)nk+11
注意,引數為a,b的Beta分佈的概率密度函式如下
f(p;a,b)=Γ(a+b)Γ(a)Γ(b)pa1(1p)b1
因此可以看出,θ的後驗分佈服從引數為k+1nk+1的Beta分佈,即:
f(θ|A1,,An)=Γ(n+2)Γ(k+1)Γ(nk+1)θk+11(1θ)nk+11
因此,上式的期望(即θ的估計值)為:
E(θ)=k+1n+2