1. 程式人生 > >最大似然和貝葉斯引數估計

最大似然和貝葉斯引數估計

引數估計是指已知分類器結構或函式形式,從訓練樣本中估計引數。以貝葉斯分類為例,假定概率密度分佈符合一維高斯分佈,則引數估計的任務就是根據訓練樣本估計μ和σ。常用的引數估計方法有最大似然估計和貝葉斯引數估計法。

最大似然估計

假設引數為確定值,根據似然度最大進行最優估計。

給定樣本資料D1,D2...DcD_1,D_2...D_c下標代表類別。假設每類樣本獨立同分布(萬年不變的假設),用DiD_i來估計θiθ_i,即給每個類列一個判別函式,用該類的樣本來估計該類判別函式的引數。
貝葉斯決策過程
這裡需要理解一點:做貝葉斯決策時,最關鍵的是求概率密度函式p(xwi,Di)

p(x|w_i,D_i),從而獲得每個類的判別函式(見上圖)。即估計p(xwi)p(x|w_i)中帶有的引數,它們分佈在另一個線性空間。注意區分特徵空間和引數空間。
為了估計引數,需要如下幾個步驟:

  • 求似然(Likelihood)p(Dθ)=k=1np(xkθ)p(D|θ) =\prod_{k=1}^{n}p(x_k|θ)
    注意,上面這個式子針對的已經是具體的類別wiw_i了,不要問ww引數去哪了。另外,這裡的n代表樣本數目,要和前面的類別數目c區分開。這個式子很好理解,即出現我們當前觀測到的樣本概率,求使它最大化的引數即可。
  • 最大化似然maxθp(Dθ)θp(Dθ)=0\max_θp(D|θ)→▽_θp(D|θ)=0
    這個梯度是在p維引數空間求解,即θp=[θ1......θp] ▽_θp= \begin{bmatrix} \frac{\partial}{\partialθ_1}\\ ...\\ ...\\ \frac{\partial}{\partialθ_p} \end{bmatrix}
  • 求解梯度。可求解析解或梯度下降。(常用Log-Likelihood,易求解)

這裡插一句高斯分佈最大似然估計的結果(因為比較常用),具體推導不做說明。
一維情況:
μ

^=1nk=1nxk\hat{μ}=\frac{1}{n}\sum_{k=1}^nx_k
σ^2=1nk=1n(xkμ^)2\hat{σ}^2=\frac1{n}\sum_{k=1}^n(x_k-\hat{μ})^2
多維情況:
μ^=1nk=1nxk\hat{μ}=\frac{1}{n}\sum_{k=1}^nx_k
Σ^=1nk=1n(xkμ^)(xkμ^)T\hat{\Sigma}=\frac1{n}\sum_{k=1}^n(x_k-\hat{μ})(x_k-\hat{μ})^T

貝葉斯引數估計

引數被視為隨機變數,估計其後驗分佈

貝葉斯引數估計和最大似然一樣,要用一類的資料DiD_i估計引數θiθ_i的分佈。它假定已知p(xθ)p(x|θ)p(θ)p(θ),來預測p(θD)p(θ|D)。為求p(xwi,Di)p(x|w_i,D_i),帶入具體類別w後即轉換為求p(xD)p(x|D)。由公式:
p(xD)=p(x,θD)dθ=p(xθ,D)p(θD)dθ=p(xθ)p(θD)dθp(x|D)=\int{p(x,θ|D)}dθ \\ \qquad\qquad \qquad=\int{p(x|θ,D)p(θ|D)dθ}\\ \qquad\qquad=\int{p(x|θ)p(θ|D)dθ}p(xD)p(x|D)p(θD)p(θ|D)聯絡起來,便與求解。公式第二步到第三步是因為測試樣本x和訓練樣本D的選取是獨立的(要是這樣的話,p(x|D)豈不是直接就可以寫成p(x)了?想了一下,覺得寫成p(x|D)並不重要,重要的是引出引數θ的後驗概率,從而將其與類條件概率密度p(xw)p(x|w)聯絡起來)。

以高斯密度函式為例,考慮一維情況。為了預測p(μD)p(μ|D),寫成:
p(μD)=p(Dμ)p(μ)p(Dμ)p(μ)dμ=αk=1np(xkμ)p(μ)p(μ|D)=\frac{p(D|μ)p(μ)}{\int{p(D|μ)p(μ)dμ}}\\ \qquad\quad=\alpha\prod_{k=1}^np(x_k|μ)p(μ)
α\alpha是常數項。因為p(xkμ)N(μσ2)p(x_k|μ)\sim N(μ,σ^2)(假設σ2σ^2已知),p(μ)N(μ0σ02)p(μ)\sim N(μ_0,σ_0^2),公式展開:
在這裡插入圖片描述
與μ無關的因子都被歸入α\alpha中。可見p(μD)p(μ|D)仍符合高斯分佈,對照形式p(μD)=12πσnexp(12(xμn)2σn2)p(μ|D)=\frac{1}{\sqrt{2\pi}σ_n}exp(-\frac{1}{2}\frac{(x-μ_n)^2}{σ_n^2})可得
在這裡插入圖片描述
當n趨於無窮大,μnμ_n等於μn^\hat{μ_n}。由
p(xD)=p(xμ)p(μD)dμ p(x|D)=\int{p(x|μ)p(μ|D)dμ}(不展開了,帶入就行)