1. 程式人生 > >分布問題(二元,多元變量分布,Beta,Dir)

分布問題(二元,多元變量分布,Beta,Dir)

共軛分布 概率 訓練數據 存在 希望 貝葉斯 如果 發生 beta

這涉及到數學的概率問題。

二元變量分布:


伯努利分布,就是0-1分布(比如一次拋硬幣,正面朝上概率)

那麽一次拋硬幣的概率分布如下:

技術分享圖片

假設訓練數據如下:

技術分享圖片

那麽根據最大似然估計(MLE),我們要求u:

技術分享圖片

求值推導過程如下:

技術分享圖片

所以可以求出:

技術分享圖片

以上的推導過程就是極大似然估計,我們可以看出u就是樣本出現的頻率除以總共拋硬幣的實驗次數。但是極大似然估計有它的局限性,當訓練樣本比較小的時候會導致Overfitting問題,比如說拋了10次硬幣,有8次朝上,那麽根據極大似然估計,u的取值就應該是8/10(這符號頻率派的觀點)。如何解決這個問題呢?

那麽這時候就需要從貝葉斯理論出發,貝葉斯理論認為,u並不是一個固定的值,u是同樣服從某個分布,因此我們假設u有個先驗分布P(u)。

但是如何選取這個先驗分布p(u)呢?

我們知道

技術分享圖片

因此我們希望先驗分布也可以有類似的概率分布,為什麽這麽說呢?因為後驗概率=先驗概率*似然函數,所以如果選擇的先驗分布和似然函數有一樣的結構,那麽得到的後驗概率也會存在相似的結構,這樣會使得我們後面的計算簡便。

共軛性:θ的後驗分布p(θ|x)與先驗分布P(θ)屬於同一分布,那麽稱二者為共軛分布。

因此我們假設u的先驗分布也為

技術分享圖片

那麽這時候數學裏面有個分布叫做Beta分布:

技術分享圖片

那麽假設我們投硬幣,m次正面,l次反面。總共是m+l=N次實驗:

那麽這時候u的分布為:

技術分享圖片

依舊和先驗分布服從一樣的分布(共軛分布)

假設我們要預測下一次的實驗結果,也就是給定D得到下一次的預測分布:

技術分享圖片

我們可以發現當m,N無限變大的時候,這種估計近似等於極大似然估計。

多元變量分布:


很多時候,變元的不止只有兩個,還有多元,其實估計過程是類似的。 假設有k維向量,其中某個向量Xk=1,其他等於0。

例如某個變量x2發生,則X2=1,x=(0,1,0,0,0,0) 以拋篩子為例子,總共有6個面。

那麽xk

=1發生的概率為Uk,那麽x的分布為:

技術分享圖片

考慮n個獨立觀測值{x1,x2,...xn}D,對應的似然函數:

技術分享圖片

其中mk其實就是這麽多次實驗中,uk出現的次數大小。估計極大似然估計,我們會得出:

技術分享圖片

同理,為了避免數據量小導致的過擬合問題,我們對Uk也假設一個先驗分布:

考慮到對於多元變量的分布u:

技術分享圖片

因此我們選擇它的共軛分布狄利克雷分布為先驗分布:

技術分享圖片

那麽後驗分布=似然分布*先驗分布:

技術分享圖片

依舊和先驗分布服從一樣的分布(共軛分布)

假設我們要預測下一次的實驗結果,也就是給定D得到下一次的預測分布:

技術分享圖片

又因為對於狄利克雷分布:

技術分享圖片

所以對於某個類的分布預測為:

技術分享圖片

分布問題(二元,多元變量分布,Beta,Dir)