1. 程式人生 > >伯努利分佈、二項分佈、多項分佈、貝塔分佈、狄利克雷分佈、高斯分佈

伯努利分佈、二項分佈、多項分佈、貝塔分佈、狄利克雷分佈、高斯分佈

伯努利分佈:

伯努利分佈(Bernoulli distribution)又名兩點分佈或0-1分佈,介紹伯努利分佈前首先需要引入伯努利試驗(Bernoulli trial)。

伯努利試驗是隻有兩種可能結果的單次隨機試驗,即對於一個隨機變數X而言:

伯努利試驗都可以表達為“是或否”的問題。

如果試驗E是一個伯努利試驗,將E獨立重複地進行n次,則稱這一串重複的獨立試驗為n重伯努利試驗。

 

進行一次伯努利試驗,成功(X=1)概率為p(0<=p<=1),失敗(X=0)概率為1-p,則稱隨機變數X服從伯努利分佈。其概率質量函式為:

伯努利分佈的EX= p,DX=p(1-p)。

伯努利分佈是一個離散型機率分佈,是N=1時二項分佈的特殊情況。

伯努利分佈的典型例子:拋一次硬幣是正面向上嗎?剛出生的小孩是個女孩嗎?

二項分佈:

二項分佈(Binomial distribution)是n重伯努利試驗成功次數X的離散概率分佈。

如果試驗E是一個n重伯努利試驗,每次伯努利試驗的成功概率為p,X代表成功的次數,則X的概率分佈是二項分佈,記為X~B(n,p)。

其概率質量函式為

顯然

 

伯努利分佈是二項分佈在n=1時的特例;

二項分佈名稱的由來,是由於其概率質量函式中使用了二項係數,該係數是二項式定理中的係數,二項式定理由牛頓提出:

二項分佈的典型例子是扔硬幣,硬幣正面朝上概率為p, 重複扔n次硬幣,k次為正面的概率即為一個二項分佈概率。

多項分佈:

多項式分佈(Multinomial Distribution)是二項式分佈的推廣。二項式做n次伯努利實驗,規定了每次試驗的結果只有兩個,如果現在還是做n次試驗,只不過每次試驗的結果可以有多m個,且m個結果發生的概率互斥且和為1,則發生其中一個結果X次的概率就是多項式分佈。

扔骰子是典型的多項式分佈。扔骰子,不同於扔硬幣,骰子有6個面對應6個不同的點數,這樣單次每個點數朝上的概率都是1/6(對應p1~p6,它們的值不一定都是1/6,只要和為1且互斥即可,比如一個形狀不規則的骰子),重複扔n次,如果問有k次都是點數6朝上的概率就是:

多項式分佈一般的概率質量函式為:

如:

假設螢火蟲對食物的喜歡次序為:花粉,蚜蟲,麵糰。假設20%的螢火蟲喜歡花粉,35%的螢火蟲喜歡蚜蟲,45%的螢火蟲喜歡麵糰。我們對30只螢火蟲做實驗,發現8只喜歡花粉,10只喜歡蚜蟲,12只喜歡麵糰,則這件事的概率為

貝塔分佈:

介紹貝塔分佈(Beta distribution)之前,需要先明確一下先驗概率、後驗概率、共軛分佈的概念。

具體可以看這篇文章:https://blog.csdn.net/zgcr654321/article/details/83478212

先驗概率:

就是事情尚未發生前,我們對該事發生概率的估計。利用過去歷史資料計算得到的先驗概率,稱為客觀先驗概率; 當歷史資料無從取得或資料不完全時,憑人們的主觀經驗來判斷而得到的先驗概率,稱為主觀先驗概率。例如拋一枚硬幣頭向上的概率為0.5,這就是主觀先驗概率。

後驗概率:

指通過調查或其它方式獲取新的附加資訊,利用貝葉斯公式對先驗概率進行修正,而後得到的概率。

先驗概率和後驗概率的區別:

先驗概率不是根據有關自然狀態的全部資料測定的,而只是利用現有的材料(主要是歷史資料)計算的;後驗概率使用了有關自然狀態更加全面的資料,既有先驗概率資料,也有補充資料。

先驗概率和後驗概率的關係:

共軛分佈(conjugacy):

後驗概率分佈函式與先驗概率分佈函式具有相同形式。

在試驗資料比較少的情況下,如果我們直接用最大似然法估計二項分佈的引數可能會出現過擬合的現象(比如,扔硬幣三次都是正面,那麼最大似然法預測以後的所有拋硬幣結果都是正面)。

為了避免這種情況的發生,可以考慮引入先驗概率分佈來控制引數,以防止出現過擬合現象。

如何選擇呢?

二項分佈的似然函式為:

如果選擇的先驗概率也與有次方的乘積的關係,那麼後驗概率分佈的函式形式就會跟它的先驗函式形式一樣了。具體來說,選擇先驗概率(prior)的形式是,那麼後驗概率(posterior)就會變成。此時後驗概率(posterior)和先驗概率(prior)具有相同的函式形式(都是也與次方的乘積),這樣先驗概率與後驗概率就是共軛分佈了。

因此,我們選擇貝塔分佈作為先驗概率,其概率分佈函式為:

其中

通過分部積分法,可推匯出這個函式有如下遞迴性質

Γ(x)函式可以看作是階乘在實數集上的延拓,具有如下性質

狄利克雷分佈:

Dirichlet分佈可以看做是分佈之上的分佈。

在伯努利分佈裡,引數μ就是拋硬幣取某一面的概率,因為伯努利分佈的狀態空間只有{0,1}。但是在多項分佈裡,因為狀態空間有K個取值,因此μ變成了向量。多項分佈的likelihood函式形式是,因此就像選擇伯努利分佈的共軛先驗貝塔函式時那樣,狄利克雷分佈的函式形式應該如下: 

上式中,是迪利特雷引數,把上式歸一化為真正的迪利特雷分佈為: 

其中。這個函式和貝塔分佈有點像,跟多項式分佈也有點像。就像β分佈那樣,狄利克雷分佈就是它所對應的後驗多項分佈的引數μ的分佈,只不過μ是一個向量。 

舉例:

假設我們有一個骰子,其有六面,分別為{1,2,3,4,5,6}。現在我們做了10000次投擲的實驗,得到的實驗結果是六面分別出現了{2000,2000,2000,2000,1000,1000}次,如果用每一面出現的次數與試驗總數的比值估計這個面出現的概率,則我們得到六面出現的概率,分別為{0.2,0.2,0.2,0.2,0.1,0.1}。現在,我們還不滿足,我們想要做10000次試驗,每次試驗中我們都投擲骰子10000次。我們想知道,骰子六面出現概率為{0.2,0.2,0.2,0.2,0.1,0.1}的概率是多少(說不定下次試驗統計得到的概率為{0.1, 0.1, 0.2, 0.2, 0.2, 0.2}這樣了)。這樣我們就在思考骰子六面出現概率分佈這樣的分佈之上的分佈。而這樣一個分佈就是Dirichlet分佈。

高斯分佈:

其實就是正態分佈(Normal distribution),又叫高斯分佈。

若隨機變數X服從一個數學期望為μ、方差為σ^2的正態分佈,記為N(μ,σ^2)。其概率密度函式為:

正態分佈的期望值μ決定了其位置,其標準差σ決定了分佈的幅度。當μ = 0,σ = 1時的正態分佈是標準正態分佈。下圖中綠色曲線就是標準正態分佈。