關於共軛分佈，beta分佈，二項分佈和Dirichlet分佈、多項式分佈的關係

阿新 • • 發佈：2019-01-21

在機器學習領域中，概率模型是一個常用的利器。用它來對問題進行建模，有幾點好處：1）當給定引數分佈的假設空間後，可以通過很嚴格的數學推導，得到模型的似然分佈，這樣模型可以有很好的概率解釋；2）可以利用現有的EM演算法或者Variational method來學習。通常為了方便推導引數的後驗分佈，會假設引數的先驗分佈是似然的某個共軛分佈，這樣後驗分佈和先驗分佈具有相同的形式，這對於建模過程中的數學推導可以大大的簡化，保證最後的形式是tractable。

在概率模型中，Dirichlet這個詞出現的頻率非常的高。初始機器學習的同學或者說得再廣一些，在學習概率模型的時候，很多同學都不清楚為啥一個表現形式如此奇怪的分佈Dirichlet分佈會出現在我們的教科書中，它是靠啥關係攀上了多項分佈（Multinomial distribution）這個親戚的，以至於它可以“堂而皇之”地扼殺我大天朝這麼多數學家和科學家夢想的？為了引出背後這層關係，我們需要先介紹一個概念——共軛先驗（Conjugate Prior）

。

Conjugate Prior: In Bayesian probability theory, if the posterior distributions p(θ|x) are in the same family as the prior probability distribution p(θ), the prior and posterior are then called conjugate distributions, and the prior is called a conjugate prior for the likelihood. ----from wiki
用中文來講，在貝葉斯統計理論中，如果某個隨機變數Θ的後驗概率 p(θ|x)和其先驗概率p(θ)屬於同一個分佈簇的，那麼稱p(θ|x)和p(θ)為共軛分佈，同時，也稱p(θ)為似然函式p(x|θ)的共軛先驗。

介紹了這個重要的概念之後，我們回到文章的正題。首先需要弄清楚什麼是二項分佈（Binomial distribution）。這個概念是從伯努利分佈推進的。伯努利分佈是一個離散型的隨機分佈，其中的隨機變數只有兩類取值，非正即負{+，-}。二項分佈即重複n次的伯努利試驗，記為 X~b(n,p)。概率密度函式（概率質量函式）為 $P(K=k)=\binom{n}{k}p^k(1-p)^{n-k}$ 。再來看看Beta分佈，給定引數 $\alpha>0$ 和 $\beta>0$ ，取值範圍為[0,1]的隨機變數x的概率密度函式 $f(x;\alpha,\beta)=\frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}$ ，其中 $\frac{1}{B(\alpha,\beta)}=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}$ ， $\Gamma(z)=\int_0^{\infty}t^{z-1}e^{-t}dt$ 。這裡假定，先驗分佈和似然概率如下所示：

$p(x)=\frac{1}{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1}$ $p(y|x)=\binom{n}{k}x^k(1-x)^{n-k}$

那麼很容易知道後驗概率（條件概率）為

$p(x|y)=\frac{1}{B(\alpha+k,\beta+n-k)}x^{\alpha+k-1}(1-x)^{\beta+n-k-1}$

弄清楚了Beta分佈和二項分佈之間的關係後，對於接下來的Dirichlet 分佈和多項分佈（Multinomial distribution）的關係理解將會有非常大的幫助。多項分佈，從字面上所表現出的含義，我們也大抵知道它的意思。它本身確實也是這樣的，其單次試驗中的隨機變數的取值不再是0-1的，而是有多種離散值可能（1,2,3...,k），其中 $\sum_{i=1}^k{p_i}=1,p_i>0$

。多項分佈的概率密度函式為 $P(x_1,x_2,...,x_k;n,p_1,p_2,...,p_k)=\frac{n!}{x_1!\cdot\cdot\cdot x_k!}p_1^{x_1}\cdot\cdot\cdot p_k^{x_k}$ 。而Dirichlet分佈的的密度函式形式也如出一轍： $f(x_1,x_2,...,x_k;\alpha_1,\alpha_2,...,\alpha_k)=\frac{1}{B(\alpha)}\prod_{i=1}^k{x_i^{\alpha^i-1}}$ ，其中 $B(\alpha)=\frac{\prod_{i=1}^k\Gamma(\alpha^i)}{\Gamma(\sum_{i=1}^k{\alpha^i})},\sum{x_i}=1$ 。到這裡，我們可以看到Beta分佈和Dirichlet 分佈有多相似啊，二項分佈和多項分佈有多相似啊！

再一次來看看共軛。假設 $x=(x_1,x_2,...,x_k)$ 有先驗分佈

$p(x;\alpha_1,\alpha_2,...,\alpha_k)=\frac{1}{B(\alpha)}\prod_{i=1}^k{x_i^{\alpha^i-1}}$

，

另有似然函式

$p(y|x)=\frac{n!}{n_1!\cdot\cdot\cdot n_k!}x_1^{n_1}\cdot\cdot\cdot x_k^{n_k}，$

則後驗概率

$p(x|y)=\frac{1}{Z}\prod_{i=1}^k{x_i^{\alpha^i+n_i-1}}$

，和Dirichlet 分佈形式一致。

其實，細心的讀者已經發現，這裡這四類分佈，如果但從數學形式上看，它們的組織形式都是一致的，都是通過乘積的形式構成，加上先驗分佈、似然函式和後驗分佈之間的乘積推導關係，可以很容易發現，它們所表現出的共軛性質很容易理解。

關於共軛分佈，beta分佈，二項分佈和Dirichlet分佈、多項式分佈的關係

關於共軛分佈，beta分佈，二項分佈和Dirichlet分佈、多項式分佈的關係

初見dfs，用dfs計算二維陣列和

劍指off：在一個二維陣列中（每個一維陣列的長度相同），每一行都按照從左到右遞增的順序排序，每一列都按照從上到下遞增的順序排序。請完成一個函式，輸入這樣一個二維陣列和一個整數，判斷陣列中是否含有該整數

在一個二維陣列中，每一行都按照從左到右遞增的順序排序，每一列都按照從上到下遞增的順序排序。請按成一個函式，輸入這樣一個二維陣列和一個整數，判斷陣列中是否含有該整數

【不用敲命令】如何正常啟動雙系統(windows win7 linux ubuntu )，避免任一系統啟動項丟失或啟動卡殼、卡頓！

L1、L2 正則項詳解 - 解空間、先驗分佈、最大似然估計 and 最大後驗估計

資訊熵、交叉熵與相對熵(KL散度)的關係，還介紹了聯合資訊熵和條件熵、互資訊（資訊增益）的概念

伯努利分佈、二項分佈、Beta分佈、多項分佈和Dirichlet分佈與他們之間的關係，以及在LDA中的應用

機器學習之先驗分佈，後驗分佈，共軛先驗分佈

數學(3) 各種數學分佈,高斯，伯努利，二項，多項，泊松，指數，Beta，Dirichlet

無約束演算法-最速下降，牛頓法，擬牛頓，共軛梯度求解二次函式極小值

二項分佈和泊松分佈，二者的關係

二項分佈，binomial(n,k,p)

在 SQL 裡描述資料分佈情況的時候，有 Cardinality 和 Selectivity 兩個概念，有什麼區別？

課堂練習--計算陣列的最大值，最小值，平均值，標準差，中位數；numpy.random模組提供了產生各種分佈隨機數的陣列；正態分佈；Matplotlib

statistic—偏度，峰度，卡方分佈，t分佈，f分佈

自相關函式怎麼理解，為什麼定義中有共軛，卷積呢。定義中的卷積，共軛有什麼意義？尤其是在訊號處理方面

高斯分佈中均值，方差，協方差的計算及matlab實現

深度學習/機器學習入門基礎數學知識整理（五）：Jensen不等式簡單理解，共軛函式

C/C++變數在記憶體中的分佈，堆疊區別，堆疊段，資料段，程式碼段，附加段

關於共軛分佈，beta分佈，二項分佈和Dirichlet分佈、多項式分佈的關係

相關推薦