1. 程式人生 > >指數分佈族

指數分佈族

從標題上看,是“指數分佈族(exponential family)”,不是“指數分佈(exponential distribution)”,這是兩個不同的概念,不要弄混了。指數分佈族在上世紀30年代中期被提出,在概率論和統計學中,它是一些有著特殊形式的概率分佈的集合,包括許多常用的分佈,如正態分佈、指數分佈、伯努利分佈、泊松分佈、gamma分佈、beta分佈等等。指數分佈族為很多重要而常用的概率分佈提供了統一框架,這種一般性有助於表達的方便和從更大的巨集觀尺度上理解這些分佈。

下面我們用一個重要分佈的例子來說明下指數分佈族。假設有一個正態分佈,均值為0,服從X−N(0,σ2)X−N(0,σ2),則其概率密度函式PDF為:

f(x|σ)=1σ2π−−√e−x22σ2
f(x|σ)=1σ2πe−x22σ2
這個概率密度函式由一個引數σσ來定義。我們可以把該式子作如下變形:

f(x|σ)=12π−−√e−logσe−x22σ2=12π−−√e−x22σ2−logσ=12π−−√e−12σ2x2−logσ
f(x|σ)=12πe−logσe−x22σ2=12πe−x22σ2−logσ=12πe−12σ2x2−logσ
令:h(x)=12π√h(x)=12π,η(σ)=−12σ2η(σ)=−12σ2,T(x)=x2T(x)=x2,A(σ)=logσA(σ)=logσ;則上式可以用如下的形式表達:

f(x|σ)=h(x)exp(η(σ)T(x)−A(σ))
f(x|σ)=h(x)exp(η(σ)T(x)−A(σ))
我們把引數一般化為θθ,則上式為: 
f(x|θ)=h(x)exp(η(θ)T(x)−A(θ))
f(x|θ)=h(x)exp(η(θ)T(x)−A(θ))
這就是指數分佈族的概率密度函式PDF或概率質量函式PMF的通用表示式框架。

分佈函式框架中的h(x)h(x),η(θ)η(θ),T(x)T(x)和A(θ)A(θ)並不是任意定義的,每一部分都有其特殊的意義。 
θθ是自然引數(natural parameter),通常是一個實數; 
h(x)h(x)是底層觀測值(underlying measure); 
T(x)T(x)是充分統計量(sufficient statistic); 
A(θ)A(θ)被稱為對數規則化(log normalizer)。 
為什麼被稱為對數規則化,和對數有什麼關係?我們把上式作以下變形:

f(x|θ)=h(x)exp(η(θ)T(x))exp(A(θ))
f(x|θ)=h(x)exp(η(θ)T(x))exp(A(θ))
兩邊同乘以exp(A(θ))exp(A(θ)),得到: 
exp(A(θ))f(x|θ)=h(x)exp(η(θ)T(x))
exp(A(θ))f(x|θ)=h(x)exp(η(θ)T(x))
兩邊同時積分,得到: 
∫exp(A(θ))f(x|θ)dx=∫h(x)exp(η(θ)T(x))dx
∫exp(A(θ))f(x|θ)dx=∫h(x)exp(η(θ)T(x))dx

exp(A(θ))∫f(x|θ)dx=∫h(x)exp(η(θ)T(x))dx
exp(A(θ))∫f(x|θ)dx=∫h(x)exp(η(θ)T(x))dx

根據概率密度函式PDF的定義,∫f(x|θ)dx=1∫f(x|θ)dx=1,因此整理上式得到: 
exp(A(θ))=∫h(x)exp(η(θ)T(x))dx
exp(A(θ))=∫h(x)exp(η(θ)T(x))dx

則: 
A(θ)=ln∫h(x)exp(η(θ)T(x))dx
A(θ)=ln∫h(x)exp(η(θ)T(x))dx

我們再看看泊松分佈的例子,根據泊松分佈的概念,其概率質量函式PMF為: 
f(x|λ)=e−λλxx!
f(x|λ)=e−λλxx!

改寫上式,我們可以得到: 
f(x|λ)=e−λλxx!=1x!e−λelnλx=1x!exlnλ−λ
f(x|λ)=e−λλxx!=1x!e−λelnλx=1x!exlnλ−λ

令θ=λθ=λ,h(x)=1x!h(x)=1x!,η(θ)=lnλη(θ)=lnλ,T(x)=xT(x)=x,A(θ)=λA(θ)=λ,則泊松分佈也可以表示成: 
f(x|θ)=h(x)exp(η(θ)T(x)−A(θ))
f(x|θ)=h(x)exp(η(θ)T(x)−A(θ))

因此,泊松分佈也屬於指數分佈族。
--------------------- 
作者:saltriver 
來源:CSDN 
原文:https://blog.csdn.net/saltriver/article/details/55105285 
版權宣告:本文為博主原創文章,轉載請附上博文連結!