一。泊松分佈由二項分佈引出(二者都是離散型隨機變數

首先必須由二項分佈引出:

如果做一件事情成功的概率是 p 的話,那麼獨立嘗試做這件事情 n 次,成功次數的分佈就符合二項分佈。展開來說,在做的 n 次中,成功次數有可能是 0 次、1 次 …… n次。成功 i 次的概率是:

( n 中選出 i 項的組合數) * p ^ i * (1-p)^ (n-i)

以上公式很容易推導,用一點概率學最基本的知識就夠了。因為每一特定事件成功的概率是 p ,不成功的概率是 1-p 。i 次成功的事件可以任意分佈在總共的 n 次嘗試中。把它們乘起來就是恰好成功 i 次的概率。

當我們把二項分佈推而廣之後,就可以得到波鬆分佈。

可以這樣考慮,在一個特定時間內,某件事情會在任意時刻隨機發生(前提是,每次發生都是獨立的,且跟時間無關)。當我們把這個時間段分成非常小的時間片構成時,可以認為,每個時間片內,該事件可能發生,也可能不發生。幾乎可以不考慮發生多於一次的情況(因為時間片可被分的足夠小)。

當時間片分的越小,該時間片內發生這個事件的概率 p 就會成正比的減少。即:特定時間段被分成的時間片數量 n 與每個時間片內事件發生的概率 p 的乘積 n*p 為一個常數。這個常數表示了該事件在指定時間段發生的頻度。

回過頭來再來看這段時間內,指定事件恰好發生 i 次的概率是多少?代入上面推匯出來的公式得到:

n * (n-1)... (n-i+1) / i! * p^i * (1-p) ^ (n-i) => np(np-p)...(np-ip+p) / i! * ((1-p) ^ (-1/p))^(-np) / (1-p) ^i

當 n 趨向無窮大時,p 趨向 0 。而此時 (1-p)^(-1/p) 趨向 e 。注:詳細推導過程如下

上面這個公式可以劃簡為 lamda ^ i / i! * e ^ - lamda (lamda=n*p)

這個公式推導過程不復雜,耐心點一看就明白。而這個關於 i 的分佈就是著名的泊松分佈了。

二。泊松分佈的應用:

首先泊松分佈只能用來計算次數,例如汽車站候車人數就符合泊松分佈,第一個人候車與第二個人後車沒有關係,就像二項分佈的獨立重複試驗一樣。見圖,

理解二項分佈與泊松分佈的關係

在推算某些特殊事件在一段時間內可能發生次數的時候經常會用到泊松分佈。

泊松分佈適合於描述單位時間內隨機事件發生的次數的概率分佈。如某一服務設施在一定時間內受到的服務請求的次數,電話交換機接到呼叫的次數、汽車站臺的候客人數、機器出現的故障數、自然災害發生的次數、DNA序列的變異數、放射性原子核的衰變數等等。

機器學習中的應用:

LDA的標準過程中單詞出現的次數一般是由泊松分佈來產生的。