1. 程式人生 > >如何理解泊松分佈和泊松過程

如何理解泊松分佈和泊松過程

背景 阮一峰的部落格講到了如何理解泊松分佈: 本文根據其文繼續講講。 泊松分佈的由來 泊松分佈由二項分佈演進而來。二項分佈十分好理解,給你n次機會拋硬幣,硬幣正面向上的概率為p,問在這n次機會中有k次(k<=n)硬幣朝上的概率為多少? 在這n次拋硬幣中,硬幣朝上的次數的期望有多少?
如果現在我能根據n的大小來控制p,從而控制這個期望,即無論n為多大,硬幣朝上的次數的期望不變(恆為lambda):
那麼當n趨於無窮的時候,P(K_heads)將趨於泊松分佈,即: 所以,實驗結果滿足泊松分佈的實驗即為泊松過程。泊松過程把離散的伯努利過程變得連續化了:原來是拋n次硬幣,現在變成了無窮多次拋硬幣;原來某次拋硬幣得到正面的概率是p,而現在p無限接近於0(p=lambda/n),即:非常難丟擲正面朝上的硬幣;但是n次實驗中硬幣朝上的次數的期望不變,即lambda恆定。在泊松過程中,我們把丟擲硬幣正面這樣的事件叫做到達
(Arrival)。把單位時間內到達的數量,叫做到達率(Arrival Rate)。 故,泊松過程需要滿足以下三個性質: 1. 在任意單位時間長度內,到達率是穩定的。對應於無窮次拋硬幣的例子,我們相當於把一個單位時間分割成了無窮次拋硬幣的實驗,每次實驗產生正面的概率都是一樣的(為lambda/n),而在這無窮個拋硬幣實驗之後(即一個單位時間之後)我們期望能丟擲lambda個正面的硬幣。這個性質類比於在有限次拋硬幣(二次分佈)的例子中保證了每次擲出硬幣為正面的概率都為p。  2. 未來的實驗結果與過去的實驗結果無關。對應於無窮次拋硬幣的例子,之前不管丟擲了多少個正面和反面的硬幣,都不會影響之後硬幣出現的結果。
3. 在極小的一段時間內,有1次到達的概率非常小,沒有到達的概率非常大。對應於無窮次拋硬幣的例子,我們發現硬幣朝上的概率p=lambda/n趨向於0。 判斷一個過程是否為泊松過程 現在我們來講講阮一峰所舉的槍擊案的例子。這個例子給你了美國30年來每年的槍擊案發生數目,需要解決的問題是能否從每年發生槍擊案的數目判斷美國槍擊犯罪是否惡化。假設美國槍擊案犯罪沒有惡化,而是非常穩定,我們可以假設:槍擊案的發生為泊松過程,每年平均發生槍擊案的數目恆定(性質1),各個年份之間發生槍擊案的數目不互相影響(性質2),任一時刻發生槍擊案的概率很小(性質3),所以每年發生槍擊案的數目服從泊松分佈。 如何證明我們的假設是對的呢?如果槍擊案的發生為泊松過程,我們可以從資料中算出到達率lambda(年平均發生槍擊案數目)為2。因為在我們的假設下每年發生槍擊案的數目服從泊松分佈,那麼一年內發生0起槍擊案的概率為


一年內發生1起槍擊案的概率為

依此類推,那麼我們可以得到一張我們假設出的年槍擊案數目分佈和實際槍擊案發生數目的對照表: 以及分佈圖:
再由一些統計學的計算方法(非本文重點,細節參見阮一峰原文),計算出我們假設的值與實際觀測的值是否接近。如果接近,則說明我們的假設-槍擊案發生為泊松過程-是正確的。 The Random Incidence Paradox 我們先來看看一個經典的Paradox:


上面的例子告訴了我們,假設一個事件的平均到達時間為T,你作為觀察者多次介入該事件,並記錄連續兩個到達間隔的時間,你記錄得到的平均到達時間會比T更長。你現在是在抽樣“前後兩次到達的間隔時間”,你介入該事件並開始記錄是等概的,但你並不是等概地抽取不同到達間隔時間的樣本:你更加有可能碰到兩次到達間隔時間較長的情況,導致你最後的結果存在了BIAS。 那麼現在也就更好理解下面的一個問題: 如果在一種BUS到達station為泊松過程,其到達率為lambda,即平均等待時間為1/lambda。你作為觀察者在任意時間進入station,並多次記錄前後到達時間的間隔(這裡意為,你進入station時就可以立馬知道前一次到達的時間,然後開始等待直到下一次到達並記錄)。求問你記錄的平均到達間隔時間為多少? 答案肯定是大於1/lambda的。假設你到達的時刻為t*,前一到達時刻為U,後一將要到達時刻為L,那麼U至t*可以看做一段泊松過程,t*到L也可以看做一段泊松過程,所以你記錄的平均到達間隔時間應該是兩個泊松過程相加後的平均等待時間。多個泊松過程相加得到的是愛爾蘭(Erlang)過程,期望為k/lambda。所以本題最後的答案是2/lambda。