1. 程式人生 > >泊松分佈和指數分佈:通俗易懂

泊松分佈和指數分佈:通俗易懂

泊松分佈的簡易理解

如果某事件以固定強度λ,隨機且獨立地出現,該事件在單位時間內出現的次數(個數)可以看成是服從泊松分佈。

這個固定強度λ其實就是泊松分佈的期望和方差。傳送門3、泊松分佈的期望和方差推導

舉個例子吧:假如我平均每天去超市三次,那我明天會去超市幾次?

注意,平均每天去超市三次,並不代表每天一定去超市三次。這裡的平均每天去超市三次就是指固定強度λ=3.

因此,我明天可能去超市n次,n=0,1,2,3,……。泊松分佈計算器這個計算器預設是單位時間,與時間相關的就直接用λt替換λ~

明天我去超市0次的概率,根據泊松分佈可以算出0.0498;

明天我去超市1次的概率,根據泊松分佈可以算出0.1494;不大於1次的概率,0.1991

明天我去超市2次的概率,根據泊松分佈可以算出0.224;不大於2次的概率,0.4232

明天我去超市3次的概率,根據泊松分佈可以算出0.224;不大於3次的概率,0.6472

明天我去超市4次的概率,根據泊松分佈可以算出0.168;不大於4次的概率,0.8153

明天我去超市5次的概率,根據泊松分佈可以算出0.1008;不大於5次的概率,0.9161

泊松分佈的圖形大概是下面的樣子。這個圖是傳送門1中的圖形,該圖形中,固定時間長度(單位時間)與縱座標的乘積就表示概率。所有的柱狀圖的面積相加為1。


matlab下泊松分佈繪圖程式碼

 x=0:1:10
 px=poisspdf(x,3); %λ=3 生成泊松分佈的概率密度函式
 plot(x,px)
 y=poisscdf(x,3);  %λ=3 生成泊松分佈的概率分佈函式
 plot(x,y)

固定強度λ=3的泊松概率分佈函式圖形如下:


(概率)分佈函式還有一個更好理解的名字,叫做累積分佈函式(Cumulative Distribution Function)。累積理解起來有點不爽,我一般是記成累計~一個意思,理解就好。根據分佈函式,可以較直觀的看出,去超市不大於n次的概率。

固定強度λ=3的泊松概率密度函式圖形如下:


某一點的概率密度大,說明在這一點附近發生的概率相對於其他點發生的概率大。注意,概率密度是可以大於1的,假如說某一點的概率密度為100,但是這一點附近指的是,這一點的區間長度可能會遠遠小於0.001.因此這一點附近發生的概率大概是0.1=100x0.001,概率密度與x軸圍成的面積是1,也就是說,所有事件發生的概率和為1。這裡面涉及到微積分中的積分問題,感興趣的可以去看下微積分中積分的物理意義~

我的例子是離散型的隨機變數,但是我做的圖是連續型的隨機變數的概率分佈函式和概率密度函式,所以例子和圖不匹配。

曾經的我以為世界非黑即白,硬幣只有正反兩面。

初中的我知道了硬幣的正面和反面的概率都是0.5。(離散)

再後來我知道了,世界並不是非黑即白,還有灰色。從白(255)到黑(0),是可以用灰度來衡量的。(連續)

人可以被分成好人和壞人。概率密度函式類似於灰度。

人的一生很長,某人在某一點的概率密度函式很大,灰度很大(255),但是持續的時間很短,說明這個人在那段時間表現出來的是個好人。這或許也是理解概率密度函式的一種方法。

小的時候我評價別人的時候說,他是好人。我現在會說,他很可能是好人(較大的概率)。概率論讓我中毒不淺~

注意Poisson還有一個知名度比較小的第二個定義,或者說是Poisson Process的定義:假定一個事件在一段時間內隨機發生,且符合以下條件:

(1)將該時間段無限分隔成若干個小的時間段,在這個接近於零的小時間段裡,該事件發生一次的概率與這個極小時間段的長度成正比。
(2)在每一個極小時間段內,該事件發生兩次及以上的概率恆等於零。
(3)該事件在不同的小時間段裡,發生與否相互獨立。
則該事件稱為poisson process。

泊松分佈的用途:

  1. 某人一天內收到的微信的數量
  2. 來到某公共汽車站的乘客
  3. 某放射性物質發射出的粒子
  4. 顯微鏡下某區域中的白血球

指數分佈的簡易理解

指數分佈是一種連續概率分佈。

指數分佈和泊松分佈是有關係的:

指數函式的無記憶性來自於泊松過程k=0時的 時間指數性,而泊松過程k=0時的 時間指數性 來自於泊松分佈時 lambda的恆定性,也就是離散情況下,二項分佈的n*p的恆定性。

指數分佈的用途:

  1. 指數分佈可以用來表示獨立隨機事件發生的時間間隔,比如旅客進機場的時間間隔、中文維基百科新條目出現的時間間隔等等
  2. 在排隊論中,一個顧客接受服務的時間長短也可以用指數分佈來近似。
  3. 無記憶性的現象(連續時)

舉個例子吧,假設我平均每三天去超市一次,服從指數分佈。

那麼我平均每天去超市1/3次。 λ就表示平均每單位時間發生該事件的次數,是指數函式的分佈引數。此處的λ=1/3。

那麼,指數分佈概率分佈是解決什麼問題呢。

我今天去了超市,那麼

我隔了1天沒有去超市的概率,根據指數分佈可以算出0.7165,隔了1天就又去了超市的概率,根據指數分佈可以算出0.2835;

我隔了2天沒有去超市的概率,根據指數分佈可以算出0.5134,我在2天內去了超市的概率,根據指數分佈可以算出0.4866;

我隔了3天沒有去超市的概率,根據指數分佈可以算出0.3679,我在3天內去了超市的概率,根據指數分佈可以算出0.6321;

我隔了4天沒有去超市的概率,根據指數分佈可以算出0.2636,我在4天內去了超市的概率,根據指數分佈可以算出0.7364;

我隔了5天沒有去超市的概率,根據指數分佈可以算出0.1889,我在5天內去了超市的概率,根據指數分佈可以算出0.8111;

(計算方法使用的是MATLAB中的expcdf函式,此處需要注意的是,expcdf函式的第二個引數是指數函式的期望值,此處λ=1/3,期望值為3,也就是說,我預期隔了3天會去超市1次。)

matlab下指數分佈繪圖程式碼

x=0:1:10;
ex=expcdf(x,3);%這裡的第二個引數是均值(期望),指數分佈的概率分佈函式
plot(x,ex)
ey=exppdf(x,3);%指數分佈的概率密度函式
plot(x,ey)

λ=1/3(期望為3)的指數分佈概率分佈函式圖形如下:


從圖中可以看出,我今天去了超市,那麼我在10天內去了超市的概率都還沒到1。

因為銀行排隊論中,一個顧客接受服務的時間長短也可以用指數分佈來近似,所以說,哪怕銀行僱員告訴你,我們平均每10分鐘就能服務完1個顧客,你也要做好排隊2個小時的思想準備~~~~

λ=1/3(期望為3)的指數分佈概率密度分佈函式圖形如下:


因為銀行排隊論中,一個顧客接受服務的時間長短也可以用指數分佈來近似,所以說,哪怕銀行僱員告訴你,我們平均每10分鐘就能服務完1個顧客,我們也要做好排隊2個小時的思想準備,但是根據指數分佈概率密度來看,我們排隊2個小時才被服務的概率密度還是比較低的,因此排隊2個小時左右(一個時間段)的概率也是比較低的。注意:概率密度和概率的不同。

總結

如果某事件以固定強度λ,隨機且獨立地出現,該事件在單位時間內出現的次數(個數)可以看成是服從泊松分佈。我們往往計算的是單位時間內出現的次數多少的概率,也就是說,出現1次的概率,兩次的概率……

指數分佈可以用來表示獨立隨機事件發生的時間間隔,我們往往計算的是在1個單位時間內事件沒有發生的概率,然後推出在1個單位時間內事件發生的概率。同理,我們計算的是在2個單位時間內事件沒有發生的概率,然後推出在2個單位時間內事件發生的概率。

同時要注意一下泊松分佈和指數分佈的期望,尤其要注意MATLAB中相關函式的引數是均值(期望值)。