1. 程式人生 > >隨機變數概率分佈函式彙總-離散型分佈+連續型分佈

隨機變數概率分佈函式彙總-離散型分佈+連續型分佈

2018.08.18-更新

概率分佈用以表達隨機變數取值的概率規律,根據隨機變數所屬型別的不同,概率分佈取不同的表現形式

離散型分佈:二項分佈、多項分佈、伯努利分佈、泊松分佈

連續型分佈:均勻分佈、正態分佈、指數分佈、伽瑪分佈、偏態分佈、貝塔分佈、威布林分佈、卡方分佈、F分佈

連續型隨機變數:若隨機變數X的分佈函式F(X)可以表示為一個非負可積函式f(x)的積分,則稱X為連續型隨機變數,f(x)稱為x的概率密度函式,積分值為X的數學期望

一.伯努利分佈

伯努利分佈只有兩種可能的結果,1-成功和0-失敗,具有伯努利分佈特徵的隨機變數X可以取值為1的概率為p,取值為0的概率1-p,其中成功和失敗的概率不一定相等

成功的概率=0.15,失敗的概率=0.85,來自伯努利分佈的隨機變數X的期望值如為:E(X)=1*p+0*(1-p)=p;隨機變數與二項分佈的方差為:V(X)=E(X²)–[E(X)]² =p–p²

二.均勻分佈

均勻分佈所有可能結果n個數的發生概率是相等的,均勻分佈變數X的概率密度函式([概率密度函式]概念是針對連續分佈的,求積分即發生概率)為:

均勻分佈密度函式曲線的形狀是一個矩形,這也是均勻分佈又稱為矩形分佈的原因,a和b是引數。例子:花店每天銷售的花束數量是均勻分佈的,最多為40,最少為10,計算日銷售量在15到30之間的概率(即密度函式曲線下的面積):(30-15)*(1/(40-10))=0.5。遵循均勻分佈的變數X的期望和方差為:(a+b)/2、(b-a)^2/12

三.二項分佈

二項分佈的每一次嘗試都是獨立的,前一次投擲的結果不能決定或影響當前投擲的結果,只有兩個可能結果並且重複n次的實驗叫做二項式。二項分佈的引數是n和p,其中n是試驗的總數,p是每次試驗成功的概率。n次獨立重複事件發生k次的概率為:

均值和方差:np、npq

#R對應的函式形式,其他分佈的函式同理
dbinom(x, size, prob)	#每個點對應的概率密度值(即發生概率值)
pbinom(x, size, prob)	#事件的累計概率值
qbinom(p, size, prob)	#給出累計值(與p概率值匹配)的數字
rbinom(n, size, prob)	#從樣本產生概率生成所需數量的概率值

四.多項分佈

多項分佈是二項分佈的推廣擴充套件,在n次獨立實驗中每次只輸出k種結果中的一個,且每種結果都有一個確定概率,多項分佈給出在多種輸出狀態的情況下,關於成功次數的各種組合的概率

舉例投擲n次骰子,這個骰子共有6種結果輸出,且1點出現概率為p1,2點出現概率p2,…多項分佈給出了在n次試驗中,骰子1點出現x1次,2點出現x2次,3點出現x3次,…,6點出現x6次。這個結果組合的概率公式為:

xi為第i種狀態輸出結果的頻度,根據多項分佈的極大似然估計得

五.正態分佈

正態分佈的特徵:1.分佈的平均值、中位數和模式一致;2.分佈曲線是鐘形的,關於線x=μ對稱;3.曲線下的總面積為1;4.兩個正態分佈之積仍為正態分佈;5.兩個獨立且服從正態分佈的隨機變數的和服從正態分佈

若隨機變數X服從位置引數\mu尺度引數\sigma ^2的概率分佈(N(\mu,\sigma ^2)),且其概率密度函式為:

正態曲線下橫軸上一定區間的面積反映該區間的例數佔總例數的百分比,或變數值落在該區間的概率

“小概率事件”通常指發生概率小於5%的事件(認為在一次實驗中幾乎不可能發生),X落在3倍標準差以外的概率小於3%,在實際問題中常認為相應的事件不會發生,看作是隨機變數X實際可能的取值區間(3\sigma法則)

六.偏態分佈

偏態分佈(特點是左右不對稱,頻數分佈的高峰位於一側,尾部向另一側延伸)與正態分佈相對,是連續隨機變數概率分佈的一種,可通過峰度和偏度的計算,衡量偏態程度

正偏態分佈(右偏分佈):M>Me>Mo(平均數>中位數>眾數)

負偏態分佈(左偏分佈):M<Me<Mo(平均數<中位數<眾數)

分組下的眾數(均值大於眾數為右偏分佈,均值小於眾數為左偏分佈):在組距分組的情況下,眾數計算需考慮最大頻數所在組相鄰組的情況

L最大頻數所在組的下限值,d為最大頻數所在組的組距,\Delta1為最大頻數所在組頻數與上組頻數之差,\Delta2為最大頻數所在組頻數與下組頻數之差

七.泊松分佈

大量事件是有固定頻率的。特點:可以預估這些事件的總數,但是沒法知道具體的發生時間和發生地點。已知平均每小時出生3個嬰兒,請問下一個小時,會出生幾個?

泊松分佈的主要特點:

        泊松分佈是個計數過程,通常用於模擬一個非連續事件在連續時間中的發生次數

       1.任何一個成功事件不能影響其它的成功事件(N(t+s)-N(t)增量之間互相獨立)

       2.經過短時間間隔的成功概率必須等於經過長時間間隔的成功概率

       3.時間間隔趨向於無窮小的時候,一個時間間隔內的成功概率趨近零

       泊松分佈即描述某段時間內,事件具體的發生頻率。泊松分佈的概率分佈函式公式如下所示

等號左邊P表示概率,N表示某種函式關係,t表示時間,n表示數量,1小時內出生3個嬰兒的概率,就表示為 P(N(1)=3)等號的右邊,λ表示事件的頻率(如平均每小時出生3個)

\lambda t表示長度為t的時間間隔中的平均事件數(\lambda為事件的發生率),泊松分佈的均值和方差均為\lambda t

八.指數分佈

指數分佈是獨立事件發生的時間間隔。例如嬰兒出生的時間間隔、來電的時間間隔、奶粉銷售的時間間隔、網站訪問的時間間隔

指數分佈的公式可以從泊松分佈推斷出來。如果下一個嬰兒出生要間隔時間t,就等同於t之內沒有任何嬰兒出生

反過來,事件在時間t之內發生的概率,就是1減去上面的值(即累計分佈函式公式)

指數分佈的圖形大體如下:隨著間隔時間變長,時間的發生概率急劇下降,呈現指數式衰減

九.伽瑪分佈

Gamma分佈即多個獨立且相同分佈的指數分佈變數和的分佈,即從頭開始到第n次事件的發生時間

ɼ(s,x)=gamma(s)-Γ(s,x)=pgamma(x,s)*gamma(s)
Γ(s,x)=pgamma(x,s,lower=FALSE)*gamma(s)

十.貝塔分佈

貝塔分佈可以看作是一個描述概率p(定義在區間(0,1))的連續概率分佈,當不知道某個具體事件的發生概率時,貝塔分佈可以給出所有概率出現的可能性大小

具體例項幫助理解概念:棒球擊球率(batting average)-用一個運動員擊中的球數除以擊球的總數,我們一般認為0.266是正常水平的擊球率,而如果擊球率高達0.3就被認為是非常優秀的。現在有一個棒球運動員,希望能預測他在這一賽季中的棒球擊球率是多少,但是如果這個棒球運動員只打了一次且命中,那麼擊球率是100%,這顯然是不合理的,因為根據棒球的歷史資訊知道這個擊球率應該是0.215到0.36之間才對。對於這個問題,可以用一個二項分佈表示(一系列成功或失敗),一個最好的方法來表示這些經驗(即先驗資訊)就是用beta分佈,表示在沒有看到這個運動員打球之前就有了一個大概的範圍。beta分佈的定義域是(0,1)這就跟概率的範圍是一樣的

將這些先驗資訊轉換為beta分佈的引數,知道一個擊球率應該是平均0.27左右,而他的範圍是0.21到0.35,那麼根據這個資訊,我們可以取α=81,β=219

之所以取這兩個引數是因為:

beta分佈的期望均值是α/(α+β)=81/(81+219)=0.27

從圖中可以看到這個分佈主要落在了(0.2,0.35)間,這是從經驗中得出的合理的範圍

beta分佈的概率密度函式(體現了beta分佈與gamma分佈的關係)

有了先驗資訊,現在考慮運動員只打一次球,那麼他現在的資料就是”1擊1中”。這時候就可以更新分佈了,讓這個曲線做一些移動去適應新資訊。beta分佈在數學上就給提供了這一性質,他與二項分佈是共軛先驗。共軛先驗就是先驗分佈是beta分佈,而後驗分佈同樣是beta分佈。結果很簡單:

beta(a+hits,b+misses)

其中a和b是一開始的引數,在這裡是81和219。在這一例子裡a增加了1(擊中了一次)。β沒有增加(沒有漏球)。這就是新的beta分佈Beta(81+1,219),beta分佈的概率密度函式曲線可能會變得更加陡峭或平穩

十一.狄利克雷分佈

狄利克雷分佈是beta分佈在多項情況下的推廣,也是多項分佈的共軛先驗分佈,狄利克雷分佈的概率密度函式如下

十二.共軛先驗分佈

共軛是選取一個函式作為似然函式的先驗概率分佈,使得後驗分佈函式和先驗分佈函式形式一致(Beta分佈是二項式分佈的共軛先驗概率分佈,而狄利克雷分佈(Dirichlet分佈)是多項式分佈的共軛先驗概率分佈)

貝葉斯規則:後驗分佈=似然函式*先驗概率分佈

十三.威布林分佈

又稱韋氏分佈或韋伯分佈,是可靠性分析和壽命檢驗的理論基礎,在可靠性工程中被廣泛應用,尤其適用於機電類產品的磨損累計失效的分佈形式,被廣泛應用於各種壽命試驗的資料處理。概率密度函式:

其中,λ>0為比例引數,k>0是形狀引數,當k=1時是指數分佈,k=2時是瑞利分佈

k<1表示故障率隨時間減小,如果有缺陷的物品早期失效,並且隨著缺陷物品從總體中除去,故障率隨時間降低,則發生這種情況
k=1表示故障率隨時間是恆定的,這表明隨機外部事件正在導致死亡或失敗
k>1表示故障率隨時間增加,如果存在[老化]過程,或者隨時間推移更可能失敗的部分,就會發生這種情況

十四.卡方分佈

#非中心性引數(非負),ncp=λ(ncp=0與省略該引數使用的演算法不同,ncp=0是在極端情況下給出一致的行為),但只能對σ^2=1時進行求解
rchisq(n, df, ncp = 0)

十五.F分佈

十六.分佈之間的關係

十七.分佈之間的關係

伯努利分佈和二項分佈的關係

1.伯努利分佈是二項分佈的單次試驗的特例,即單次二項分佈試驗

2.二項分佈和伯努利分佈的每次試驗都只有兩個可能的結果

3.二項分佈每次試驗都是互相獨立的,每一次試驗都可以看作一個伯努利分佈

泊松分佈和二項分佈的關係

以下條件下,泊松分佈是二項分佈的極限形式

1.試驗次數非常大或者趨近無窮,即n→∞;

2.每次試驗的成功概率相同且趨近零,即p→0;

3.np=λ是有限值

正態分佈和二項分佈的關係&正態分佈和泊松分佈的關係

以下條件下,正態分佈是二項分佈的一種極限形式:

1.試驗次數非常大或者趨近無窮,即n→∞;

2.p和q都不是無窮小

引數λ→∞的時候,正態分佈是泊松分佈的極限形式

指數分佈和泊松分佈的關係

如果隨機事件的時間間隔服從引數為λ的指數分佈,那麼在時間週期t內事件發生的總次數服從泊松分佈,相應的引數為λt