1. 程式人生 > >各類分布----二項分布,泊松分布,負二項分布,gamma 分布,高斯分布,學生分布,Z分布

各類分布----二項分布,泊松分布,負二項分布,gamma 分布,高斯分布,學生分布,Z分布

pen 不變 .net 研究 enter 數值 利用 變量 解析

伯努利實驗:

如果無窮隨機變量序列 技術分享圖片 是獨立同分布(i.i.d.)的,而且每個隨機變量 技術分享圖片 都服從參數為p的伯努利分布,那麽隨機變量 技術分享圖片 就形成參數為p的一系列伯努利試驗。同樣,如果n個隨機變量 技術分享圖片 獨立同分布,並且都服從參數為p的伯努利分布,則隨機變量 技術分享圖片 形成參數為p的n重伯努利試驗。

伯努利試驗是只有兩種可能結果的單次隨機試驗。

  • 如果試驗E是一個伯努利試驗,將E獨立重復地進行n次,則稱這一串重復的獨立試驗為n重伯努利試驗。

一、伯努利分布:

伯努利分布亦稱“零一分布”、“兩點分布”。稱隨機變量X有伯努利分布, 參數為p(0<p<1),如果它分別以概率p和1-p取1和0為值。EX= p,DX=p(1-p)。伯努利試驗成功的次數服從伯努利分布,參數p是試驗成功的概率。伯努利分布是一個離散型機率分布,是N=1時二項分布的特殊情況,為紀念瑞士科學家詹姆斯·伯努利(Jacob Bernoulli 或James Bernoulli)而命名。

例子:假定重復拋擲一枚均勻硬幣,如果在第i次拋擲中出現正面,令 技術分享圖片 ;如果出現反面,令 技術分享圖片 ,那麽,隨機變量 技術分享圖片 就形成參數為 技術分享圖片 的一系列伯努利試驗,同樣,假定由一個特定機器生產的零件中10%是有缺陷的,隨機抽取n個進行觀測,如果第i個零件有缺陷,令技術分享圖片 ;如果沒有缺陷,令 技術分享圖片 ,那麽,隨機變量 技術分享圖片 就形成參數為 技術分享圖片 的n重伯努利試驗 (百度百科)

E(X)=p, E(X2)=q , Var(X)=pq

技術分享圖片

二、二項分布:

n 次Bernoulli試驗的結果中,每次試驗的分布不變,結果為1的次數 X 的分布。就是重復n次的伯努利實驗

在概率論和統計學裏面,帶有參數n和p的二項分布表示的是n次獨立試驗的成功次數的概率分布。在每次獨立試驗中只有取兩個值,表示成功的值的概率為p,那麽表示試驗不成功的概率為1-p。這樣一種判斷成功和失敗的二值試驗又叫做伯努利試驗。

特殊地,當n=1的時候,我們把二項分布稱為伯努利分布。

技術分享圖片

如果 1.在每次試驗中只有兩種可能的結果,而且是互相對立的; 2.每次實驗是獨立的,與其它各次試驗結果無關; 3.結果事件發生的概率在整個系列試驗中保持不變,則這一系列試驗稱為伯努利實驗。 在這試驗中,事件發生的次數為一隨機事件,它服從二次分布 三、超幾何分布:

超幾何分布,n 次伯努利試驗,每次試驗分布發生改變,結果為1的次數 X 的分布,當試驗分布變化不大的時候和二項分布結果相同
它描述了從有限N個物件(其中包含M個指定種類的物件)中抽出n個物件,成功抽出該指定種類的物件的次數(不放回

技術分享圖片
四、泊松分布 泊松分布就是描述某段時間內,事件具體的發生概率。 泊松分布的概率函數為: 技術分享圖片

泊松分布的參數λ是單位時間(或單位面積)內隨機事件的平均發生次數。 泊松分布適合於描述單位時間內隨機事件發生的次數

k事件X發生的頻數;P(X=k)事件X發生k次的概率

泊松分布的期望和方差均為 技術分享圖片

特征函數為 技術分享圖片

當二項分布的n很大而p很小時,泊松分布可作為二項分布的近似,其中λ為np。通常當n≧20,p≦0.05時,就可以用泊松公式近似得計算,當n趨近於無窮的時候等同於二項分布。

五、多項分布

是二項式分布的推廣。二項式做n次伯努利實驗,規定了每次試驗的結果只有兩個,如果現在還是做n次試驗,只不過每次試驗的結果可以有多m個,且m個結果發生的概率互斥且和為1,則發生其中一個結果X次的概率就是多項式分布。

扔骰子是典型的多項式分布。扔骰子,不同於扔硬幣,骰子有6個面對應6個不同的點數,這樣單次每個點數朝上的概率都是1/6(對應p1~p6,它們的值不一定都是1/6,只要和為1且互斥即可,比如一個形狀不規則的骰子),重復扔n次,如果問有k次都是點數6朝上的概率。

六、負二項分布

一種離散概率分布。滿足以下條件的稱為負二項分布:實驗包含一系列獨立的實驗, 每個實驗都有成功、失敗兩種結果,成功的概率是恒定的,實驗持續到r次成功,r為正整數。

r是整數時,負二項分布又稱帕斯卡分布(巴斯卡分布),其概率質量函數為(其中一種形式,兩種形式對比看下文): 技術分享圖片 它表示,已知一個事件在伯努利試驗中每次的出現概率是p,在一連串伯努利試驗中,一件事件剛好在第r + k次試驗出現第r次的概率。 參數為(r, p)的負二項分布的數列k+r的期望是 技術分享圖片

七、gamma分布

是統計學的一種連續概率函數。

gamma函數定義:

Γ(x) = ∫0 tx-1 e-t dt Γ(x+1) = x Γ(x); Γ(x+1) = x!

Gamma分布中的參數α稱為形狀參數(shape parameter),β稱為逆尺度參數(scale parameter)

假設隨機變量X為等到第α件事發生所需之等候時間, 密度函數為 技術分享圖片 技術分享圖片 特征函數為 技術分享圖片 伽馬分布的概率密度函數和失效率函數取決於形狀參數 技術分享圖片 的數值。 當 技術分享圖片 時, 技術分享圖片 為遞減函數; 當 技術分享圖片 時, 技術分享圖片 為遞增函數; 當 技術分享圖片 時, 技術分享圖片 為單峰函數; Gamma的可加性 兩個獨立隨機變量X和Y,且X~Ga(a,γ),Y~Ga(b,γ),則Z = X+Y ~ Ga(a+b,γ)。註意X和Y的尺度參數必須一樣。 Gamma分布的特殊形式 當形狀參數α=1時,伽馬分布就是參數為γ的指數分布,X~Exp(γ) 當α=n/2,β=1/2時,伽馬分布就是自由度為n的卡方分布,X^2(n) β=n,Γ(n,α)就是Erlang分布。Erlang分布常用於可靠性理論和排隊論中 ,如一個復雜系統中從第 1 次故障到恰好再出現 n 次故障所需的時間;從某一艘船到達港口直到恰好有 n 只船到達所需的時間都服從 Erlang分布;

八、指數分布

指數分布是事件的時間間隔的概率。如:

  • 嬰兒出生的時間間隔

  • 來電的時間間隔

  • 奶粉銷售的時間間隔

  • 網站訪問的時間間隔

是描述泊松過程中的事件之間的時間的概率分布,即事件以恒定平均速率連續且獨立地發生的過程。 這是伽馬分布的一個特殊情況,它是幾何分布的連續模擬,它具有無記憶的關鍵性質。

指數函數的一個重要特征是無記憶性(Memoryless Property,又稱遺失記憶性)。這表示如果一個隨機變量呈指數分布,當s,t>0時有P(T>t+s|T>t)=P(T>s)。即,如果T是某一元件的壽命,已知元件使用了t小時,它總共使用至少s+t小時的條件概率,與從開始使用時算起它使用至少s小時的概率相等。

技術分享圖片

期望值: 技術分享圖片,方差: 技術分享圖片 若隨機變量x服從參數為λ的指數分布,則記為 技術分享圖片

九、卡方分布

若n個相互獨立的隨機變量ξ?,ξ?,...,ξn ,均服從標準正態分布(也稱獨立同分布於標準正態分布),則這n個服從標準正態分布的隨機變量的平方和 技術分享圖片構成一新的隨機變量,其分布規律稱為卡方分布(chi-square distribution)。其中參數 技術分享圖片 稱為自由度。記為 技術分享圖片 或者 技術分享圖片 (其中 技術分享圖片 技術分享圖片 為限制條件數)。

卡方分布是由正態分布構造而成的一個新的分布,當自由度技術分享圖片 很大時, 技術分享圖片 分布近似為正態分布。

1) 技術分享圖片 分布在第一象限內,卡方值都是正值,呈正偏態(右偏態),隨著參數 技術分享圖片 的增大, 技術分享圖片 分布趨近於正態分布;卡方分布密度曲線下的面積都是1.

2) 技術分享圖片 分布的均值與方差可以看出,隨著自由度技術分享圖片 的增大,χ2分布向正無窮方向延伸(因為均值 技術分享圖片 越來越大),分布曲線也越來越低闊(因為方 技術分享圖片 越來越大)。

3)不同的自由度決定不同的卡方分布,自由度越小,分布越偏斜。 4) 若 技術分享圖片 互相獨立,則: 技術分享圖片 服從 技術分享圖片 分布,自由度為 技術分享圖片 5) 技術分享圖片 分布的均數為自由度 技術分享圖片 ,記為 E( 技術分享圖片 ) = 技術分享圖片 6) 技術分享圖片 分布的方差為2倍的自由度( 技術分享圖片 ),記為 D( 技術分享圖片 ) = 技術分享圖片

十、Beta分布

B函數,又稱為Beta函數或者第一類歐拉積分,是一個作為伯努利分布和二項式分布的共軛先驗分布的密度函數,是指一組定義在(0,1) 區間的連續概率分布,定義如下:

有兩個參數 技術分享圖片

Β分布的概率密度函數是: 技術分享圖片 其中 技術分享圖片 是Γ函數。隨機變量X服從參數為 技術分享圖片 的Β分布通常寫作技術分享圖片 Β分布的累積分布函數是 [1] : 技術分享圖片 其中 技術分享圖片 是不完全Β函數, 技術分享圖片 是正則不完全貝塔函數。 Beta分布與Gamma分布的關系為:

實例:

空氣中含有的氣體狀態的水分。表示這種水分的一種辦法就是相對濕度。即現在的含水量與空氣的最大含水量(飽和含水量)的比值。我們聽到的天氣預告用語中就經常使用相對濕度這個名詞。 相對濕度的值顯然僅能出現於0到1之間(經常用百分比表示)。而空氣為什麽出現某個相對濕度顯然具有隨機性(可以利用最復雜原理),這些提示我們空氣的相對濕度可能符合貝塔分布。

十一、幾何分布

是離散型概率分布。在n次伯努利試驗中,試驗k次才得到第一次成功的機率。詳細地說,是:前k-1次皆失敗,第k次成功的概率。幾何分布是帕斯卡分布當r=1時的特例。

在伯努利試驗中,記每次試驗中事件A發生的概率為p,試驗進行到事件A出現時停止,此時所進行的試驗次數為X,其分布列為: 技術分享圖片 此分布列是幾何數列的一般項,因此稱X服從幾何分布,記為X ~ GE(p) 。 實際中有不少隨機變量服從幾何分布,譬如,某產品的不合格率為0.05,則首次查到不合格品的檢查次數X ~ GE(0.05) 。 它分兩種情況: (1)為得到1次成功而進行n次伯努利試驗,n的概率分布,取值範圍為1,2,3,...; 這種情況的期望和方差如下: 技術分享圖片 技術分享圖片 (2)m = n-1次失敗,第n次成功,m的概率分布,取值範圍為0,1,2,3,...。 這種情況的期望和方差如下: 技術分享圖片 技術分享圖片 比如,假設不停地擲骰子,直到得到1。投擲次數是隨機分布的,取值範圍是無窮集合{ 1, 2, 3, ... },並且是一個p= 1/6的幾何分布。

十二、學生分布(t分布)

用於根據小樣本來估計呈正態分布且方差未知的總體的均值。如果總體方差已知(例如在樣本數量足夠多時),則應該用正態分布來估計總體均值。

t分布曲線形態與n(確切地說與自由度df)大小有關。與標準正態分布曲線相比,自由度df越小,t分布曲線愈平坦,曲線中間愈低,曲線雙側尾部翹得愈高;自由度df愈大,t分布曲線愈接近正態分布曲線,當自由度df=∞時,t分布曲線為標準正態分布曲線。

由於在實際工作中,往往σ是未知的,常用s作為σ的估計值,為了與u變換區別,稱為t變換,統計量t 值的分布稱為t分布。[1] 假設X服從標準正態分布N(0,1),Y服從 技術分享圖片 分布,那麽 技術分享圖片 的分布稱為自由度為n的t分布,記為 技術分享圖片 分布密度函數 技術分享圖片 其中,Gam(x)為伽馬函數。

十三、正態分布

正態曲線呈鐘型,兩頭低,中間高,左右對稱因其曲線呈鐘形,因此人們又經常稱之為鐘形曲線。 若隨機變量X服從一個數學期望為μ、方差為σ^2的正態分布,記為N(μ,σ^2)。其概率密度函數為正態分布的期望值μ決定了其位置,其標準差σ決定了分布的幅度。當μ = 0,σ = 1時的正態分布是標準正態分布。

十四、狄利克雷分布

狄利克雷分布(Dirichlet distribution)是多項分布的共軛分布,也就是它與多項分布具有相同形式的分布函數。同時可以看做是將Beta分布推廣到多變量的情形。一類在實數域以正單純形(standard simplex)為支撐集(support)的高維連續概率分布,是Beta分布在高維情形的推廣。

對獨立同分布(independent and identically distributed, iid)的連續隨機變量 技術分享圖片 和支撐集技術分享圖片 ,若技術分享圖片 服從狄利克雷分布,則其概率密度函數

技術分享圖片

有如下定義 [1] :

技術分享圖片 式中, 技術分享圖片 是無量綱的分布參數,
技術分享圖片

是分布參數的和,

技術分享圖片

是多元Beta函數(multivariate beta function),

技術分享圖片

為Gamma函數。由上述解析形式可知,狄利克雷分布是指數族分布 [1] 。

應用

在貝葉斯推斷中,狄利克雷分布作為多項分布的共軛先驗,被用於多項分布、二項分布和類型分布(categorical distribution)的參數估計 [1] 。在機器學習領域,狄利克雷分布和廣義狄利克雷分布被應用於構建混合模型(mixture model)以處理高維的聚類和特征賦權(feature weighting)等非監督學習問題 [21] 。使用狄利克雷分布建立的主題模型(topic model),即隱含狄利克雷分布(Latent Dirichlet Allocation, LDA)被應用於自然語言處理(Natural Language Processing, NLP)和生物信息學研究(bioinfomatics)

泊松分布和負二項分布用途區分

https://www.jianshu.com/p/ad24bb90b972
---------------------
原文:https://blog.csdn.net/tonyshengtan/article/details/82947416

各類分布----二項分布,泊松分布,負二項分布,gamma 分布,高斯分布,學生分布,Z分布