1. 程式人生 > >關於概率分佈理論的原理分析的一些討論,以及經典概率分佈的應用場景,以及概率統計其在工程實踐中的應用

關於概率分佈理論的原理分析的一些討論,以及經典概率分佈的應用場景,以及概率統計其在工程實踐中的應用

1. 隨機變數定義

0x1:為什麼要引入隨機變數這個數學概念

在早期的古典概率理論研究中,人們基於隨機試驗的樣本空間去研究隨機事件,也發展出了非常多輝煌的理論,包括著名的貝葉斯估計在內。

但是隨著研究的不斷深入,遇到問題的不斷複雜化,科學家們發現面對的問題也不僅僅是拋色子,口袋裡摸球、拋硬幣伯努利試驗這樣的簡單問題,而是更加複雜的問題,例如

  • 多個隨機試驗的組合問題:例如考慮n個伯努利隨機試驗中某個事件發生次數的隨機變數
  • 非實數型的樣本空間:例如氣候分析、水文模擬與預測等複雜問題,顯然,這個時候樣本空間就不一定都是數集了

繼續使用隨機事件樣本空間這種集合論數學工具進行問題分析和定量研究遇到了越來越多的困難。

為了能對更復雜的問題進行抽象建模,進行定量的概率公式化處理,因此,通過引入隨機變數,將樣本空間這個集合概念轉化為一個無量綱的數集(函式概念),使得能統一地處理各種隨機現象。

同時因為隨機變數本質是函式範疇體系內的定義,因此還可以藉助函式分析相關的數學工具展開對隨機事件的定量分析,這使得概率論的發展又跨了一個大的臺階。

需要注意的是,對於隨機變數來說,樣本空間中的樣本不一定是等概的。在實際工程中,非等概模型才是更加普遍和一般的情況,隨機事件的樣本集空間中不同元素的發生概率一般不可能都是等概的。等概摡型只是離散型隨機變數裡一個特例。

0x2:隨機變數的抽象定義

在隨機試驗E中,Ω是相應的樣本空間,如果對Ω中的每一個樣本點w,有唯一一個實數 X(w) 與之對應,那麼就把這個定義域為Ω的單值實值函式 X=X(w) 稱為(一維)隨機變數。

函式 X(w) 的的定義域對應於隨機變數的樣本空間,記作,,當然,隨機事件只會在一些區間內有概率的定義,在其他區間上概率為0。

站在試驗前的立場看,我們不知道試驗結果將出現樣本空間Ω中的哪個樣本點,即不知道隨機變數將會取中的哪一個數。從這個意義上說,隨機變數的取值是隨機的。

概率論的一個基本任務就是研究隨機變數取值的統計規律性,而引入概率分佈函式的目的也是為了更好地研究統計規律的數學特性。

0x3:隨機變數的分類

從嚴格理論定義上來看,隨機變數可分為:

  • 離散型隨機變數:如果1個隨機變數只可能取有限個或可列無限個值(即它的值域是1個有限集或可列無限集),那麼便稱這個隨機變數為(一維)離散型隨機變數。
  • 非離散型隨機變數:連續型隨機變數的取值充滿了數軸上的一個區間(或某幾個區間的並),在這個區間裡有無窮不可列個實數,因此當我們描述連續型隨機變數時,用來描述離散型隨機變數的分佈律就沒法繼續使用,需要改用概率密度函式來表示。

在非離散型隨機變數中,連續型隨機變數是最常見也是佔比最多的,我們本文主要討論連續型隨機變數。但讀者要明白的是,並不是只有離散和連續型隨機變數這兩種。

Relevant Link:

《概率論與數理統計》同濟大學數學系 第二章 - 第一節

 

2. 隨機變數的概率密度與概率分佈

0x1:為什麼要研究隨機變數的概率密度與概率分佈PDF

1. 現實世界不是確定性的,而是概率性的 - 上帝會擲色子

現實世界中大量複雜問題其狀態受到大量內在和外在因素的影響,想要徹底掌握這類事物的內在規律並對未來可能發生的狀態變換作出預測,就需要資料科學家通過資料分析、概率建模等方式,尋找一個或一組概率分佈公式。

那為什麼一定是概率分佈函式呢?而不能是一個像愛因斯坦質能方程那樣的精確性的對映函式呢?

理解這個問題,需要回望一些歷史,自從混沌理論和非線性動力學理論問世以來,動力學系統“內在隨機性”的存在,使得確定論不再佔統治地位,它與隨機方法論之間的鴻溝已經逐步填補。從辨證唯物自然觀來看,確定論的數學模型只是紛繁複雜的大自然現象因果規律的一種理想化描述。在現實世界中,“量”的方面的數學的無窮性,比起“質”的方面的無涯無盡性來說,是極為粗淺的。無論怎樣複雜的方程式都不可能是實際現象的無限複雜性的等價反映,它們充其量不過是相對精確或相對逼真地描述了現象,而不是現象本身的全部寫照。

接下來的問題就是,如何找到這種“概率分佈函式”呢?或者說如何找到這個“上帝”呢?這就是接下來要談的概率密度估計。 

2. 概率密度估計 - 尋找概率分佈函式的方法

對於給定的一個數據集合,我們認為這個資料集合來自於某個隨機變數,並且這個隨機變數具有某種概率分佈P(X)。找到這個概率分佈P(X)的過程叫做密度估計(density estimation)。

需要注意的是密度估計問題是一個很困難的問題,因為世界上的概率密度函式不計其數,能夠近似擬合概率密度函式也是如此之多。選擇一個合適的P(X)是模型選擇問題,在機器學習領域經常遇見。

當然,這僅僅是生成式模型學派需要頭疼的問題,如果忽略這些細節,通過設計深度神經網路得到一個判別式模型,只要關心最終的結果效果是否好,泛化能力是否強即可。

0x2:離散型隨機變數的分佈律與概率分佈 

1. 離散隨機變數的概率(質量)函式(probability density function, PDF)/分佈律

要掌握一個離散型隨機變數取值的統計規律(即分佈),除了必須知道它的樣本空間值域外,還需要知道它取各個可能值的概率,其實就是函式分析中的定義域和值域分析的概念。

設隨機變數X的值域為,對於每個 i = 1,2,....,X的取值為ai的概率為:

按照概率的定義與性質,p1,p2,.... 需要滿足下列性質:

  • 非負性:
  • 樣本空間完備性:

我們稱為隨機變數 X 的概率(質量)函式或分佈律。

2. 離散隨機變數的概率分佈函式

一般地,對一個隨機事件E來說,對樣本空間中任意一個子集合S,有: 

 

上述計算公式本質上由概率的加法公式推出,因為諸事件{X =ai}(i=1,2,...)是兩兩互不相容的。

離散隨機變數的分佈函式就是離散分佈律在某個樣本集區間上的累加,只是這個樣本區間是一個形如[-∞,Smax]的區間。

設X是一個隨機變數,對於任意實數x,稱函式為隨機變數X的分佈函式。

對任意的兩個實數,有

因此,只要已知X的分佈函式,就可以知道X落在任一區間 (a,b) 內的概率,可以看到,分佈函式可以完整的描述一個隨機變數的統計規律性。

相比於概率密度,分佈函式度量的是區間的累計概率,是一個事件集合的總體發生概率。 

可以看到,概率分佈函式本質上是概率密度函式的積分,所以也叫累計概率函式(cumulative distribution function,CDF),也可以簡稱概率分佈函式。

反過來,概率密度函式也是概率分佈函式的導數。

3. 離散隨機變數概率分佈函式性質

我們通過一個例子來說明離散隨機變數概率分佈函式的性質。

設一個盒子中裝有10個球,其中:

  • 5個球上標有數字1
  • 3個球上標有數字2
  • 2個球上標有數字3

從中任取一球,記隨機變數X表示為“取得的球上標有的數字”,求X的分佈函式F(x)。

我們先來求其離散分佈律,知道離散分佈律後就可以自然得到分佈函式。

根據題意可知,隨機變數X可取 1,2,3,這個問題相對比較簡單,摸球是一個等概事件,因此由古典概型的計算公式,可知對應的隨機事件的概率值分別為:

  • 取到數字1的球:0.5
  • 取到數字2的球:0.3
  • 取到數字3的球:0.2

接下來,分佈函式的定義為F(x) = P(X <= x),因此有:

  • x < 1:P(X <= x)= 0
  • 1 <= x < 2:P(X <= x)= P(X = 1)= 0.5
  • 2 <= x < 3:P(X <= x)= P(X = 1)+ P(X = 2)= 0.5 + 0.3 = 0.8
  • x >= 3:P(X <= x)= P(X = 1)+ P(X = 2)+ P(X = 3)= 0.5 + 0.3 + 0.2 = 1

F(x)的圖形如下圖所示,python生成程式碼為:

# -*- coding: utf-8 -*-

from pylab import *


if __name__ == '__main__':
    x = linspace(-2,8,200)

    y = []
    for i in x:
        if i<1:
            y.append(0.)
        elif (i>=1 and i<2):
            y.append(0.5)
        elif (i>=2 and i<3):
            y.append(0.8)
        else:
            y.append(1.)
     
     print y

    plot(x,y),show()

它是一條階梯型的曲線,在X的每個可能取值處 1,2,3 處有連續的階躍點,每次跳躍的高度就是X在該取值點的累計概率。

具體來說,任一分佈函式F(x)有如下性質:

  • 0 ≤ F(x) ≤ 1,
  • F(x)是單調不減的,即當x1 <x2 時,F(x1)≤F(x2)
  • F(x) 在 (-∞,∞) 上每一點處至少右連續 

4. 常見離散型隨機變數的概率密度函式(分佈律)

由於概率分佈函式刻畫了一個離散型隨機變數取值的統計規律性,因此,物理世界中存在的概率分佈函式可以說是無窮無盡的。科學共同體內的科學家根據自己的專業領域知識,尋找並建立了不同的概率解釋模型,對本專業的實際物理現象進行解釋以及預測。

筆者在這章會討論一些常見的離散型概率分佈函式,並簡單討論其在工程中的應用,對於在更復雜工業場景中概率分佈函式的應用的討論筆者會放在之後的章節中。

1)二項分佈

1.1)二項分佈數學定義

二項分佈考察的是多次原子隨機事件整體呈現出的統計概率特徵。

設單次隨機試驗為伯努利試驗(實驗結果只有2種對立的可能,即樣本空間只有2個元素),在n重獨立伯努利試驗中,設隨機變數X表示n次試驗中事件A發生的次數,所以有,X的概率密度函式(分佈律)為:

稱這個隨機變數X服從引數為n,p的二項分佈,記作, 其 中 0 < p < 1。二項分佈函式的形態完全由(n,p)兩個引數決定。

筆者認為,二項分佈抽象的是這樣一類事物:某系統的時域或空域狀態由一系列的子步驟組成,每個子步驟都符合一個特定的二元對立的概率密度函式(即只有兩種可能,且發生的概率固定),我們設這兩個對立事件為事件A和事件B。現在假設系統在時域或空域上經過了n步,二項分佈需要評估的是在這n步中,事件A和事件B分別發生了多少次,即這兩個對立事件對最終系統狀態的貢獻度分別是多少。二項分佈評估的是某系統達到某種狀態時,各個基礎隨機事件的貢獻比,不考慮內部過程,只看結果。

1.2)二項分佈的函式分析意義

二項分佈密度函式(分佈律)是離散型分佈,概率密度直方圖是躍階式的。

我們可以從二項式的平方公式分解的角度來看二項分佈的分佈律。

例如,p=q=1/2,各項的概率可寫作:

上式就是二項分佈分佈律的累加式。

設p表示事件發生,q表示事件未發生。

當p=q時:概率密度直方圖是對稱的,例如下面的楊輝三角

當p≠q時:直方圖呈偏態:

p<q:直方圖朝右邊傾斜,表示p(事件發生)的密度較低,在n次伯努利實驗中,總體結果更傾向於更少的p(事件發生)次數。

p>q:直方圖朝左邊傾斜,相反

如果n很大(當p<q且np≥5,或p>q且nq≥5),即使p≠q,偏態逐漸降低,最終近似等於正態分佈,二項分佈的極限分佈為正態分佈,可以用正態分佈的概率作為近似值。關於這個結論的證明,我們在後面討論正態分佈的時候會詳細說明。

1.3)二項分佈的應用條件
  • 各觀察單位只能具有相互對立的一種結果,如陽性或陰性,生存或死亡等,屬於兩分類資料
  • 已知發生某一結果(陽性)的概率為π,其對立結果的概率為1-π,實際工作中要求π是從大量觀察中獲得比較穩定的數值
  • n次試驗在相同條件下進行,且各個觀察單位的觀察結果相互獨立,即每個觀察單位的觀察結果不會影響到其他觀察單位的結果。如要求疾病無傳染性、無家族性等
1.4)二項分佈的簡單案例

題目為:從積累的資料看,某條流水線生產的產品中,一級品率為90%,今從某天生產的1000件產品中,隨機地抽取20件作檢查。試求恰有18件一級品的概率。

題目看起來文字挺多,其實無用的資訊很多,我們抽象為隨機事件,可以概括為:

設產品抽檢結果為隨機試驗E,抽檢結果為離散隨機事件X,樣本空間為{合格、不合格},隨機事件X的分佈律為P(X=合格) = 0.9,P(X=不合格) = 0.1。現在基於隨機試驗E進行n重伯努利實驗Y,即X~B(n,p) = X~B(20,0.9),並求P(Y=18)的概率值。

根據二項分佈概率公式可得:

 

2)超幾何分佈 

2.1)超幾何分佈的物理意義

要討論超幾何分佈的物理意義,首先需要先回顧下二項分佈的物理意義,我們可以從不同的角度來看二項分佈:

  • 抽樣實驗角度:二項分佈是建立在有放回抽樣的基礎上的,也就是抽出一個樣品測量或處理完後再放回去,然後抽下一個
  • 訊號衝擊響應系統:二項分佈代表的是時移不變性的訊號,也就是說,隨著時間的進行(隨機試驗的進行),資訊系統本身的性質(概率密度)不會發生變化

現在我們將問題複雜化,即進行無放回抽樣(概率密度隨著時移而改變)的隨機試驗,這時,傳統的二項分佈無法處理這種情況。

超幾何分佈就是這種背景下被提出,用來計算在無放回抽樣情況下,概率密度和概率分佈的建模問題。

2.2)超幾何分佈數學公式

設隨機變數X,假定在 N 件產品中有 M 件不合格品,即這批產品的不合格率 p= M/N。從這批產品中隨機地抽取n件作檢查,發現有X件是不合格品,則 X 的概率密度函式為

則稱這個隨機變數X服從引數為(N,M,n)的超幾何分佈。

這種抽樣檢查方法實質上等價於無放回抽樣,如果採用有放回抽樣的檢查方法,那麼,超幾何分佈會退化為二項分佈,即當 M = Np 時,有:

在實際的工程開發中,當總體的容量N不大時,要用超幾何分佈來計算,如果N很大而n很小(N ≥10n),不管是否是放回抽樣,都可以用二項分佈來近似計算,也就是可以將無放回抽樣近似看出有放回抽樣,因為當N遠大於n時,不放回導致概率密度函式的變化小到可以忽略不計,這種近似轉化的思想在數學裡很常見,在面對複雜問題的時候尤其有用。

3)泊松分佈

3.1)泊松分佈數學公式

泊松分佈是1837年法國數學家泊松(Poisson,1781-1840年)首次提出的。

設隨機變數X的取值為0,1,....,n,相應的分佈律為:

稱這個隨機變數X服從引數為λ的泊松分佈,記作X ~ P (λ),其中,λ > 0。 

公式本身很簡單,咋一看是一個完全新的概率公式,但其實泊松分佈是二項分佈在大數定律下的近似等價,是大數定律的最好體現(小數世界的隨機性和大資料世界的統計規律性),我們接下來一起推導分析下。

3.2)泊松定理推導分析

讓我們以某段時間內發生的交通事故次數為例。我們把這段時間記為[0,1),取一個很大的自然數n(大數定理),將時間段等分為n段,記每段的區間為=[,)。

根據試驗後驗統計,在整個時間區間內共發生λ起事件,因此當n足夠大時,可以假定在每段小區間內,發生一次事故的概率為λ/n。又因為n很大,所以可以假定在每段小區間內至多發生一次事故,因此就有p = λ/n,np = λ。

同時,每段小區間內是否發生事故是相互獨立的。

以上條件說明該事件滿足二項分佈的成立條件,因此可以用二項分佈進行推導。

設隨機變數X為在 [0,1)時間段內發生事故的總次數,則有:

X~B(n,λ/n),P(X=i)=

根據假定,令n,則有如下近似等價式:

  • /==
  • ==,

代入上面二項分佈公式,二項分佈概率分佈表示式即化為泊松分佈概率分佈表示式。

可以看到,相比於二項分佈,泊松分佈的計算量更小,在超大資料的情況下,往往採用泊松分佈來近似等價二項分佈的計算。

筆者自己的觀點認為,泊松分佈和二項分佈本質區別就是先天經驗先驗和後天試驗經驗的不同視角的體現,具體來說就是:

  • 在小數世界中,實驗次數較少,我們主要依靠先天經驗來設定先驗概率作為隨機事件的概率,這就是二項分佈
  • 在大數世界中,實驗次數較多,我們可以更多地依靠後天試驗的後驗結果作為隨機事件的概率,這就是泊松分佈
3.3)泊松分佈的簡單應用

某臺儀器,由1000個元件裝配而成,根據大量歷史經驗,每一元件在一年工作期間發生故障的概率為0.002,且各元件之間相互獨立,求在一年內有2個元件發生故障的概率。

設X表示“發生故障的元件數”,則X~B(1000,0.002)。

由於n=1000較大,p=0.002較小,且np=2大小適中,所以可用泊松分佈來近似計算該二項分佈的值

 

Relevant Link:

https://zhuanlan.zhihu.com/p/26433704

4)幾何分佈

4.1)幾何分佈數學定義

在伯努利試驗中,記每次試驗中A事件發生的概率P(A) = p(0<p<1),設隨機變數X表示A事件首次出現時已經試驗的次數,則X的的取值為1,2,....,n,....,對應的分佈律為:

稱這個隨機變數 X 服從引數為p的幾何分佈,記為X~Ge(p)。

4.2)幾何分佈的無記憶性

由幾何分佈的概率函式得到:

因此有:

這個推導過程反映了幾何分佈的一種特性,即無記憶性。

 

0x3:連續型隨機變數的概率密度函式與概率分佈 

1. 連續型隨機變數概率密度函式

設E是隨機試驗,Ω是相應的樣本空間,X是Ω上的隨機變數,F(x)是X的分佈函式,若存在非負函式f(x)使得:

則稱X為(一維)連續型隨機變數,f(x)稱為X的概率密度函式。

2. 連續型隨機變數的概率分佈函式

密度函式f(x)與分佈函式F(x)之間的關係如下圖所示.現在,F(x) = P (X ∈ (-∞,x]),即f(x)在區間(-∞,x]上的積分。

3. 連續型隨機變數的性質

連續型隨機變數具有下列性質:

  • F(x)是連續函式,且當f(x)在x=x0 處連續時,F′(x0)=f(x0)
  • 對任意一個常數c,-∞ < c < ∞,P(X = c) = 0,需要注意的是,這個性質對離散型隨機變數是不成立的,恰恰相反,離散型隨機變數計算的就是“點點概率”。
  • 對任意兩個常數a,b,-∞ < a < b < ∞, 

4. 連續型隨機變數概率密度和分佈函式性質

按照連續型隨機變數分佈函式的特徵性質,連續型隨機變數密度函式必須滿足下列兩個條件:

  • f(x) ≥ 0,-∞ < x < ∞ 

這兩個條件刻畫了密度函式的特徵性質,即如果某個實值函式f(x)具有這兩條性質,那麼,它必定是某個連續型隨機變數的密度函式,理論上概率密度函式是無限的。  

例如,當f1(x),f2(x)都是概率密度函式時,只要c1,c2 ≥0,c1+c2 =1。則c1f1(x)+c2f2(x)也是一個密度函式,因為不難驗證它是滿足上述兩個條件的。這表明概率密度函式是可以進行線性組合的,這大大加強了使用概率分佈函式對物理世界的具體現象進行建模分析的能力。

5. 常見連續型隨機變數的概率密度函式

1)均勻分佈

1.1)均勻分佈數學定義

設X為隨機變數,對任意的兩個實數a,b(a<b),概率密度函式為:

則稱隨機變數X服從區間(a,b)上的均勻分佈,記為X~U(a,b)。

密度函式如下:

1.2)均勻分佈概率分佈函式

若X~U(a,b),則相應的概率分佈函式為:

下圖分別展示了均勻分佈的概率密度函式與概率分佈函式(導數與積分的關係):

1.3)均勻分佈的實際案例

2)指數分佈

2.1)指數分佈的概率密度與概率分佈函式公式

如果隨機變數 X 的密度函式為:

則稱隨機變數X服從引數為λ的指數分佈,記為X~E(λ)。

相應的分佈函式為:

密度函式和分佈函式的函式圖如下:

2.2)指數分佈的無記憶性

因為,所以有下式:

因此可證,指數型隨機變數滿足無記憶性特徵:

即條件概率值只與持續時間t有關,與起始點s無關。

2.3)指數分佈和泊松分佈公式的互相推導

一言以蔽之:泊松分佈和指數分佈都是評估單位時間內n次伯努利實驗的統計概率性質的一種概率分佈,但是它們的度量角度不同。在一段時間內,事件出現的次數問題,就是泊松過程;在一段時間內,兩件事件發生之間要等待的時間問題,就是指數分佈。

接下來我們通過泊松概率公式,推導得到指數分佈的概率密度函式。

設隨機變數  表示在n重伯努利實驗中,兩次事件出現之間的時間間隔

我們先計算 的概率,其對應的泊松分佈試驗結果是,在時間 內,事件A並沒有出現。

換種說法是在 時間段內,事件A出現0次。在一段時間內,事件出現的次數問題,就是泊松過程。則有:

,所以其反事件概率分佈函式為:

得到了概率分佈函式,求其積分,得到其密度函式

這就是引數為λ的指數分佈。

2.4)指數分佈的函式性質

指數分佈中的λ代表整個區間中總共發生的事件數,如果λ越大,也就是說區間內發生的總事件數越多,那麼兩個事件發生之間的時間間隔必然越短。當λ較小的時候,例如λ=1,也就是說區間內總共只發生1次事件,那麼兩個事件發生間隔時間大於1的可能性就很大(下圖是指數分佈的概率密度函式的影象,對應的概率是曲線下面積):

2.5)指數分佈和泊松分佈的數學期望對比

同一個n重伯努利實驗,他們的期望分別為:

可以看到,它們兩者是倒數關係:區間內某事件發生的次數越多自然間隔時間越短,區間內某事件發生的次數越少自然間隔時間越長。

從某種程度上可以說,泊松分佈和指數分佈是同一個事物的正反兩面。

2.6)指數分佈和幾何分佈的互相推導

指數分佈常常被用來描述電器產品或者生物的壽命等現象。

抽象來說,如果x服從指數分佈,那麼[x]就服從幾何分佈。[x]是x取整的意思。

簡單來說,每一秒鐘,電器壞的壽命都是相同的;每經過一秒,相當於扔了一次骰子,正面壞,反面不壞;直到扔出正面,這就是幾何分佈。

其實在概率分佈函式中,這種互相推導轉換的關係是非常普遍的,祭出一張非常經典圖,有興趣的讀者朋友可以用草稿紙演算一遍。

Relevant Link:

https://www.zhihu.com/question/54525571 
https://www.zhihu.com/question/24796044

3)正態分佈

正態分佈是概率統計中非常重要的一種分佈,是高斯(Gauss,1777-1855年)在研究誤差理論時首先用正態分佈來刻畫誤差的分佈,所以正態分佈又叫高斯分佈。

3.1)正態分佈數學定義

設X為隨機變數,概率密度函式為:   

那麼,稱這個隨機變數X服從引數為μ,σ 的正態分佈(或高斯(Gaus)分佈),記作X ~ N(μ,σ),其中,-∞ < μ < ∞ ,σ > 0。

服從正態分佈的隨機變數統稱為正態隨機變數。

概率密度圖和概率分佈圖如下:

3.2)正態分佈的函式性質

正態分佈概率密度函式有如下性質:

  • f(x) 關於x = μ對稱,當x=μ時,f(x) 取到最大值
  • 固定σ,改變μ的值,則曲線沿x軸平移,但不改變其形狀,所以引數μ又稱為位置引數
  • 固定μ,改變σ的值,則曲線的位置不變,但隨著σ的值越小,曲線越陡峭,所以引數σ又稱為尺度引數

3.3)正態分佈的應用場景

正態分佈在理論上與實際應用中都是一個極其重要的分佈,高斯在研究誤差理論時曾用它來刻畫誤差的分佈。

經驗表明,當一個變數受到大量微小的、獨立的隨機 因素影響時,這個變數一般服從或近似服從正態分佈。

例如,某地區男性成年人的身高、自動機床生產的產品尺寸、材料的斷裂強度、某地區的年降雨量,等等。

4)sigmoid概率函式

設隨機變數為Z,則sigmoid是關於隨機變數Z的概率函式,它的概率分佈形式為:

函式影象如下:

可以看到,sigmoid不僅符合概率函式的基本性質,同時還有其他的函式性質,這使得sigmoid適合在機器學習中用作啟用函式,將線性層的輸出轉化為概率值。

可以看到在趨於正無窮或負無窮時,函式趨近平滑狀態,sigmoid函式因為輸出範圍(0,1),所以二分類的概率常常用這個函式,事實上logisti迴歸採用這個函式很多教程也說了以下幾個優點

  • 值域在0和1之間
  • 函式具有非常好的對稱性
  • 函式對輸入超過一定範圍就會不敏感,對極端事件具備很好的魯棒性

關於sigmoid損失函式的討論,可以參閱這篇文章。

Relevant Link:

https://zlearning.netlify.com/computer/mlapp/mlappch2dot3-some-probability-distributions
https://www.cnblogs.com/LittleHann/p/10498579.html#_label2 

 

3. 經典概率分佈函式在工程分析中的作用

0x1:二項分佈在心理學和教育領域中關於機遇問題的判斷研究

所謂機遇問題,即指在實驗或調查中,實驗結果可能是受試者猜測造成的。比如,選擇題中隨便選擇一個選項,對錯判斷中隨便判斷一個結果。

凡此類問題,教育工作者和研究人員的目標是:欲區分由猜測而造成的結果與真實的結果之間的界限區間,即在一張試卷中(多個獨立題目組成),答對多少題及以上可以可以大概率證明受試者不是在隨機蒙題。

特別要注意的是,在概率論中沒有100%確定的結論,一切都是概率區間,按照假設檢驗的理論觀點來重新闡述上面這句話,應該是:尋找猜測而造成的結果與真實結果之間的概率區間下界,即至少答對多少題才能達到至少95%的概率,與此同時,依然存在5%的置信區間(5%是常用的顯著性檢驗的概率閾值),在這個5%概率區間中,真實情況與推測結論相反。

下面我們舉具體例子,應用二項分佈來解決機遇問題的判斷。

已知有正誤題10題,問答題者答對幾題才能認為他是真會,或者說答對幾題,才能認為不是出於猜測因素? 分析:對於蒙題的受試者來說,答對和打錯的概率相同:  同時, ,故此二項分佈接近正態分佈: 根據正態分佈概率,當Z=1.645時,該點以下包含了全體的95%。如果用原分數表示,則為 它的意義是,完全憑猜測,10題中猜對8題以下的可能性為95%,猜對8、9、10題的概率只5%。 因此可以推論說,答對8題以上者不是憑猜測,而是會答。 但應該明確:作此結論,也仍然有犯錯誤的可能,即那些完全靠猜測的人也有5%的可能性答對8、9、10道題。

Relevant Link:

https://baike.baidu.com/item/%E4%BA%8C%E9%A1%B9%E5%88%86%E5%B8%83

0x2:二項分佈在工廠零件供應質量抽檢評估中的作用

1. 問題場景說明

在很多工廠裡,通常都會跟零件供應商約定供貨合格率,並對每批供貨進行抽檢,就是所謂的IQC。

現在擺在面前的問題是這樣的,實際的貨物可能成千上萬,你不可能逐一檢測效果,而且像食品這種商品本身還是不能檢測的,你難道要親自吃一口看壞沒壞?那我們怎麼通過抽檢的方法來判斷這批貨物的合格率有多高呢?

一個簡單的想法是:隨機從這批貨物中抽取100個,逐一檢測是否是次品,假如出現了5個次品,則這批貨物的次品率就是95%。

現在問題來了,這麼做合理嗎?

顯然不合理,反對的理由很簡單,儘管抽樣是隨機的,但是單次的實驗並不能代表真實情況,換言之,不具備概率統計性。

改進一下,我們多做幾個實驗,每次還是隨機抽100個,連做10次,將10次的總次品數加起來取平均。這樣做比之前的做法稍微更合理一些了,其核心也蘊含了一些概率思維,但是依然不夠合理!因為可以問10次實驗就夠了嗎?10次實驗同樣存在一定的抽樣不均勻的概率,那接下來怎麼辦呢?繼續擴大實驗,100次、1000次、100000次?那多大的實驗次數算合理呢?怎麼量化的去評估所謂的合理性呢?

2. 通過二項分佈數學模型正確評估和決策該問題 - 假設檢驗

現在我們將問題納入二項分佈的概率統計範疇內,使用假設檢驗的理論框架來解決這個問題。

總體思路是這樣的:我們將次品抽檢會出現的結果抽象為一個隨機事件,先假設一個隨機試驗概率(即供應商承諾的合格率),這就是假設檢驗中的假設過程,然後進行n次伯努利實驗,並根據實際的n次伯努利實驗結果。

現在假設供貨商承諾的合格率為97%,我們抽檢10個貨物進行次品檢驗,檢驗結果後發現了x個次品。

則有p=0.97,n=10,X~B(n,p) = X(10,0.97),知道了概率分佈的引數,實際上我們也就得到了概率密度函式P(X=x)。

接下來就是根據實際的試驗結果,查詢其對應在概率密度函式上的概率值,進行置信檢驗。

1)x = 1:發現1個次品

P(X=1) = 10 * 0.97^9 * 0.03 = 0.228

計算結果表明按照我們的假設概率,在10次抽檢中出現1個次品的概率為0.228,也就是說我們有22.8%的置信度可以相信這個假設概率,這就是假設檢驗中的檢驗過程。

一般來說,22.%的概率不算低了,在實際的工業實踐中,工廠一般會選擇接受這樣的檢驗結果,即認可供貨商這批貨的合格率是97%。

2)x = 2:發現2個次品

我們繼續討論實驗結果, 那抽出2個不合格的呢?同樣可以算出

P(X=2) = 45 * 0.97^8 * 0.03^2 = 0.032

可以看到,概率非常小,只有3.2%,繼續推廣,抽出超過2個以上不合格品的概率會更小。因此決策者應該拒絕該假設,即不認可供貨商提供了97%的合格率。

3. 根據假設檢驗得到決策依據

因此如果10個樣品中有2個或以上的不合格品,則整批的零件合格率肯定達不到97%,可以整批退貨。

推而廣之,如果約定的合格率是99.5%,則出現0個、1個、2個不合格品的概率分別為0.951、0.0478、0.001,如此10個只要抽出1個不合格品就可以整批退貨了。這裡省略計算過程。

4. 如何評估和選擇適合自己的業務場景的抽檢方案

接下來我們繼續思考前面提的一個問題,到底應該抽多少樣本合適呢?每次抽100個?每次抽10000個?顯然抽的越多代表性越好,但是顯然我們不可能無限地增加,抽樣是有經濟損失的,我們需要找一個損失與收益能平衡最大化的標準。如何用概率的思維量化地評估這個數字呢?我們接下來討論這個問題。

假設你與供應商約定的接收合格率是99%,即AQL(接收質量限)=0.01,本批的總數量是1000只,現在我們現在準備了3種抽檢方案:

  • 國際方案GB/T2828標準:抽樣量為80,Ac=2,即抽到2個及以下不合格品可接收該批,抽到3個及以上不合格品則拒絕接收
  • 方案一:限於財力,稍微少抽樣一些,抽20個,不合格品為0接收,大於0退回
  • 方案二:財力還可以,多抽樣一些,抽50個,不合格品不超過1則接收,大於1則退回

接下來,我們開始抽檢,接受者根據抽檢結果進行決策的結果只有兩個:

  • 實際批合格率低於約定合格率,仍被接收:接受者承擔的風險屬於使用者風險
  • 實際合格率高於約定,仍然存在拒收的風險,雖然這個風險並不大:生產者承擔的這一類的風險叫做生產者風險

如果這批來料合格率只有98%,按照以上抽檢方案,接收的概率分別為:

  • 國際方案GB/T2828標準:0.784419
  • 方案一:0.6676
  • 方案二:0.7357

如果這批來料合格率高於約定合格率,如99.5%,拒收的概率分別為:

  • 國際方案GB/T2828標準:0.007712
  • 方案一:0.09539
  • 方案二:0.026132

咋一看這三種方案效能差不多,在面對“實際合格率低於承諾”和“實際合格率高於承諾”這兩種情況時,都有較大的概率能支援決策者作出正確的決策。

要解決這個問題,需要藉助函式分析的思維方式,即不同的抽檢方法底層是不同的二項分佈概率密度函式,不同的概率密度函式具有不同的函式分佈於函式性質。我們不單是評估各個抽檢方案在單個點上的表現,而是要看各個抽檢方案在整個可能樣本空間上的整體表現。

每一種方案的兩類風險,都可以畫出OC曲線。如下:

圖中橫座標為實際的批不合格率,縱座標為接收概率,曲線下方為接收概率,上方為拒收概率。

可以看出即使來料不合格率遠高於約定,接收的概率還是很大的。

黃色的矩形框稱為理想曲線,理想的情況下,批不合格率低於約定肯定接收,而超過約定則肯定拒收,但這種理想曲線是不可能達到的,只能儘可能接近。

下面我們再看看三種抽樣方案的OC曲線之間的對比。

可以看到,國標方案的下降趨勢要比另外兩種要快,更接近理想曲線。

筆者認為,概率論不是給人100%精確的答案的,相反,概率論中所有結果都是一個概率分佈,一切皆有可能。概率論的主要目的是給出一個事物結果的發生概率區間,以及置信度,給決策者一個清晰明確的決策依據,至於最終如何決策,還需要決策者自己結合自身具體情況而定。

Relevant Link:

https://zhuanlan.zhihu.com/p/24692791

 

4. 在各個學科領域裡概率分佈函式的應用於變化

概率分佈與數理統計不僅是在純機器學習領域的一個理論研究成果,在各個具體的應用學科裡也被廣泛的時候,其中也包括筆者所在的網路安全領域。筆者這裡列舉一些典型的概率統計的應用場景。

0x1:統計語言模型

在統計語言模型中,通過統計每個片語的詞頻(words group frequency)得到片語的詞頻直方圖,這個直方圖本質上就是一個離散型隨機變數X,隨機變數X代表每個片語的詞頻權重。

統計語言模型通過片語詞頻隨機變數來抽象概括輸入文字的文字語言特徵。

關於統計語言模型的相關討論,可以參閱另一篇文章。 

0x2:基於數理統計方法的地質模型不確定性評價 

王鵬飛,高振南,李俊飛,等.基於數理統計方法的地質模型不確定性評價[J].地質科技情報

0x3:關於氣象災害籠罩面積與出現概率的一個定理

論文的主要討論重點可以總結為:

氣象災害(現象) x 的出現概率是可以從當地的多年氣象資料的統計中得到的, 它是時間域的問題。
氣象災害(現象) x 在同一時刻在面積 S 上佔有的面積問題是可以通過天氣圖的分析而得到的, 它是空間域的問題。
文章從概率分佈上證明了這兩個隨機變數的概率分佈是近似相等的,將時間域問題和空間域這兩種含義不同的統計聯絡到了一起。
簡單來說,如果 24h 內有降水的事件的出現概率在全國各地的平均值等於 0.3 (各地平均 3d 有一場雨), 那麼雨區佔全國總面積的百分比的時間平均值也應當是 0.3, 即平均而言雨區佔總面積的 30%。
建立起這兩個隨機變數之間的近似等價關係之後,就可以進行 t檢驗,即已知一個隨機事件的概率後,檢測另一個對應等價隨機事件同樣也發生的置信度。
簡單來說,就是,N 年一遇的災害如果某年在全國發生的面積為 1/N, 那麼這應當屬於正常年份。如果受災面積超過 1/N,則說明該年不正常。

0x4:一種基於概率分佈的投標報價方法 

論文的主要觀點可以總結為:

作者通過對企業的歷史專案招投標以及運營收益的資料收集,並進行統計分析。對專案成本、投標價格、專案利潤收益期望這幾個隨機變數進行建模。最後通過計算利潤收益期望的極值,得到一個“投標價格和企業收益的概率分佈函式推導公式”,得到一個相對準確的投標報價模型。

使得投資者可以根據自己的報價預估可能的利潤收益,同時也可以根據預期的利潤收益反推應該採取的報價策略和措施。

0x5:概率統計與數理分析在各個學科場景中的應用 

有一點筆者希望提出的是,在工程實踐的複雜場景中,不要總想著用我們已知的一些經典概率統計模型去“套用”,例如說“我嘗試用正態分佈來對一個現象進行建模,也不管實際資料擬合程度如何,就強行硬套”。在很多時候,經典的概率分佈函式也不足以描述事物的所有規律與變化,這時候需要提出新的概率密度函式,或者基於經典概率分佈函式進行組合改造,使其更加符合實際的資料分佈表現。

Relevant Link:

http://xueshu.baidu.com/s?wd=%E6%A6%82%E7%8E%87%E5%88%86%E5%B8%83%E5%87%BD%E6%95%B0%E5%9C%A8%E5%90%84%E4%B8%AA%E5%AD%A6%E7%A7%91%E9%A2%86%E5%9F%9F%E7%9A%84%E5%BA%94%E7%94%A8&tn=SE_baiduxueshu_c1gjeupa&ie=utf-8&sc_hit=1
http://xueshu.baidu.com/usercenter/paper/show?paperid=de08e07cdd644a2a4c90260a6056f011

 

5. 生成式模型和判別式模型的對立與統一

以概率分佈函式為主的統計應用,主要是圍繞生成式模型進行研究和開發,他們更注重瞭解事物的規律本身,以此來更好的指導決策。

另一方面,像深度神經網路這類機器學習演算法,主要是圍繞判別式模型進行研究和開發,他們更加註意資料和演算法本身,主要的目標是獲得一個泛化能力更好的模型,對模型的內部引數以及概率分佈並不十分關心。

 

6. 基於系統在不同時域中的概率分佈函式的狀態變化進行異常檢測

開題可行性調查:同一個系統,如果沒有外力作用或內部狀態發生鉅變的情況下,特徵函式應該穩定收斂為一個特定的概率分佈函式上,相反,如果有異常發生,則該系統的特徵函式會發生狀態躍遷,具體的表現就是概率分佈函式的引數發生變化。

具體的變換程度可以通過”變化顯著性“進行量化度量。

相關話題討論可以wechat或者emai和我交流。

&n