1. 程式人生 > >理論分佈和抽樣分佈------(一)事件、概率和隨機變數(離散、連續)

理論分佈和抽樣分佈------(一)事件、概率和隨機變數(離散、連續)

抽樣分佈:從間斷性變數總體的理論分佈(二項分佈和泊松分佈)和連續性變數總體的理論分佈中抽出的樣本統計數的分佈,即抽樣分佈。

一、事件和事件發生的概率

事件:在自然界中一種事物,常存在幾種可能出現的情況,每一種可能出現的情況稱為事件

事件的概率:每一件事出現的可能性,稱為該事件的概率(probability)。

隨機事件:某特定事件只是可能發生的幾種事件中的一種,這種事件稱為隨機事件(random event)。

統計學上用n較大時穩定的p近似代表概率

統計學上通過大量實驗而估計的概率稱為實驗概率或統計概率,以P(A)=\lim_{n\rightarrow \propto }a/n表示。

P代表概率,P(A)代表事件A的概率,0\leq P(A)\leq 1

隨機事件的概率表現了事件的客觀統計規律,它反映了事件在一次試驗中發生可能性的大小,概率大表示事件發生的可能性大,概率小表示事件發生的可能性小。

若事件A發生的概率較小,如小於0.05或0.01,則認為事件A在一次試驗中不太可能發生,稱為小概率事件實際不可能性原理,簡稱小概率原理。這裡的0.05或0.01稱為小概率標準。農業試驗研究中常用這兩個小概率標準。

隨機事件的特例:對於一類事件來說,如在同一組條件的實現之下必然要發生的,稱為必然事件(certain event 概率1)。如果在同一組條件的實現之下必然不發生的,稱為不可能事件(impossible event 概率0)。

二、事件間的關係

在實際問題中,不只研究一個隨機事件,而要研究多個隨機事件,這些事件間又有一定的聯絡。

(1)和事件

事件A和B至少有一個發生而構成的新事件稱為事件A和B的和事件,記為A+B,讀作‘或A發生,或B發生’。

(2)積事件

事件A和B同時發生而構成的新事件稱為事件A和B的積事件,記為AB,讀作‘AB同時發生或相繼發生’。

(3)互斥事件

事件A和B不可能同時發生,AB為不可能事件,記為AB=V,稱事件A和B互斥或互不相容。

(4)對立事件

事件A和B不可能同時發生,但必發生其一,即A+B為必然事件(記為A+B=U),AB為不可能事件(記為AB=V),則稱事件B為事件 A的對立事件,記為B為\bar{A}

(5)完全事件系

若事件A_{1},A_{2},...,A_{n} 兩兩互斥,且每次試驗結果必發生其一,稱A_{1},A_{2},...,A_{n}為完全事件系。

(6)事件的獨立性

若事件 A發生與否不影響事件B發生的可能性,則稱事件A與事件B相互獨立。

三、計算事件概率的法則

(1)互斥事件的加法

事件A和B為互斥事件,則其和事件P(A+B)=P(A)+P(B)

(2)獨立事件的乘法

事件A與事件B相互獨立,同時發生概率為P(AB)=P(A)\cdot P(B)

(3)對立事件概率

事件A概率為P(A),其對立事件概率:P(\bar{A})=1-P(A)

(4)完全事件系概率

例如:從10個數字中隨機抽得任何一個數字都可以,這樣一個事件是完全事件系,其概率為1。

(5)非獨立事件的乘法

如果事件A和B是非獨立的,那麼事件A和B同時發生的概率為事件A的概率P(A)乘以事件A發生的情況下事件B發生的概率P(B|A),即

P(AB)=P(A)\cdot P(B|A)

四、隨機變數

隨機變數是指隨機變數所取的某一個實數值

1、離散型隨機變數(discrete)

(1)當試驗只有幾個確定的結果,並可一一列出,變數y的取值可用實數表示,且y取某一值時,其概率是確定的,這種型別的變數稱為離散型隨機變數。將這種變數的所有可能值及其對應概率一一列出所形成的分佈稱為離散型隨機變數的概率分佈。

因為y_{1},y_{2},...,y_{n}構成一完備組,所以 \sum _{i=1}^yP_i=1

(2)概率分佈型別

0-1分佈

均勻分佈

(3)離散型隨機變數的期望值和方差

在實際問題中,一個隨機變數的概率分佈不好確定;有些問題不需要知道y的全部概率性質,只需知道某些數字特徵即可。

所以,對隨機變數的研究中,確定某些數字特徵很重要。

i:    期望值(Expected value):E(y)/\mu 表示隨機變數本身的平均水平或集中程度。

    E(y)=y_1*p_1+y_2*p_2+...+y_n*p_n=\sum _{i=1}^ny_ip_i

   一般實際資料的加權算術平均數是具體資料的平均指標,期望值是隨機變數y的期望指標。

ii:    方差和標準差:\sigma ^{2},D(y),V(y)隨機變數與其數學期望的離差的平均水平,可測定隨機變數的變異程度或離散程度

           \sigma ^2=D(y)=E[y-E(y)]^{2}      方差實際上是隨機變數y的函式[y-E(y)]^{2}的數學期望。y是離散型變數,可寫成:

          \sigma ^2=D(y)=\sum_{i=1}^\infty [y_i-E(y)]^{2}p_i    式中:p_{i}=P\left \{ y=i \right \}

證明: 

                 \sigma ^2=D(y)=\sum_{i=1}^\infty [y_i-E(y)]^{2}p_i

                                        =\sum_{i=1}^\infty [y_i^2-2y_iE(y)+E(y)^{2}]p_i

                                        =\sum_{i=1}^\infty y_i^2p_i-2E(y)\sum_{i=1}^\infty y_ip_i+E(y)^{2}\sum_{i=1}^\infty p_i

                                       =\sum_{i=1}^\infty y_i^2p_i-2E(y)*E(y)+E(y)^{2}*1

                                      =E(y^{2})-E(y)^{2}

若y的取值比較集中,則方差較小;若比較分散,方差越大。方差=0,隨機變數取值集中在期望值E(y),隨機變數以概率1取值E(y)

隨機變數方差的標準差與隨機變數有相同單位,所以在實際中經常使用。

(4)應用

離散變數預期期望值相同時,計算標準誤來評價投資或模型的穩定性和風險性,愈小越穩定,風險越小。

期望值不同,計算離散係數,標準誤/均值,每單位的均值所承受的風險,越大,風險越大。

2、連續型隨機變數(continuous)

變數y的取值僅為一範圍,且y該範圍內取值時,其概率是確定的。此時取y為一固定值是無意義的, 因為在連續尺度上一點的概率幾乎為0。這種型別的變數稱為連續型隨機變數。對於隨機變數,若存在非負可積函式f(y)(-\infty < y< \infty ),對任意 a,b(a<b) 都有:P(a\leq y< b )=\int_{a}^{b}f(y)dy

則稱 y 為連續型隨機變數(continuous random variate), f(y)為y的概率密度函式(probability density function)或分佈密度(distribution density)。因此,它的分佈由密度函式所確定。若已知密度函式,則通過定積分可求得連續型隨機變數在某一區間的概率。

隨機變數可能取得的每一個實數值或某一範圍的實數值是有一個相應概率的,這就是所要研究和掌握的規律,這規律稱為隨機變數的概率分佈。

隨機變數完整地描述了一個隨機試驗,不僅說明了隨機試驗的所有可能結果,還說明隨機試驗各種結果出現的可能性大小。對隨機試驗概率分佈的研究,就轉成了對隨機變數的概率分佈的研究。須注意事件發生的可能性與試驗結果是不同的,前者是指事件可能發生的概率,後者是指特定試驗結果,這種結果可能是概率大的事件發生了,也可能是概率小的事件發生了。概率分佈指明瞭不同事件發生的可能性。

隨機變數是用來代表總體的任意數值的,隨機變數是隨機變數的一組資料,代表總體的隨機樣本樣本資料,用來估計總體的引數。