1. 程式人生 > >統計2 泊松過程 大數定理 正態分佈

統計2 泊松過程 大數定理 正態分佈

二項分佈的方差:variance = np(1-p)

泊松過程

假設1.各個時間車流量沒有差異
2.一段時的車流量對另一段時間沒有影響:隨機變數X=每小時某路口通過的車輛
E(X)=lambda = n*p (建模為二項分佈) = 60(min/hour)*lambda/60 (cars/min)
P(X=k)=C(60,k)(lambda/60)^k(1-lambda/60)^(60-k)
如果1分鐘通過不只一輛車,我們可以把區間分的更細,如分到秒:P(X=k)=C(3600,k)*…
一直分下去,得到的就是泊松分佈。

P(X=k)= lim(n->無窮)(n,k)(lambda/n)^k

(1-lambda/n)^(n-k)
=lim(n->無窮)(n!/((n-k)!k!))*…
=lim(n->無窮)n*(n-1)(n-2)…(n-k+1)*lambda^k/n^k(1-lambda/n)^n*(1-lambda/n)^(-k)
lim(n->無窮)n*(n-1)…(n-k+1)/n^k=1
原式=(lambda^k/k!)*e^(-lambda)

lim(x->無窮)(1+a/x)^x=e^a

lim(n->無窮)(1+1/n)^n = e
ps:e = 1+ 1/2! + 1/3! + .. + 1/n!

所以泊松分佈:P(X=k)=lambda^k*e^(-lambda)/k!

大數定理 Law of Large Numbers

隨機變數的n次觀測X1,X2,X3,…Xn的平均值趨向於總體平均值(n->無窮)。也就是當樣本量足夠大的時候,樣本均值接近總體均值或者是隨機變數的期望值。

_
xn ->E(X) ,with n-> 無窮

正態分佈

Normal Distribution Comparison,正態分佈 高斯分佈:可以說是統計學中最重要的概念。
這裡寫圖片描述
(x-u)/sigma:離均值有多少個標準差那麼遠,叫標準z分數(standard z score)
ps:隨機變數和的分佈以正態分佈為極限,即使這些實驗的分佈不是正態的。【金融裡也喜歡用正態分佈進行假設,最小二乘裡誤差的分佈也假設是正態分佈的】

二項分佈當np很大時也趨向於正態分佈,二者的均值和方差相等,可以近似計算。
標準差越小,鐘形曲線越窄。

CDF:累積分佈函式,-無窮到x
對於正態分佈,均值左右一個標準差內的概率總是68.3%
正態分佈習題:
1.下列哪些是正態分佈,哪些不是?
(a)從拇指指尖到小指指尖的長度(和基因,成長有關,這是大量隨機變數的和,所以近似服從正態分佈:中心極限定理。也有可能是雙峰分佈:男的和女的手指間距離)
(b)公司員工的薪水分佈:不是正態分佈,是右偏態分佈
(c)50位CEO工資的水平:可能接近正態分佈
(d)100個一塊錢的年份:左偏態分佈:mean在median的左邊
2.u=81,sigma=6.3,計算下面數字的z分數
(a) 65. z = (65-81)/6.3 =-2.53

經驗法則:68-95-99.7

u-sigma<=X<=u+sigma:68.3%
u-2sigma<=X<u+2sigma:95%
u-3sigma<=X<=u+3sigma:P(X):99.7%

標準正態分佈:standard normal distribution
mean = 0, variance = standard deviation = 1

中心極限定理

隨著樣本容量n的增大,獨立同分布的m個隨機變數[每個隨機變數有n個樣本]的均值分佈服從正態分佈。
實際中,n=10或15時就很接近正態分佈了,收斂的很快。 樣本容量越大,方差越小(樣本均值估計和總體平均值越來越接近)