1. 程式人生 > >均值、方差、協方差等定義與基本運算

均值、方差、協方差等定義與基本運算

class sigma 自變量 layout div htm 統計 因此 計算

一、均值

定義:

設P(x)是一個離散概率分布函數自變量的取值範圍是。那麽其均值被定義為: 技術分享圖片 設P(x)是一個連續概率分布函數 ,那麽他的均值是:技術分享圖片

性質:

1.線性運算:

期望服從先行性質,因此線性運算的期望等於期望的線性運算:

技術分享圖片

我們可以把它推廣到任意一般情況: 技術分享圖片

2.函數的期望:

設f(x)是x的函數,則f(x)的期望為:

離散:

技術分享圖片

連續:

技術分享圖片

3.乘積的期望:

一般來說,乘積的期望不等於期望的乘積,除非變量相互獨立。因此,如果x和y相互獨立,則

技術分享圖片

期望的運算構成了統計量的運算基礎,因為方差、協方差等統計量本質上是一種特殊的期望。

設C為一個常數,X和Y是兩個隨機變量。以下是數學期望的重要性質: 1.E(C)=C 2.E(CX)=CE(X) 3.E(X+Y)=E(X)+E(Y) 4.當X和Y相互獨立時,E(XY)=E(X)E(Y) 性質3和性質4可以推到到任意有限個相互獨立的隨機變量之和或之積的情況。

例子:

某城市有10萬個家庭,沒有孩子的家庭有1000個,有一個孩子的家庭有9萬個,有兩個孩子的家庭有6000個,有3個孩子的家庭有3000個。求一個家庭平均小孩的數目: 思路:則此城市中任一個家庭中孩子的數目是一個隨機變量。它可取值0,1,2,3。其中取0的概率為0.01(1000/10萬),取1的概率0.9(9000/10萬),取2的概率為0.06(6000/10萬),取3的概率為0.03(3000/10萬)。它的數學期望0×0.01+1×0.9+2×0.06+3×0.03等於1.11,即此城市一個家庭平均有小孩1.11個。用數學式子表示為E(X)=1.11。 技術分享圖片
技術分享圖片

二、方差

定義:

方差是一種特殊的期望, 被定義為:

技術分享圖片

離散型的方差:

技術分享圖片

技術分享圖片

連續型的方差:

技術分享圖片

技術分享圖片

以上兩式是一樣的,只是寫法不同。 證明:由數學期望的性質得 技術分享圖片 技術分享圖片

性質:

1.設C是常數,則D(C)=0 2.設X是隨機變量,C是常數,則有 技術分享圖片 3.設 X 與 Y 是兩個隨機變量,則 技術分享圖片 其中協方差 技術分享圖片 特別的,當X,Y是兩個不相關的隨機變量(相互獨立)則 技術分享圖片 此性質可以推廣到有限多個兩兩不相關的隨機變量之和的情況。

統計學意義:

方差和標準差是測算離散趨勢最重要、最常用的指標。方差是各變量值與其均值離差平方的平均數,它是測算數值型數據離散程度的最重要的方法。標準差為方差的算術平方根,用S表示。方差相應的計算公式為(無偏性)。 技術分享圖片 標準差與方差不同的是,標準差和變量的計算單位相同,比方差清楚,因此很多時候我們分析的時候更多的使用的是標準差。

三、協方差

定義:

在概率論和統計學中,協方差用於衡量兩個變量的總體誤差。期望值分別為E[X]與E[Y]的兩個實隨機變量X與Y之間的協方差Cov(X,Y)定義為: 技術分享圖片 技術分享圖片 技術分享圖片 技術分享圖片

特殊情況下,當X=Y時:

技術分享圖片

從直觀上來看,協方差表示的是兩個變量總體誤差的期望。 如果兩個變量的變化趨勢一致,也就是說如果其中一個大於自身的期望值時另外一個也大於自身的期望值,那麽兩個變量之間的協方差就是正值;如果兩個變量的變化趨勢相反,即其中一個變量大於自身的期望值時另外一個卻小於自身的期望值,那麽兩個變量之間的協方差就是負值。 如果X與Y是統計獨立的,那麽二者之間的協方差就是0,因為兩個獨立的隨機變量滿足E[XY]=E[X]E[Y]。 但是,反過來並不成立。即如果X與Y的協方差為0,二者並不一定是統計獨立的。

性質:

(1)Cov(X,Y)=Cov(Y,X); (2)Cov(aX,bY)=abCov(X,Y),(a,b是常數); (3)Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)。 由協方差定義,可以看出Cov(X,X)=D(X),Cov(Y,Y)=D(Y)。

四、相關系數

協方差作為描述X和Y相關程度的量,在同一物理量綱之下有一定的作用,但同樣的兩個量采用不同的量綱使它們的協方差在數值上表現出很大的差異。為此引入如下概念;

定義:

技術分享圖片

稱為隨機變量X和Y的(Pearson)相關系數。

性質:

1.若ρXY=0,則稱X與Y不線性相關。 2.即ρXY=0的充分必要條件是Cov(X,Y)=0,亦即不相關和協方差為零是等價的。 3.相關系數ρXY取值在-1到1之間,ρXY = 0時,稱X,Y不相關; | ρXY | = 1時,稱X,Y完全相關,此時,X,Y之間具有線性函數關系; | ρXY | < 1時,X的變動引起Y的部分變動,ρXY的絕對值越大,X的變動引起Y的變動就越大; | ρXY | > 0.8時稱為高度相關,當 | ρXY | < 0.3時稱為低度相關,其它時候為中度相關。

均值、方差、協方差等定義與基本運算