1. 程式人生 > >期望、方差、協方差及相關係數的原理理解和計算

期望、方差、協方差及相關係數的原理理解和計算

一、期望

定義:

設P(x)是一個離散概率分佈函式自變數的取值範圍是。那麼其期望被定義為:                                                                    設P(x)是一個連續概率分佈函式 ,那麼他的期望是:

性質:

1.線性運算:

   期望服從先行性質,因此線性運算的期望等於期望的線性運算:   

                                                

   我們可以把它推廣到任意一般情況:                                                 

2.函式的期望:

 設f(x)是x的函式,則f(x)的期望為:

    離散:

                      

    連續:

                      

3.乘積的期望:

    一般來說,乘積的期望不等於期望的乘積,除非變數相互獨立。因此,如果x和y相互獨立,

                                                                                       

期望的運算構成了統計量的運算基礎,因為方差、協方差等統計量本質上是一種特殊的期望。

設C為一個常數,X和Y是兩個
隨機變數
。以下是數學期望的重要性質: 1.E(C)=C 2.E(CX)=CE(X) 3.E(X+Y)=E(X)+E(Y) 4.當X和Y相互獨立時,E(XY)=E(X)E(Y) 性質3和性質4可以推到到任意有限個相互獨立的隨機變數之和或之積的情況。

例子:

某城市有10萬個家庭,沒有孩子的家庭有1000個,有一個孩子的家庭有9萬個,有兩個孩子的家庭有6000個,有3個孩子的家庭有3000個。求一個家庭平均小孩的數目: 思路:則此城市中任一個家庭中孩子的數目是一個隨機變數。它可取值0,1,2,3。其中取0的概率為0.01(1000/10萬),取1的概率0.9(9000/10萬),取2的概率為0.06(6000/10萬),取3的概率為0.03(3000/10萬)
它的數學期望0×0.01+1×0.9+2×0.06+3×0.03等於1.11,即此城市一個家庭平均有小孩1.11個。用數學式子表示為E(X)=1.11。
   

二、方差

定義:

方差是一種特殊的期望,被定義為:

                              

離散型的方差:

             

                  

連續型的方差:

            

                 

以上兩式是一樣的,只是寫法不同。 證明:由數學期望的性質得

性質:

1.設C是常數,則D(C)=0 2.設X是隨機變數,C是常數,則有   3.設 X 與 Y 是兩個隨機變數,則 其中協方差   特別的,當X,Y是兩個不相關的隨機變數(相互獨立)則 此性質可以推廣到有限多個兩兩不相關的隨機變數之和的情況。

統計學意義:

方差和標準差是測算離散趨勢最重要、最常用的指標。方差是各變數值與其均值離差平方的平均數,它是測算數值型資料離散程度的最重要的方法。標準差為方差的算術平方根,用S表示。方差相應的計算公式為(無偏性)。        標準差與方差不同的是,標準差和變數的計算單位相同,比方差清楚,因此很多時候我們分析的時候更多的使用的是標準差。

三、協方差

定義:

 在概率論和統計學中,協方差用於衡量兩個變數的總體誤差。期望值分別為E[X]與E[Y]的兩個實隨機變數XY之間的協方差Cov(X,Y)定義為:
                                                              
                                                                                  
                                                                                  
                                                                                 

  特殊情況下,當X=Y時:

                     

從直觀上來看,協方差表示的是兩個變數總體誤差的期望。 如果兩個變數的變化趨勢一致,也就是說如果其中一個大於自身的期望值時另外一個也大於自身的期望值,那麼兩個變數之間的協方差就是正值;如果兩個變數的變化趨勢相反,即其中一個變數大於自身的期望值時另外一個卻小於自身的期望值,那麼兩個變數之間的協方差就是負值。 如果XY是統計獨立的,那麼二者之間的協方差就是0,因為兩個獨立的隨機變數滿足E[XY]=E[X]E[Y]。 但是,反過來並不成立。即如果XY的協方差為0,二者並不一定是統計獨立的。

性質:

(1)Cov(X,Y)=Cov(Y,X); (2)Cov(aX,bY)=abCov(X,Y),(ab是常數); (3)Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)。 由協方差定義,可以看出Cov(X,X)=D(X),Cov(Y,Y)=D(Y)。

四、相關係數

      協方差作為描述X和Y相關程度的量,在同一物理量綱之下有一定的作用,但同樣的兩個量採用不同的量綱使它們的協方差在數值上表現出很大的差異。為此引入如下概念;

定義:    稱為隨機變數X和Y的(Pearson)相關係數。

性質:

1.若ρXY=0,則稱X與Y不線性相關。 2.即ρXY=0的充分必要條件是Cov(X,Y)=0,亦即不相關和協方差為零是等價的。 3.相關係數ρXY取值在-1到1之間,ρXY = 0時,稱X,Y不相關;  | ρXY | = 1時,稱X,Y完全相關,此時,X,Y之間具有線性函式關係;  | ρXY | < 1時,X的變動引起Y的部分變動,ρXY的絕對值越大,X的變動引起Y的變動就越大;  | ρXY | > 0.8時稱為高度相關,當 | ρXY | < 0.3時稱為低度相關,其它時候為中度相關。

五、參考資料

1.協方差相關係數等百度百科