1. 程式人生 > >協方差矩陣, 相關係數矩陣

協方差矩陣, 相關係數矩陣

 

變數說明:

為一組隨機變數,這些隨機變數構成隨機向量,每個隨機變數有m個樣本,則有樣本矩陣

                       1

其中對應著每個隨機向量X的樣本向量,對應著第i個隨機單變數的所有樣本值構成的向量。

單隨機變數間的協方差:

隨機變數之間的協方差可以表示為

                                                           2

根據已知的樣本值可以得到協方差的估計值如下:

                                                           3

可以進一步地簡化為:

                           4

 協方差矩陣:

  

                         5

其中從而得到了協方差矩陣表示式。

如果所有樣本的均值為一個零向量,則式(5)可以表達成:

  6

補充說明:

1、協方差矩陣中的每一個元素是表示的隨機向量X的不同分量之間的協方差,而不是不同樣本之間的協方差,如元素Cij就是反映的隨機變數Xi, Xj的協方差

2、協 方差是反映的變數之間的二階統計特性,如果隨機向量的不同分量之間的相關性很小,則所得的協方差矩陣幾乎是一個對角矩陣。對於一些特殊的應用場合,為了使 隨機向量的長度較小,可以採用主成分分析的方法,使變換之後的變數的協方差矩陣完全是一個對角矩陣,之後就可以捨棄一些能量較小的分量了(對角線上的元素 反映的是方差,也就是交流能量)。特別是在模式識別領域,當模式向量的維數過高時會影響識別系統的泛化效能,經常需要做這樣的處理

3、必須注意的是,這裡所得到的式(5)和式(6)給出的只是隨機向量協方差矩陣真實值的一個估計(即由所測的樣本的值來表示的,隨著樣本取值的不同會發生變化),故而所得的協方差矩陣是依賴於取樣樣本的,並且樣本的數目越多,樣本在總體中的覆蓋面越廣,則所得的協方差矩陣越可靠。

4、如同協方差和相關係數的關係一樣,我們有時為了能夠更直觀地知道隨機向量的不同分量之間的相關性究竟有多大,還會引入相關係數矩陣。


概率論統計學中,相關或稱相關係數關聯絡數,顯示兩個隨機變數之間線性關係的強度和方向。在統計學中,相關的意義是用來衡量兩個變數相對於其相互獨立的距離。在這個廣義的定義下,有許多根據資料特點而定義的用來衡量資料相關的係數。

對於不同資料特點,可以使用不同的係數。最常用的是皮爾遜積差相關係數。其定義是兩個變數協方差除以兩個變數的標準差(方差)。

皮爾遜積差係數

數學特徵

/rho_{X,Y}={/mathrm{cov}(X,Y) /over /sigma_X /sigma_Y} ={E((X-/mu_X)(Y-/mu_Y)) /over /sigma_X/sigma_Y},

其中,E數學期望,cov表示協方差

因為μX = E(X)σX2 = E(X2) − E2(X),同樣地,對於Y,可以寫成

/rho_{X,Y}=/frac{E(XY)-E(X)E(Y)}{/sqrt{E(X^2)-E^2(X)}~/sqrt{E(Y^2)-E^2(Y)}}.

當兩個變數的標準差都 不為零,相關係數才有定義。從柯西—施瓦茨不等式可知,相關係數不超過1. 當兩個變數的線性關係增強時,相關係數趨於1或-1。當一個變數增加而另一變數也增加時,相關係數大於0。當一個變數的增加而另一變數減少時,相關係數小 於0。當兩個變數獨立時,相關係數為0.但反之並不成立。 這是因為相關係數僅僅反映了兩個變數之間是否線性相關。比如說,X是區間[-1,1]上的一個均勻分佈的隨機變數。Y = X2. 那麼Y是完全由X確定。因此YX是不獨立的。但是相關係數為0。或者說他們是不相關的。當YX服從聯合正態分佈時,其相互獨立和不相關是等價的。

當一個或兩個變數帶有測量誤差時,他們的相關性就受到削弱,這時,“反衰減”性(disattenuation)是一個更準確的係數。