1. 程式人生 > >【數學基礎】 協方差與協方差矩陣

【數學基礎】 協方差與協方差矩陣

  
##常見的統計量

   在概率與統計中,最常見的統計量有樣本均值、方差、標準差、極差以及中位數等等。這些都是最基礎、最常見的統計量。
  
   均值:
Xˉ=1ni=1nXi\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_{i}
   方差:
S=D(X)=1ni=1n(XiXˉ)2S=D(X)=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}
   均值也就是一組資料的平均數,它可以理解成為資料分佈中心或者物體的質心;而方差是資料距資料中心(也就是均值)的距離的平方的均值,它表示一組資料的離散程度,方差越大,資料分佈越離散。

協方差

   除了上述常用的統計量以外,有一個在資料分析中也比較常用的統計量,它就是協方差;協方差表示兩個變數的總體誤差。它的計算公式如下;
cov(X,Y)=1ni=1n(XiXˉ)(YiYˉ)cov(X,Y)=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})(Y_{i}-\bar{Y})
   根據公式可以判斷出,協方差具有以下特性;
cov(X,Y)=cov(Y,X)cov(X,Y)=cov(Y,X)
cov(X,X)=D(X)cov(X,X)=D(X)


   從公式中還可以初步判斷出協方差的大小與XXYY 這兩個變數的離散程度都有關,而且兩個變數互相影響,例如當(XiXˉ)(X_{i}-\bar{X}) 的絕對值很小時,如果(YiYˉ)(Y_{i}-\bar{Y}) 的絕對值很大,兩者乘積的絕對值也會很小。

   如果兩者在變化過程中變化趨勢一致,比如,XX 變大時 YY 也變大,那麼協方差是正值,表明兩者正相關,例如身高越高的人往往雙臂越長,那麼身高跟臂長是正相關的;如果兩者在變化過程中變化趨勢相反,例如 XX 變大時 YY 卻變小,那麼協方差是負值,兩者負相關,Figure 1所示。所以它反映的是變數在變化過程中的協同性

。我們可以根據協方差的這種協同性來判斷資料在不同“方向”上的離散程度。

Figure 1

Figure 1

  
   強調說明

   協方差計算 只能 用於計算同一樣本的不同屬性(或者說是維度)之間的協方差。否則是沒有意義的,因為XiX_{i}YiY_{i},對應的是樣本中第 ii 個個體的 XX 屬性與 YY 屬性的值。比如,人的腿長與身高的協方差,這個是可以的。但是要是想計算人的腿長與樹木的長度之間的協方差,明顯就是沒有任何意義的。

相關係數

   協方差的值的大小除了一兩種變數的相關性有關外,還與變數的量綱有關。如果 XX 是以10為量綱,而 YY 以10萬為量綱,而 ZZ 也是以10為量綱。假設 XXZZ 之間具有很強的相關性(比如Xi=ZiX_{i}=Z_{i}),而 XXYY 之間不具有很強的相關性,但是由於量綱的影響,XXYY 的相關係數要大於 XXZZ 的相關係數。
  
   為了能夠更好地衡量變數之間的相關程度,引入了相關係數 η\eta
η=cov(X,Y)D(X)D(Y)\eta =\frac{cov(X,Y)}{\sqrt{D(X)D(Y)}}
   通過讓協方差除以兩個變數的標準差的乘積 D(X)D(Y)\sqrt{D(X)D(Y)} ,來消除變數量綱帶來的影響。由CauchyBuniakowskySchwarzCauchy-Buniakowsky-Schwarz 不等式;
(a2+b2)(c2+d2)(ac+bd)2(a^{2}+b^{2})(c^{2}+d^{2})\geq (ac+bd)^{2}
  所以;
D(X)D(Y)cov(X,Y)\sqrt{D(X)D(Y)}\geq cov(X,Y)
   因此, η\eta 的取值範圍為[1,1][-1,1] ;當 η\eta 為正值時, XXYY 正相關,切值越大相關性越強;同理,當 η\eta 為負值時,XXYY 負相關,當 η=0\eta=0 時,XXYY 不相關。

   注:此處所說的相關性都是線性相關性,有可能兩者之間存在非線性的相關性

協方差矩陣

   對於多維資料 X=[X1,X2,X3Xn]TX=[X_{1},X_{2},X_{3}\cdots X_{n}]^{T} ,如果需要計算各個維度兩兩之間的協方差,就生成了一個 nnn*n 的矩陣,這個矩陣就是協方差矩陣
C=(cov(X1,X1)cov(X1,X2)cov(X1,Xn)cov(X2,X1)cov(Xn,X1)cov(Xn,Xn))C=\begin{pmatrix} cov(X_{1},X_{1}) & cov(X_{1},X_{2}) & \cdots & cov(X_{1},X_{n})\\ cov(X_{2},X_{1})& \ddots & \ddots & \vdots \\ \vdots & \ddots & \ddots & \vdots \\ cov(X_{n},X_{1}) & \cdots & \cdots & cov(X_{n},X_{n}) \end{pmatrix}
  由於cov(Xn,X1)=cov(X1,Xn)cov(X_{n},X_{1}) =cov(X_{1},X_{n}) ,所以協方差矩陣是對稱陣。

協方差矩陣的意義

   協方差矩陣中的元素是資料各個維度的協方差,而矩陣的特徵值與特徵向量表示的是對所有元素資訊的整合,也就是說協方差矩陣的特徵值也是表示協方差,對應的特徵向量表示協方差