【數學基礎】 協方差與協方差矩陣
##常見的統計量
在概率與統計中,最常見的統計量有樣本均值、方差、標準差、極差以及中位數等等。這些都是最基礎、最常見的統計量。
均值:
方差:
均值也就是一組資料的平均數,它可以理解成為資料分佈中心或者物體的質心;而方差是資料距資料中心(也就是均值)的距離的平方的均值,它表示一組資料的離散程度,方差越大,資料分佈越離散。
協方差
除了上述常用的統計量以外,有一個在資料分析中也比較常用的統計量,它就是協方差;協方差表示兩個變數的總體誤差。它的計算公式如下;
根據公式可以判斷出,協方差具有以下特性;
從公式中還可以初步判斷出協方差的大小與、 這兩個變數的離散程度都有關,而且兩個變數互相影響,例如當 的絕對值很小時,如果 的絕對值很大,兩者乘積的絕對值也會很小。
如果兩者在變化過程中變化趨勢一致,比如, 變大時 也變大,那麼協方差是正值,表明兩者正相關,例如身高越高的人往往雙臂越長,那麼身高跟臂長是正相關的;如果兩者在變化過程中變化趨勢相反,例如 變大時 卻變小,那麼協方差是負值,兩者負相關,Figure 1所示。所以它反映的是變數在變化過程中的協同性
強調說明 :
協方差計算 只能 用於計算同一樣本的不同屬性(或者說是維度)之間的協方差。否則是沒有意義的,因為、,對應的是樣本中第 個個體的 屬性與 屬性的值。比如,人的腿長與身高的協方差,這個是可以的。但是要是想計算人的腿長與樹木的長度之間的協方差,明顯就是沒有任何意義的。
相關係數
協方差的值的大小除了一兩種變數的相關性有關外,還與變數的量綱有關。如果 是以10為量綱,而 以10萬為量綱,而 也是以10為量綱。假設 與 之間具有很強的相關性(比如),而 、 之間不具有很強的相關性,但是由於量綱的影響, 與 的相關係數要大於 與 的相關係數。
為了能夠更好地衡量變數之間的相關程度,引入了相關係數 ;
通過讓協方差除以兩個變數的標準差的乘積 ,來消除變數量綱帶來的影響。由 不等式;
所以;
因此, 的取值範圍為 ;當 為正值時, 、 正相關,切值越大相關性越強;同理,當 為負值時,、 負相關,當 時,、 不相關。
注:此處所說的相關性都是線性相關性,有可能兩者之間存在非線性的相關性
協方差矩陣
對於多維資料 ,如果需要計算各個維度兩兩之間的協方差,就生成了一個 的矩陣,這個矩陣就是協方差矩陣。
由於 ,所以協方差矩陣是對稱陣。
協方差矩陣的意義
協方差矩陣中的元素是資料各個維度的協方差,而矩陣的特徵值與特徵向量表示的是對所有元素資訊的整合,也就是說協方差矩陣的特徵值也是表示協方差,對應的特徵向量表示協方差