協方差與相關係數
定義:
協方差用於衡量兩個變數的總體誤差。而方差是協方差的一種特殊情況,即當兩個變數是相同的情況。
期望值分別為E[X]與E[Y]的兩個實隨機變數X與Y之間的協方差Cov(X,Y)定義為:
如果兩個變數的變化趨勢一致,也就是說如果其中一個大於自身的期望值時另外一個也大於自身的期望值,那麼兩個變數之間的協方差就是正值;如果兩個變數的變化趨勢相反,即其中一個變數大於自身的期望值時另外一個卻小於自身的期望值,那麼兩個變數之間的協方差就是負值。
如果X與Y是統計獨立的,那麼二者之間的協方差就是0,因為兩個獨立的隨機變數滿足E[XY]=E[X]E[Y]。
但是,反過來並不成立。即如果X與Y的協方差為0,二者並不一定是統計獨立的。
相關係數:
由協方差定義,可以看出Cov(X,X)=D(X),Cov(Y,Y)=D(Y)
隨機變數X和Y的相關係數:
若ρXY=0,則稱X與Y不線性相關。
(1)∣ρXY∣≤1;
(2)∣ρXY∣=1充分必要條件為P{Y=aX+b}=1,(a,b為常數,a≠0)
協方差矩陣:
協方差也只能處理二維問題,那維數多了自然就需要計算多個協方差,自然我們會想到使用矩陣來組織這些資料。對多維隨機變數X=,我們往往需要計算各維度兩兩之間的協方差,這樣各協方差組成了一個n×n的矩陣,稱為協方差矩陣。協方差矩陣是個對稱矩陣,對角線上的元素是各維度上隨機變數的方差。我們定義協方差矩陣為Σ,這個符號與求和∑相同,需要根據上下文區分。矩陣內的元素
Σij=cov(Xi,Xj)=E[ (Xi−E[Xi]) (Xj−E[Xj]) ]
這樣協方差矩陣的計算公式為:
我們可以舉一個簡單的三維的例子,假設資料集有三個維度,則協方差矩陣為: