1. 程式人生 > >協方差矩陣的幾何解釋--協方差矩陣的特徵值分解部分,很好的解釋了奇異值分解主成分選擇的原因

協方差矩陣的幾何解釋--協方差矩陣的特徵值分解部分,很好的解釋了奇異值分解主成分選擇的原因

http://www.360doc.com/content/16/0121/13/13800296_529534763.shtml

A geometric interpretation of the covariance matrix

http://www.visiondummy.com/2014/04/geometric-interpretation-covariance-matrix/

譯文:http://demo.netfoucs.com/u010182633/article/details/45937051

介紹

在本文中,我們通過探索線性變換與所得資料協方差之間的關係提供協方差矩陣一個直觀的幾何解釋。大部分教科書基於協方差矩陣的概念解釋資料的形狀。相反,我們採取一個反向的方法,根據資料的形狀來解釋協方差矩陣的概念。

在《為什麼樣本方差除以N-1?》的文章中,我們會討論方差的概念,並提供了眾所周知的估算樣本方差公式的推導和證明。這篇文章中使用的圖1表明標準差(方差的平方根)提供了資料在特徵空間上傳播多少的量度。 

我們發現,樣本方差的無偏估計可由下式獲得: 
這裡寫圖片描述

然而,方差只能用於解釋平行於特徵空間軸方向的資料傳播。考慮圖2所示的二維特徵空間: 

對於這個資料,我們可以計算出在x方向上的方差。然而,資料的水平傳播和垂直傳播不能解釋明顯的對角線關係。圖2清楚地顯示,平均而言,如果一個數據點的x值增加,則y值也將增加,這產生了正相關。這種相關性可以通過擴充套件方差概念到所謂的資料“協方差”捕捉到: 
這裡寫圖片描述

對於2D資料,我們得到這裡寫圖片描述

,這些值可以用矩陣來表示,該矩陣叫做協方差矩陣: 
這裡寫圖片描述

如果x與y是正相關的,那麼y和x也是正相關的。換句話說,。因此,協方差矩陣始終是一個對稱矩陣,其對角線上是方差,非對角線上是協方差。二維正態分佈資料由它的均值和2x2協方差矩陣就可以完全解釋。同樣,一個3x3協方差矩陣用於捕捉三維資料的傳播,一個NxN協方差矩陣捕獲N維資料的傳播。

圖3展示了資料的整體形狀如何定義協方差矩陣: 



協方差矩陣的特徵值分解

在下一節,我們將討論協方差矩陣如何被解釋為白色資料轉換成我們觀察到資料的線性操作。然而,在深入技術細節之前,對特徵向量和特徵值如何唯一地確定協方差矩陣(資料形狀)有一個直觀的認識是非常重要的。

正如我們在圖3看到的,協方差矩陣定義了我們資料的傳播(方差)和方向(協方差)。因此,如果我們想用一個向量和它的大小來表示協方差矩陣,我們應該簡單地嘗試找到指向資料最大傳播方向上的向量,其大小等於這個方向上的傳播(方差)。

如果我們定義這個向量為這裡寫圖片描述,那麼我們資料D到這個向量上的對映為,對映資料的方差是這裡寫圖片描述。由於我們正在尋找指向最大方差方向的向量這裡寫圖片描述,所以我們應該選擇它的成分,使得對映資料的協方差矩陣這裡寫圖片描述儘可能的大。最大化這裡寫圖片描述的形式為這裡寫圖片描述的任何函式,其中這裡寫圖片描述是歸一化單位向量,可以用一個所謂的瑞利商表示。通過設定這裡寫圖片描述等於矩陣的最大特徵特徵向量這裡寫圖片描述可以獲得這樣瑞利商的最大值。

換句話說,協方差矩陣的最大特徵向量總是指向資料最大方差的方向,並且該向量的幅度等於相應的特徵值。第二大特徵向量總是正交於最大特徵向量,並指向第二大資料的傳播方向。

現在,讓我們來看看一些例子。在文章《特徵值和特徵向量》中http://blog.csdn.net/u010182633/article/details/45921929,我們看到一個線性變換矩陣T完全由它的特徵向量和特徵值定義。應用到協方差矩陣,這意味著: 
這裡寫圖片描述 
這裡寫圖片描述

如果我們資料的協方差矩陣是對角矩陣,使得協方差是零,那麼這意味著方差必須等於特徵值λ。如圖4所示,特徵向量用綠色和品紅色表示,特徵值顯然等於協方差矩陣的方差分量。 
這裡寫圖片描述

然而,如果協方差矩陣不是對角的,使得協方差不為零,那麼情況稍微更復雜一些。特徵值仍代表資料最大傳播方向的方差大小,協方差矩陣的方差分量仍然表示x軸和y軸方向上的方差大小。但是,因為資料不是軸對齊的,所以這些值不再與圖5所示的相同。 
這裡寫圖片描述

通過比較圖5與圖4,可以清楚地看到特徵值表示沿特徵向量方向資料的方差,而協方差矩陣的方差分量表示沿軸的傳播。如果沒有協方差,則這兩個值是相等的。

協方差矩陣作為線性變換

現在,讓我們忘了協方差矩陣。圖3的例項可以簡單地認為是圖6的一個線性變換例項: 
這裡寫圖片描述

圖6所示的資料是D,則圖3所示的每個例項可以通過線性變換D得到:這裡寫圖片描述

其中T是變換矩陣,包括一個旋轉矩陣R和縮放矩陣S: 
這裡寫圖片描述

這些矩陣定義如下: 
這裡寫圖片描述 
其中這裡寫圖片描述是旋轉角度。

這裡寫圖片描述 
這裡寫圖片描述分別是x方向和y方向的比例因子。

在下面的段落中,我們將討論協方差矩陣這裡寫圖片描述與線性變換矩陣T= RS之間的關係。

讓我們先從未縮放(縮放相當於1)和未旋轉的資料開始。在統計中,這往往為“白資料’,因為它的樣本是從標準正態分佈引出的,因此對應於白(不相關)噪聲: 
這裡寫圖片描述

這個“白色”資料的協方差矩陣等於單位矩陣,使得方差和標準差等於1,協方差等於零: 
這裡寫圖片描述

現在讓我們用因子4在x方向縮放資料: 
這裡寫圖片描述

資料D’現在如下: 
這裡寫圖片描述

D’的協方差這裡寫圖片描述現在是: 
這裡寫圖片描述

D’的協方差這裡寫圖片描述與線性變換矩陣T有關係,D=TD,其中: 
這裡寫圖片描述

然而,雖然資料在x和y方向上縮放時等式(12)成立,但是應用旋轉是否依然成立呢?為了調查一般情況下線性變換矩陣T和協方差矩陣這裡寫圖片描述之間的關係,我們試圖分解協方差矩陣為旋轉和縮放矩陣的乘積。

正如我們前面所看到的,我們可以用特徵向量和特徵值表示協方差矩陣: 
這裡寫圖片描述 
這裡寫圖片描述

等式(13)儲存矩陣Σ的每個特徵向量和特徵值。在2D情況下,我們得到兩個特徵值和兩個特徵值。由公式(13)定義的兩個等式可以有效地用矩陣符號來表示: 
這裡寫圖片描述 
其中V是矩陣,它的列是Σ的特徵向量,L是對角矩陣,其非零元素對應特徵值。

這意味著我們可以將協方差矩陣表示為特徵向量和特徵值的函式: 
這裡寫圖片描述

方程(15)就是所謂協方差矩陣特徵值分解,並可以使用奇異值分解演算法來獲得。而特徵向量表示資料最大方差的方向,特徵值表示那些方向方差的幅度。換言之,V表示旋轉矩陣,而這裡寫圖片描述表示一個縮放矩陣。協方差矩陣可以進一步分解為: 
這裡寫圖片描述 
這裡寫圖片描述

在等式(6)中,我們定義了一個線性變換T= RS。由於S是對角縮放矩陣,所以S=ST。此外,由於R為正交矩陣,R-1=RT。因此,這裡寫圖片描述協方差矩陣可以寫為: 
這裡寫圖片描述

換言之,如果我們應用由T=RS定義的線性變換到圖7所示的原始白資料,我們得到了旋轉和縮放的資料D’及協方差矩陣這裡寫圖片描述。這示於圖10: 
這裡寫圖片描述
圖10的彩色箭頭表示特徵向量。最大特徵向量,即與最大特徵值對應的特徵向量,總是指向資料最大方差的方向,並由此確定其方位。次特徵向量總是正交於最大特徵向量,因為旋轉矩陣的正交性。

總結 
在本文中,我們表明觀察到資料的協方差矩陣與白色不相關資料的線性變換有直接的關係。此線性變換完全由資料的特徵向量和特徵值確定。而特徵向量表示旋轉矩陣,特徵值對應於每個維度上縮放因子的平方。