1. 程式人生 > >皮爾遜相關系數(Pearson Correlation Coefficient, Pearson's r)

皮爾遜相關系數(Pearson Correlation Coefficient, Pearson's r)

opera back 一個 tar post blank 圖片 art 正數

Pearson‘s r,稱為皮爾遜相關系數(Pearson correlation coefficient),用來反映兩個隨機變量之間的線性相關程度。

用於總體(population)時記作ρ (rho)(population correlation coefficient):

給定兩個隨機變量X,Y,ρ的公式為: 技術分享圖片

其中: 技術分享圖片 是協方差

技術分享圖片是X的標準差

技術分享圖片是Y的標準差

用於樣本(sample)時記作rsample correlation coefficient):

給定兩個隨機變量x,y,r的公式為:技術分享圖片

其中: 技術分享圖片是樣本數量

技術分享圖片

是變量x,y對應的i點觀測值

技術分享圖片 是x樣本平均數,技術分享圖片是y樣本平均數

r的取值在-1與1之間。取值為1時,表示兩個隨機變量之間呈完全正相關關系;取值為-1時,表示兩個隨機變量之間呈完全負相關關系;取值為0時,表示兩個隨機變量之間線性無關。

(註:我們用樣本相關系數r作為總體相關系數ρ的估計值,要判斷r值是不是由抽樣誤差或偶然因素導致的,需要進行假設檢驗。)

那麽皮爾遜相關系數是怎麽得來的呢?(參考:https://blog.csdn.net/ichuzhen/article/details/79535226)

要理解皮爾遜相關系數,首先要理解協方差(Covariance)

。協方差可以反映兩個隨機變量之間的關系,如果一個變量跟隨著另一個變量一起變大或者變小,那麽這兩個變量的協方差就是正值,就表示這兩個變量之間呈正相關關系,反之相反。協方差的公式如下:

技術分享圖片

如果協方差的值是個很大的正數,我們可以得到兩個可能的結論:

(1) 兩個變量之間呈很強的正相關性

(2) 兩個變量之間並沒有很強的正相關性,協方差的值很大是因為X或Y的標準差很大

那麽到底哪個結論正確呢?只要把X和Y變量的標準差,從協方差中剔除不就知道了嗎?協方差能告訴我們兩個隨機變量之間的關系,但是卻沒法衡量變量之間相關性的強弱。因此,為了更好地度量兩個隨機變量之間的相關程度,引入了皮爾遜相關系數。可以看到,皮爾遜相關系數就是用協方差除以兩個變量的標準差得到的。

皮爾遜相關系數(Pearson Correlation Coefficient, Pearson's r)