1. 程式人生 > >皮爾森相關係數演算法

皮爾森相關係數演算法

  皮爾森相關係數(Pearson correlation coefficient)也稱皮爾森積矩相關係數(Pearson product-moment correlation coefficient) ,是一種線性相關係數。皮爾森相關係數是用來反映兩個變數線性相關程度的統計量。相關係數用r表示,其中n為樣本量,分別為兩個變數的觀測值和均值。r描述的是兩個變數間線性相關強弱的程度。r的絕對值越大表明相關性越強。

定義

兩個變數之間的皮爾遜相關係數定義為兩個變數之間的協方差和標準差的商:

上式定義了總體相關係數,常用希臘小寫字母 ρ (rho) 作為代表符號。估算樣本的協方差和標準差,可得到樣本相關係數(樣本皮爾遜係數),常用英文小寫字母 r 代表:

r 亦可由 樣本點的標準分數均值估計,得到與上式等價的表示式: 其中 分別是對 樣本的標準分數、樣本平均值和樣本標準差。   公式詳解:   樣本的簡單相關係數一般用r表示,其中n 為樣本量, 分別為兩個變數的觀測值和均值。r描述的是兩個變數間線性相關強弱的程度。r的取值在-1與+1之間,若r>0,表明兩個變數是正相關,即一個變數的值越大,另一個變數的值也會越大;若r<0,表明兩個變數是負相關,即一個變數的值越大另一個變數的值反而會越小。r 的絕對值越大表明相關性越強,要注意的是這裡並不存在因果關係。若r=0,表明兩個變數間不是線性相關,但有可能是其他方式的相關(比如曲線方式)
  利用樣本相關係數推斷總體中兩個變數是否相關,可以用t 統計量對總體相關係數為0的原假設進行檢驗。若t 檢驗顯著,則拒絕原假設,即兩個變數是線性相關的;若t 檢驗不顯著,則不能拒絕原假設,即兩個變數不是線性相關的.  

適用範圍

當兩個變數的標準差都不為零時,相關係數才有定義,皮爾遜相關係數適用於:

(1)兩個變數之間是線性關係,都是連續資料。

(2)兩個變數的總體是正態分佈,或接近正態的單峰分佈。

(3)兩個變數的觀測值是成對的,每對觀測值之間相互獨立。