1. 程式人生 > >皮爾遜相關系數與余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

皮爾遜相關系數與余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)

blog 相關 htm mage cnblogs 變量 對比 兩個 是把

之前《皮爾遜相關系數(Pearson Correlation Coefficient, Pearson‘s r)》一文介紹了皮爾遜相關系數。那麽,皮爾遜相關系數(Pearson Correlation Coefficient)余弦相似度(Cosine Similarity)之間有什麽關聯呢?

首先,我們來看一下什麽是余弦相似度。說到余弦相似度,就要用到余弦定理(Law of Cosine)

技術分享圖片

假設兩個向量技術分享圖片技術分享圖片之間的夾角為技術分享圖片技術分享圖片技術分享圖片向量的長度分別是技術分享圖片技術分享圖片技術分享圖片對應的邊長為向量技術分享圖片減去向量技術分享圖片的長度,也就是技術分享圖片

根據余弦定理:技術分享圖片

對上式進行推導:技術分享圖片

這樣最終可以得到:技術分享圖片

技術分享圖片就是余弦相似度,取值在-1和1之間。如果兩個向量方向相反,那麽技術分享圖片

等於-1;如果兩個向量方向相同,那麽技術分享圖片等於1。可以看出,兩個向量之間的夾角越小,其夾角余弦越大(越相似)。因此余弦相似度可以用來度量兩個變量之間的相似程度。

上面針對的是二維空間,技術分享圖片(x1,y1),技術分享圖片(x2,y2)兩個向量之間的夾角余弦為:技術分享圖片

擴展到n維空間,技術分享圖片(x1,x2,...,xn),技術分享圖片(y1,y2,...,yn)兩個向量之間的夾角余弦就是:技術分享圖片

如果對上式數據做標準化處理:技術分享圖片

夾角余弦公式就會變為:技術分享圖片

對比皮爾遜相關系數的公式:技術分享圖片

這兩者不是完全一樣嗎?

因此,我們得到結論:皮爾遜相關系數就是把兩組數據標準化處理之後的向量夾角的余弦。

皮爾遜相關系數與余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)