皮爾遜相關系數與余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)
阿新 • • 發佈:2019-01-03
blog 相關 htm mage cnblogs 變量 對比 兩個 是把
之前《皮爾遜相關系數(Pearson Correlation Coefficient, Pearson‘s r)》一文介紹了皮爾遜相關系數。那麽,皮爾遜相關系數(Pearson Correlation Coefficient)和余弦相似度(Cosine Similarity)之間有什麽關聯呢?
首先,我們來看一下什麽是余弦相似度。說到余弦相似度,就要用到余弦定理(Law of Cosine)。
假設兩個向量和之間的夾角為。,向量的長度分別是和,對應的邊長為向量減去向量的長度,也就是。
根據余弦定理:
對上式進行推導:
這樣最終可以得到:
就是余弦相似度,取值在-1和1之間。如果兩個向量方向相反,那麽 等於-1;如果兩個向量方向相同,那麽等於1。可以看出,兩個向量之間的夾角越小,其夾角余弦越大(越相似)。因此余弦相似度可以用來度量兩個變量之間的相似程度。
上面針對的是二維空間,(x1,y1),(x2,y2)兩個向量之間的夾角余弦為:
擴展到n維空間,(x1,x2,...,xn),(y1,y2,...,yn)兩個向量之間的夾角余弦就是:
如果對上式數據做標準化處理:
夾角余弦公式就會變為:
對比皮爾遜相關系數的公式:
這兩者不是完全一樣嗎?
因此,我們得到結論:皮爾遜相關系數就是把兩組數據標準化處理之後的向量夾角的余弦。
皮爾遜相關系數與余弦相似度(Pearson Correlation Coefficient & Cosine Similarity)