1. 程式人生 > >各種距離 歐式距離、曼哈頓距離、切比雪夫距離、閔可夫斯基距離、標準歐氏距離、馬氏距離、余弦距離、漢明距離、傑拉德距離、相關距離、信息熵

各種距離 歐式距離、曼哈頓距離、切比雪夫距離、閔可夫斯基距離、標準歐氏距離、馬氏距離、余弦距離、漢明距離、傑拉德距離、相關距離、信息熵

form 密碼學 一行 and gif 國際象棋 matlab 三維空間 ffi

1. 歐氏距離(Euclidean Distance)

歐氏距離是最容易直觀理解的距離度量方法,我們小學、初中和高中接觸到的兩個點在空間中的距離一般都是指歐氏距離。

技術分享圖片

  • 二維平面上點a(x1,y1)與b(x2,y2)間的歐氏距離:

技術分享圖片

  • 三維空間點a(x1,y1,z1)與b(x2,y2,z2)間的歐氏距離:

技術分享圖片

  • n維空間點a(x11,x12,…,x1n)與b(x21,x22,…,x2n)間的歐氏距離(兩個n維向量):

技術分享圖片

  • Matlab計算歐氏距離:

Matlab計算距離使用pdist函數。若X是一個m×n的矩陣,則pdist(X)將X矩陣每一行作為一個n維行向量,然後計算這m個向量兩兩間的距離。

2. 曼哈頓距離(Manhattan Distance)

顧名思義,在曼哈頓街區要從一個十字路口開車到另一個十字路口,駕駛距離顯然不是兩點間的直線距離。這個實際駕駛距離就是“曼哈頓距離”。曼哈頓距離也稱為“城市街區距離”(City Block distance)。

技術分享圖片

  • 二維平面兩點a(x1,y1)與b(x2,y2)間的曼哈頓距離:

技術分享圖片

  • n維空間點a(x11,x12,…,x1n)與b(x21,x22,…,x2n)的曼哈頓距離:

技術分享圖片

  • Matlab計算曼哈頓距離:

3. 切比雪夫距離 (Chebyshev Distance)

國際象棋中,國王可以直行、橫行、斜行,所以國王走一步可以移動到相鄰8個方格中的任意一個。國王從格子(x1,y1)走到格子(x2,y2)最少需要多少步?這個距離就叫切比雪夫距離。

技術分享圖片

  • 二維平面兩點a(x1,y1)與b(x2,y2)間的切比雪夫距離:

技術分享圖片

  • n維空間點a(x11,x12,…,x1n)與b(x21,x22,…,x2n)的切比雪夫距離:

技術分享圖片

  • Matlab計算切比雪夫距離:

4. 閔可夫斯基距離(Minkowski Distance)

閔氏距離不是一種距離,而是一組距離的定義,是對多個距離度量公式的概括性的表述。

  • 閔氏距離定義:
  • 兩個n維變量a(x11,x12,…,x1n)與b(x21,x22,…,x2n)間的閔可夫斯基距離定義為:

技術分享圖片

其中p是一個變參數:

當p=1時,就是曼哈頓距離;

當p=2時,就是歐氏距離;

當p→∞時,就是切比雪夫距離。

因此,根據變參數的不同,閔氏距離可以表示某一類/種的距離。

  • 閔氏距離,包括曼哈頓距離、歐氏距離和切比雪夫距離都存在明顯的缺點。
  • e.g. 二維樣本(身高[單位:cm],體重[單位:kg]),現有三個樣本:a(180,50),b(190,50),c(180,60)。那麽a與b的閔氏距離(無論是曼哈頓距離、歐氏距離或切比雪夫距離)等於a與c的閔氏距離。但實際上身高的10cm並不能和體重的10kg劃等號。
  • 閔氏距離的缺點:
  • (1)將各個分量的量綱(scale),也就是“單位”相同的看待了;
  • (2)未考慮各個分量的分布(期望,方差等)可能是不同的。

  • Matlab計算閔氏距離(以p=2的歐氏距離為例):

5. 標準化歐氏距離 (Standardized Euclidean Distance)

定義: 標準化歐氏距離是針對歐氏距離的缺點而作的一種改進。標準歐氏距離的思路:既然數據各維分量的分布不一樣,那先將各個分量都“標準化”到均值、方差相等。假設樣本集X的均值(mean)為m,標準差(standard deviation)為s,X的“標準化變量”表示為:

技術分享圖片

  • 標準化歐氏距離公式:

技術分享圖片

如果將方差的倒數看成一個權重,也可稱之為加權歐氏距離(Weighted Euclidean distance)。

  • Matlab計算標準化歐氏距離(假設兩個分量的標準差分別為0.5和1):

6. 馬氏距離(Mahalanobis Distance)

馬氏距離的引出:

技術分享圖片

上圖有兩個正態分布的總體,它們的均值分別為a和b,但方差不一樣,則圖中的A點離哪個總體更近?或者說A有更大的概率屬於誰?顯然,A離左邊的更近,A屬於左邊總體的概率更大,盡管A與a的歐式距離遠一些。這就是馬氏距離的直觀解釋。

  • 概念:馬氏距離是基於樣本分布的一種距離。物理意義就是在規範化的主成分空間中的歐氏距離。所謂規範化的主成分空間就是利用主成分分析對一些數據進行主成分分解。再對所有主成分分解軸做歸一化,形成新的坐標軸。由這些坐標軸張成的空間就是規範化的主成分空間。

技術分享圖片

  • 定義:有M個樣本向量X1~Xm,協方差矩陣記為S,均值記為向量μ,則其中樣本向量X到μ的馬氏距離表示為:

技術分享圖片

向量Xi與Xj之間的馬氏距離定義為:

技術分享圖片

若協方差矩陣是單位矩陣(各個樣本向量之間獨立同分布),則Xi與Xj之間的馬氏距離等於他們的歐氏距離:

技術分享圖片

若協方差矩陣是對角矩陣,則就是標準化歐氏距離。

  • 歐式距離&馬氏距離:

技術分享圖片

技術分享圖片

  • 馬氏距離的特點:
  • 量綱無關,排除變量之間的相關性的幹擾;
  • 馬氏距離的計算是建立在總體樣本的基礎上的,如果拿同樣的兩個樣本,放入兩個不同的總體中,最後計算得出的兩個樣本間的馬氏距離通常是不相同的,除非這兩個總體的協方差矩陣碰巧相同;
  • 計算馬氏距離過程中,要求總體樣本數大於樣本的維數,否則得到的總體樣本協方差矩陣逆矩陣不存在,這種情況下,用歐式距離計算即可。
  • Matlab計算馬氏距離:

7. 余弦距離(Cosine Distance)

幾何中,夾角余弦可用來衡量兩個向量方向的差異;機器學習中,借用這一概念來衡量樣本向量之間的差異。

  • 二維空間中向量A(x1,y1)與向量B(x2,y2)的夾角余弦公式:

技術分享圖片

  • 兩個n維樣本點a(x11,x12,…,x1n)和b(x21,x22,…,x2n)的夾角余弦為:

技術分享圖片

即:

技術分享圖片

夾角余弦取值範圍為[-1,1]。余弦越大表示兩個向量的夾角越小,余弦越小表示兩向量的夾角越大。當兩個向量的方向重合時余弦取最大值1,當兩個向量的方向完全相反余弦取最小值-1。

  • Matlab計算夾角余弦(Matlab中的pdist(X, ‘cosine’)得到的是1減夾角余弦的值):

8. 漢明距離(Hamming Distance)

技術分享圖片

  • 定義:兩個等長字符串s1與s2的漢明距離為:將其中一個變為另外一個所需要作的最小字符替換次數。例如:

  • 漢明重量:是字符串相對於同樣長度的零字符串的漢明距離,也就是說,它是字符串中非零的元素個數:對於二進制字符串來說,就是 1 的個數,所以 11101 的漢明重量是 4。因此,如果向量空間中的元素a和b之間的漢明距離等於它們漢明重量的差a-b。

  • 應用:漢明重量分析在包括信息論、編碼理論、密碼學等領域都有應用。比如在信息編碼過程中,為了增強容錯性,應使得編碼間的最小漢明距離盡可能大。但是,如果要比較兩個不同長度的字符串,不僅要進行替換,而且要進行插入與刪除的運算,在這種場合下,通常使用更加復雜的編輯距離等算法。

  • Matlab計算漢明距離(Matlab中2個向量之間的漢明距離的定義為2個向量不同的分量所占的百分比):

9. 傑卡德距離(Jaccard Distance)

傑卡德相似系數(Jaccard similarity coefficient):兩個集合A和B的交集元素在A,B的並集中所占的比例,稱為兩個集合的傑卡德相似系數,用符號J(A,B)表示:

技術分享圖片

  • 傑卡德距離(Jaccard Distance):與傑卡德相似系數相反,用兩個集合中不同元素占所有元素的比例來衡量兩個集合的區分度:

技術分享圖片

  • Matlab計算傑卡德距離(Matlab中將傑卡德距離定義為不同的維度的個數占“非全零維度”的比例):

10. 相關距離(Correlation distance)

技術分享圖片

  • 相關系數:是衡量隨機變量X與Y相關程度的一種方法,相關系數的取值範圍是[-1,1]。相關系數的絕對值越大,則表明X與Y相關度越高。當X與Y線性相關時,相關系數取值為1(正線性相關)或-1(負線性相關):

技術分享圖片

  • 相關距離:

技術分享圖片

  • Matlab計算相關系數與相關距離:

11. 信息熵(Information Entropy)

以上的距離度量方法度量的皆為兩個樣本(向量)之間的距離,而信息熵描述的是整個系統內部樣本之間的一個距離,或者稱之為系統內樣本分布的集中程度(一致程度)、分散程度、混亂程度(不一致程度)。系統內樣本分布越分散(或者說分布越平均),信息熵就越大。分布越有序(或者說分布越集中),信息熵就越小。

技術分享圖片

  • 信息熵的由來:請參考博客:XXXXXXXX。

  • 計算給定的樣本集X的信息熵的公式:

技術分享圖片

參數的含義:

n:樣本集X的分類數

pi:X中第 i 類元素出現的概率

信息熵越大表明樣本集S的分布越分散(分布均衡),信息熵越小則表明樣本集X的分布越集中(分布不均衡)。當S中n個分類出現的概率一樣大時(都是1/n),信息熵取最大值log2(n)。當X只有一個分類時,信息熵取最小值0。

各種距離 歐式距離、曼哈頓距離、切比雪夫距離、閔可夫斯基距離、標準歐氏距離、馬氏距離、余弦距離、漢明距離、傑拉德距離、相關距離、信息熵