1. 程式人生 > >高斯分佈與馬氏距離

高斯分佈與馬氏距離

  • 給定隨機變數xi(i=1,...,N)xi(i=1,...,N)構成的向量XX,它的均值是X¯=E(X)X¯=E(X),而ΔX=X−X¯ΔX=X−X¯,其協方差矩陣

    Σ=E(ΔXΔXT)Σ=E(ΔXΔXT)


    可知,矩陣ΣΣ的對角元是單個變數xixi的方差,而非對角元是交叉協方差。
  • 如果XX的概率密度分佈形如

    P(X¯+ΔX)=(2π)−N/2det(Σ−1)1/2exp(−ΔXTΣ−1ΔX/2)P(X¯+ΔX)=(2π)−N/2det(Σ−1)1/2exp(−ΔXTΣ−1ΔX/2)


    其中Σ−1Σ−1是半正定矩陣,那麼,變數xixi遵循一個聯合高斯分佈。均值和協方差是X¯和ΣX¯和Σ。
  • 特殊情況:Σ=σ2IΣ=σ2I,為各向同性高斯分佈 

    P(X)=(2π−−√σ)−Nexp(−∑(xi−x¯i)2/2σ2)P(X)=(2πσ)−Nexp(−∑(xi−x¯i)2/2σ2)

  • 馬氏距離 

    ||X−Y||=((X−Y)TΣ−1(X−Y))1/2||X−Y||=((X−Y)TΣ−1(X−Y))1/2


    可以看出,高斯概率密度函式是變數馬氏距離的函式
  • 理解馬氏距離

    一個地區的人用兩個資料表示(身高/cm,體重/g)。瞭解到這個地區的資料均值是(170,60000)。越接近這個體型的人數越多 
    一個人a資料是(180,600100),另一個人b的資料是(175,63000)。如果採用歐式距離的話,a更接近。因此推出有a身材的人更多。 
    但實際上,我們看來應該是b更接近平均身材。所以,歐式距離有問題。 
    解決方法引入資料方差,計算(x−x¯)/σ(x−x¯)/σ的歐式距離

到目前,大家可以理解協協方差矩陣是對角陣的馬氏距離:距離均值越近,概率越大。而距離與方差有關。那麼馬氏距離中的協方差怎麼回事? 
協方差矩陣ΣΣ一般是對稱正定矩陣,可以寫成Σ=UTDUΣ=UTDU,D=(σ21,...,σ2N)D=(σ12,...,σN2)是對角矩陣,U是正交矩陣。記X′=UXX′=UX和X′¯=UX¯X′¯=UX¯,則 

exp(−(X−X¯)TΣ−1(X−X¯)/2)=exp(−(X′−X¯′)TUΣ−1UT(X′−X¯′)/2)=exp(−(X′−X¯′)TD−1(X′−X¯′)/2)exp(−(X−X¯)TΣ−1(X−X¯)/2)=exp(−(X′−X¯′)TUΣ−1UT(X′−X¯′)/2)=exp(−(X′−X¯′)TD−1(X′−X¯′)/2)


這樣就可以理解了:馬氏距離在另一個座標系下是獨立變數的距離。距離越遠,概率越小。距離是∑(Δxi/σi)2∑(Δxi/σi)2。 
記住,左乘正交矩陣相當於座標軸進行了剛體歐式運動。歐式運動後,如下圖, 

上面操作的效果如下: 
 
這樣,不同變數獨立了。協方差矩陣是對角矩陣。也可以進一步縮放,變為各向同性的高斯分佈。 
總結一下:馬氏距離在另一個座標系下協方差矩陣是對角陣的馬氏距離

  • 為什麼非要協方差?我就要方差不行嗎? 
    考慮x1=x2x1=x2,資料冗餘的情況。如果只要方差那麼x1x1投了2次票。通過馬氏距離,D有一個元素是0。相當於少了一票。臥槽,起到了PCA的作用

  • 卡方分佈:χ2nχn2分佈是n個獨立高斯隨機變數的平方和的分佈。當應用於有非奇異協方差矩陣ΣΣ的高斯隨機變數vv時,(v−v¯)TΣ−1(v−v¯)(v−v¯)TΣ−1(v−v¯)的值滿足χ2nχn2分佈。

  • 如果協方差矩陣是ΣΣ的高斯隨機變數vv,那麼,(v−v¯)TΣ+(v−v¯)(v−v¯)TΣ+(v−v¯)的值滿足χ2rχr2分佈,其中r=rank(Σ)r=rank(Σ)。

相關推薦

分佈距離

給定隨機變數xi(i=1,...,N)xi(i=1,...,N)構成的向量XX,它的均值是X¯=E(X)X¯=E(X),而ΔX=X−X¯ΔX=X−X¯,其協方差矩陣 Σ=E(ΔXΔXT)Σ=E(ΔXΔXT) 可知,矩陣ΣΣ的對角元是單個變數xixi的方差,而

距離距離

《應用多元統計分析》何曉群 第五章 歐式距離的定義: 歐氏距離通常攜帶有量綱,因此量綱的影響會對距離的計算結果產生很大影響。 比如如果攜帶單位的話,兩對座標點是 A(0,5),B(10,0) C(0,10),D(1,0) 如果同度量的話,比如都是cm,AB距離為,CD之

各種距離 歐式距離、曼哈頓距離、切比雪夫距離、閔可夫距離、標準歐距離距離、余弦距離、漢明距離、傑拉德距離、相關距離、信息熵

form 密碼學 一行 and gif 國際象棋 matlab 三維空間 ffi 1. 歐氏距離(Euclidean Distance) 歐氏距離是最容易直觀理解的距離度量方法,我們小學、初中和高中接觸到的兩個點在空間中的距離一般都是指歐氏距離。 二維平面上點a(x1,

到現在才理解分佈的均值方差為什麼是0和1

問題的來源,如圖所示:為什麼標準正態分佈的期望值0,方差為1呢,如果是針對x變數,期望值為0可以理解,那麼方差為1怎麼理解呢,顯然不可能為1,如果針對y變數,顯然所有值都大於0,怎麼會期望值會大於0呢: 先看數學期望的定義: 期望值本身是對所有值進行加權的過程,是針對一個變數存在的;每

正態分佈(Normal distribution)分佈(Gaussian distribution)

正態分佈(Normal distribution)又名高斯分佈(Gaussian distribution),是一個在數學、物理及工程等領域都非常重要的概率分佈,在統計學的許多方面有著重大的影響力。 若隨機變數X服從一個數學期望為μ、標準方差為σ2的高斯分佈,記為: X

統計分佈分佈

前言 首先借機回答一下讀者小夥伴的問題,計算原理、組合和排列的現實意義是什麼?學習數學對從事 IT 行業而言有什麼幫助? 實話說,這些問題應該是普遍存在的,曾經是我的問題,也可能會成為你的問題。歡迎大家在評論區裡說說自己的看法。 計數原理:又稱基本計數原

多元分佈的均值協方差矩陣

多元高斯分佈,即資料的維度不再為1維度。 樣本個數記為n x特徵向量的維度為k 。 舉個例子: 樣本1:[2,3,4,5,6] 樣本2:[3,4,5,6,7] 樣本3:[4,5,6,7,8]; 求各個維度上的均值:x_i = [2+3+4/3,3+4+5/3.....6+7+8/3] == [3,4,5

協方差矩陣二維分佈

多維高斯分佈: f(x)=1(2π)d2|Σ|−12exp[−12(x−μ)TΣ−1(x−μ)]f(x)=1(2π)d2|Σ|−12exp[−12(x−μ)TΣ−1(x−μ)] 協方差矩陣是一個對稱

分佈估計子的效能克拉默勞下界的討論

本文演示估計子的定義以及評估方法 % 假設一個N長度的高斯隨機過程x,按照平均數u、方差a分佈,然後根據隨機過程估計他的均 % 值u1,並對評估的有效性進行檢驗 clc clear close all %% 生成一個隨機變數,並將統計結果與概率密度函式做對比 N =

距離在SLAM中的應用

class 情況下 身高 相關性 pca 當前 pos 還需 觀測 在數據關聯中,常常采用馬氏距離來計算實際觀測特征 i 與地圖特征 j 的距離,從而能較為準確的選出最可能的關聯。具體的做法是: D(ij)=sqrt( ( Z(i)-μ(j) )‘Σ^(-1)( Z(i)-

分佈 協方差

高斯分佈(Gaussian Distribution)的概率密度函式(probability density function): 對應於numpy中: numpy.random.normal(loc=0.0, scale=1.0, size=None) 引數的意義為: loc:flo

距離的深入理解

轉自:https://www.cnblogs.com/likai198981/p/3167928.html 對於馬氏距離,本人研究了一下,雖然看上去公式很簡單的,但是其中存在很多模糊的東西,例如有很多教科書以及網路上的簡要說明,下面以維基百科作為引用: 馬氏距離是由印度統計學家馬哈拉諾比斯(

python 多維分佈資料生成

import numpy as np import matplotlib.pyplot as plt def gen_clusters(): mean1 = [0,0] cov1 = [[1,0],[0,10]] data = np.random.multi

【學習筆記】Pattern Recognition&Machine Learning [1.2] Probability Theory(2) 基於分佈和貝葉理論的曲線擬合

    高斯分佈不必贅述,這裡記錄個有意思的東西,即從高斯分佈和貝葉斯理論出發看曲線擬合(即選擇引數w)。     首先假設我們使用多項式擬合曲線,根據泰勒展開的方法,我們可以用有限項多項式在一定精度內擬合任何曲線。  &nb

機器學習儲備(2):分佈

今天講解獨立同分布的概念,高斯分佈,一維高斯分佈。 1、獨立同分布 指隨機過程中,任何時刻的取值都為隨機變數,如果這些隨機變數服從同一分佈,並且互相獨立,那麼這些隨機變數是獨立同分布。 先說說獨立這個概念。在預測德克薩斯州區域的房屋價值時,房屋樣本x1和樣本x2之間的預測是相互獨立的,它

廣義分佈(GGD)

廣義高斯分佈(GGD)-Generalized Gaussian Distribution  廣義高斯分佈及其在影象去噪的應用_百度文庫 https://wenku.baidu.com/view/2b86384c852458fb770b5651.html     &n

概率分佈---分佈

條件高斯分佈 邊緣高斯分佈 高斯變數的貝葉斯定理 高斯分佈的最大似然估計 順序估計 高斯分佈的貝葉斯推斷 學生t

多元分佈

多元高斯分佈 1.協方差矩陣 協方差衡量的是變數X與Y之間是否存線上性關係,cov(X,Y)>0說明X與Y的變化趨勢是一致的,X增長的時候Y也隨著增長。如果X,Y互相獨立的話,cov(X,Y)=0. cov(X,X)=D(X),變數X與自身的協方差就是方差,cov(X,Y)=cov

有關距離和hinge loss的學習記錄

關於度量學習,之前沒有看太多相關的文獻。不過南京的周老師的一篇NIPS,確實把這個問題剖析得比較清楚。 Mahalanobis距離一般表示為d=(x-y)TM(x-y),其中x和y是空間中兩個樣本點,M就是要學出的度量。 這裡的度量的在馬氏距離公式的意義是,在先驗概率不等的情況下,用M作為協方差引數,表示

多元分佈的KL散度

kl散度意義: In the context of machine learning, is often called the information gain achieved if Q is used instead of P. This reflects