產生式模型中概率分佈的距離度量
全文下載地址:https://danilorezende.com/wp-content/uploads/2018/07/divergences.pdf
原題名:Short Notes on Divergence Measures
原作者:Danilo Jimenez Rezende
【寫在前面】我從原文中截取了與我的研究方向關係較近的一小部分寫在這裡,供研究深度產生式模型或無監督學習(尤其是對KL距離感興趣)的同學們參閱。順序不完全依照原文。對此感興趣的同學請自行參閱原文。
一、什麼是兩個概率分佈的距離
在概率估計中,常遇到這樣的問題:衡量概率密度函式P和Q的距離,這裡P是資料的真實分佈,Q是某引數分佈,作為產生式模型對P的近似。
形式化為,距離
,引數分佈
具有引數
,真實資料分佈
為Q近似的目標。優化
使
最小。
對於距離
,須滿足三個公理:反身性、對稱性、三角不等式。
-
反身性:
-
對稱性:
-
三角不等式:
二、熱門的KL距離,你為啥很火
KL距離,全稱Kullback-Leibler divergence,也叫相對熵(relative entropy)或相對資訊(relative informatioin)。KL距離牽涉到一個通訊過程的問題:如何在收信者已知概率密度P的基礎上,將Q分佈傳遞給收信者。眾多機器學習演算法用KL距離作度量,是否僅僅是歷史的路徑依賴?更何況KL距離不滿足對稱性公理呢。
這裡就要說到KL到底在幹啥,用白話說就是 用邏輯一致的方法來度量 資訊帶來的驚訝程度,或信念轉變的程度 。後半句好理解,重點講講前半句。
根據文獻[1],一個有道理的度量概率密度,應該滿足三個條件:
i.區域性性 ,即區域性的效應引發區域性的反應 。這樣就將沒有限制。
ii.座標不變性 ,即用來表示概率密度的座標中不含資訊,所以換另一種座標對結果不產生影響 。用,則
,有
就不再是任意選取,而必須採用形式
必須是一個概率密度函式。
【為了“幹掉”】
所以
。
iii.子系統可加性 ,即不同獨立的子系統的資訊滿足可加性 。這一限制將度量函式這一類函式上。
滿足這三個條件的只有KL距離,滿足這三個條件的只有KL距離,滿足這三個條件的只有KL距離。重要的事情說三遍。
【從上文可知定義】
三、還有其他的度量嗎?
對於上一節的三個條件做適當放鬆,我們可以得到以下這些度量方式:
1.f-divergence族 。形式為是任意的凸函式,滿足條件i和條件ii。
2.Stein divergence 。形式為。違反條件ii和條件iii
3.Cramer/能量 距離 。換成測地線距離 ,則符合條件ii,但距離結果是負數。
4.Wasserstein距離 。換成測地線距離 ,則符合條件ii。
5.Fisher距離 。。符合條件i,如果在度量不變的空間符合條件ii。
Reference
[1]Ariel Caticha. Relative entropy and inductive inference. In AIP Conference Proceedings, volume 707, pages
75�96. AIP, 2004.