1. 程式人生 > >資訊熵(夏農熵),相對熵(KL散度), 交叉熵 三者的對比以及 吉布斯不等式

資訊熵(夏農熵),相對熵(KL散度), 交叉熵 三者的對比以及 吉布斯不等式

各種各樣資訊科學中,無論是通訊還是大資料處理,各種“熵”是非常重要的,因為它可以度量隨機變數不確定度,量化資訊量的大小。

  • 資訊熵(夏農熵)

首先複習一下資訊熵(夏農熵),輔助我們對相對熵和交叉熵的理解。
對於一個隨機變數X,其可能的取值分別為X={x1,x2,x3,...xn},對應概率為P(X=xn)=Pn,於是X的資訊熵為:

H(X)=i=1nPilogPi 我們換成以下形式:H(X)=i=1nPi(logPi)這樣看來,像不像對隨機變數X的某種特徵求期望?而這個期望就是隨機變數X攜帶的資訊量。那隻要反過去理解,就能得出(logPi)X=xi時,我們能夠獲得資訊量的大小,並且也符合“概率越小,不確定性越大,資訊量越大”。
  • 相對熵(KL散度)

如果我們對於同一個隨機變數X有兩個單獨的概率分佈 P(X)Q(X),我們可以使用KL散度(Kullback-Leibler(KL)divergence)來衡量這兩個分佈的差異:

DKL(P||Q)=EXP[logP(X)Q(X)]=
EXP[logP(X)logQ(X)]
先來看一下對於相對熵比較廣泛的一種說法:

在離散型變數的情況下,KL散度衡量的是,當我們使用一種被設計成能夠使得概率分佈Q產生的訊息的長度最小的編碼,傳送包含由概率分佈P產生的符號的訊息時,所需要的額外資訊量

說實話這很難讓人真正理解,甚至因為相對熵的不對稱性,很容易讓人把PQ搞混。所以對上面公式變形得到我們熟悉的形式:

DKL(P||Q)=i=1

相關推薦

資訊相對KL 交叉 三者對比以及 不等式

各種各樣資訊科學中,無論是通訊還是大資料處理,各種“熵”是非常重要的,因為它可以度量隨機變數不確定度,量化資訊量的大小。 資訊熵(夏農熵) 首先複習一下資訊熵(夏農熵),輔助我們對相對熵和交叉熵的理解。 對於一個隨機變數XX,其可能的取值分別為X={x

機器學習基礎五十八—— 相對KL交叉

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

KL相對資訊增益學習筆記

1.定義 根據查閱相關資料,知相對熵(relative entropy)又稱為KL散度(Kullback–Leibler divergence,簡稱KLD),資訊散度(information divergence),資訊增益(information gain)

資訊交叉相對(KL)的關係還介紹了聯合資訊和條件、互資訊資訊增益的概念

@(關於機器學習的其他)[KL散度][資訊熵][交叉熵] 1、資訊量 資訊量用一個資訊所需要的編碼長度來定義,而一個資訊的編碼長度跟其出現的概率呈負相關,因為一個短編碼的代價也是巨大的,因為會放棄所有以其為字首的編碼方式,比如字母”a”用單一個

Python實現計算資訊增益的

夏農熵公式: # -*- coding:utf-8 -*- import math __author__ = 'yangxin' """ 一條資訊的資訊量大小和它的不確定性有直接的關係。比如說,我們要搞清楚一件非常非常不確定的事,或是我們一無所知的事情, 就需要了解大量的資訊。相反,

、最大似然估計相對KL交叉相互關係及程式碼計算

1 熵 熵其實是資訊量的期望值,它是一個隨機變數的確定性的度量。熵越大,變數的取值越不確定,越無序。 公式: H(X)=E[I(x)]=−E[logP(x)]=-∑P(xi)logP(xi) 熵代表資訊量,基於P分佈自身的編碼長度,是最優的編碼長度。 2 ML

到手推KL:一文帶你縱覽機器學習中的資訊理論

資訊理論與資訊熵是 AI 或機器學習中非常重要的概念,我們經常需要使用它的關鍵思想來描述概率分佈

信息交叉KL

老師 數據壓縮 定性 引入 理解 1.7 資料 衡量 我們 0 前言 上課的時候老師講到了信息論中的一些概念,看到交叉熵,這個概念經常用在機器學習中的損失函數中。 這部分知識算是機器學習的先備知識,所以查資料加深一下理解。 Reference: 信息熵是什麽,韓迪的回答:h

資訊理論知識:互資訊交叉KL

資訊理論的基本想法是一個不太可能的事件居然發生了,要比一個非常可能的事件發生,能提供更多的資訊。訊息說:‘‘今天早上太陽升起’’ 資訊量是如此之少以至於沒有必要傳送,但一條訊息說:‘‘今天早上有日食’’ 資訊量就很豐富。 我們想要通過這種基本想法來量化資訊。定義三個性質

轉--Approximate Inference近似推斷變分推斷KL平均場 Mean Field

主講人 戴瑋 (新浪微博: @戴瑋_CASIA) Wilbur_中博(1954123) 20:02:04 我們在前面看到,概率推斷的核心任務就是計算某分佈下的某個函式的期望、或者計算邊緣概率分佈、條件概率分佈等等。 比如前面在第九章尼采兄講EM時,

最大似然估計交叉相對(KL)

在機器學習中,選擇損失函式時,通常會遇到交叉熵的概念,也就是交叉熵損失函式,那麼我們知道最小化交叉熵損失函式等價於最大化對數似然,那麼最小化交叉熵損失函式其含義是怎麼樣本的?我們知道針對分類問題,我們並不知道Y的真實分佈,因此需要通過模型來估計Y的真實分佈,以邏

Kullback–Leibler divergence(相對KL距離KL)

1 前言 注意兩個名詞的區別: 相對熵:Kullback–Leibler divergence 交叉熵:cross entropy KL距離的幾個用途: ① 衡量兩個概率分佈的差異。 ② 衡量利用概率分佈Q 擬合概率分佈P 時的能量損耗,也就是說擬合以後丟失了多少的資訊,

KL交叉與極大似然 的友誼

ood 進行 映射 滿足 變量 rac 生成 ack kl散度 一. 信息論背景   信息論的研究內容,是對一個信號包含信息的多少進行量化。所采用的量化指標最好滿足兩個條件: (1)越不可能發生的事件包含的信息量越大; (2)獨立事件有增量的信息(就是幾個獨立事件同時發生的

交叉KL

Welcome To My Blog 老遇到交叉熵作為損失函式的情況,於是總結一下 KL散度 交叉熵從KL散度(相對熵)中引出,KL散度(Kullback-Leibler Divergence)公式為: KL散度是衡量兩個分佈之間的差異大小的,KL散度大於等於0,並且越接

馬爾科夫隨機場MRF分佈Gibbs

1. 首先由兩個定義,什麼是馬爾科夫隨機場,以及什麼是吉布斯分佈 馬爾科夫隨機場:對於一個無向圖模型G,對於其中的任意節點X_i,【以除了他以外的所有點為條件的條件概率】和【以他的鄰居節點為條件的條件概率】相等,那麼這個無向圖就是馬爾科夫隨機場 Gibbs分佈:如果無向圖模型能

交叉 vs KL

交叉熵和KL散度 資訊熵H(X)可以看做,對X中的樣本進行編碼所需要的編碼長度的期望值。 這裡可以引申出交叉熵的理解,現在有兩個分佈,真實分佈p和非真實分佈q,我們的樣本來自真實分佈p。 按照真實分佈p來編碼樣本所需的編碼長度的期望為,這就是上面說的資訊熵H( p ) 按照不真實分佈

從馬爾科夫過程到取樣附程式示例

目標:如何採取滿足某個概率分佈的一組資料,比如如何給出滿足標準正太分佈的1000個點,當然該分佈比較簡單,生成滿足此分佈的1000個點並不難,對matlab,python 等都是一行語句的事,但是如果是一個不常見的分佈,怎樣採集呢? 本文試圖通過示例讓讀者理解從馬爾科夫鏈到

【機器學習基礎】KL交叉

  熵(entropy)、KL 散度(Kullback-Leibler (KL) divergence)和交叉熵(cross-entropy)在機器學習的很多地方會用到。比如在決策樹模型使用資訊增益來選擇一個最佳的劃分,使得熵下降最大;深度學習模型最後一層使用 softmax 啟用函式後,我們也常使用交叉熵來

KL(相對)、交叉的解析

1 前言 注意兩個名詞的區別: 相對熵:Kullback–Leibler divergence 交叉熵:cross entropy KL距離的幾個用途: ① 衡量兩個概率分佈的差異。 ② 衡量利用概率分佈Q 擬合概率分佈P 時的能量損耗,也就是說擬合以後丟失了

交叉KL、JS

資訊量 符號 x x x的資訊量定義為