1. 程式人生 > >資訊理論複習筆記(1):資訊熵、條件熵,聯合熵,互資訊、交叉熵,相對熵

資訊理論複習筆記(1):資訊熵、條件熵,聯合熵,互資訊、交叉熵,相對熵

文章目錄

1.1 資訊和資訊的測量

1.1.1 什麼是資訊

資訊是對接收者來說是一種不確切的知識,可以認為是一種不確定性的度量。比如下面的例子,假設隨機變數 X= ‘出生年份’:

1) I will be one year older next year. ----> No information
2) I was born in 1993.  ----> little information
3) I was born in 1990s. ---->More information

可見,資訊量隨機變數可能值的數量相關。隨機變數能取到的值越多,代表事件的不確定度越大,包含的資訊越多。不確定度越大,資訊量越多

1.1.1 資訊怎麼表示

例如,一個班有30個學生,我們要用一個二進位制序列區分他們,需要多少bits?

l o g 2 30 = 4.907 b

i t s log_2 30 = 4.907 bits

所以至少需要5個bits才能代表每個學生

1.2 資訊熵

在通訊系統中,資訊熵用來表示平均每符號攜帶多少位元(bit)資訊,資訊熵的單位是 bit/symbol(位元每符號)。其背景如下:

我們需要把一個信源符號,轉化成一個0-1的二進位制位元形式,那麼需要多少個二進位制位元位,才能表達這個通訊符號的所有資訊呢?

上文說到,資訊代表不確定性,與事件的概率相關。那麼假設一個信源有5種可能的符號,記為 x 1 , x 2 , x 3 , x 4 , x 5 x_1,x_2,x_3,x_4,x_5 , 並且每個符號出現的概率分別為 P ( x 1 ) , P ( x 2 ) , P ( x 3 ) , P ( x 4 ) , P ( x 5 ) P(x_1), P(x_2),P(x_3),P(x_4),P(x_5) ,
所以(平均每位元攜帶的資訊量)為:
H ( X ) = E [ l o g 2 P ( X ) 1 ] = i = 1 5 P ( x i ) l o g 2 P ( x i ) 1 H(X) = E [ log_2 P(X)^{-1} ] = \sum_{i=1}^{5}P(x_i) *log_2P(x_i)^{-1}

1.3 條件熵和聯合熵

聯合熵上與聯合分佈相關。聯合熵表示為:
H ( X , Y ) = x ϵ X y ϵ Y P ( X , Y ) l o g 2 P ( X , Y ) H(X,Y ) = - \sum_{x\epsilon X}\sum_{y\epsilon Y}P(X,Y) log_2 P(X,Y)
條件熵上與條件分佈聯合分佈相關。條件熵表示為:
H ( X Y ) = x ϵ X y ϵ Y P ( X , Y ) l o g 2 P ( X Y ) H(X|Y ) = - \sum_{x\epsilon X}\sum_{y\epsilon Y}P(X,Y) log_2 P(X|Y)

The Chain Rule (Relationship between Joint Entropy and Conditional Entropy)

鏈式法則:
H ( X , Y ) = H ( X Y ) + H ( Y ) = H ( X ) + H ( Y X ) H(X,Y ) = H(X|Y ) + H(Y) = H(X) + H(Y|X)

1.4 互資訊

互資訊為減去條件熵
I ( X , Y ) = H ( Y ) H ( Y X ) = H ( X ) + H ( X Y ) I(X,Y ) = H(Y) - H(Y|X ) = H(X) + H(X|Y)
互資訊為 熵 的和減去 聯合熵
I ( X , Y ) = H ( Y ) H ( Y X ) = H ( X ) + H ( X Y ) I(X,Y ) = H(Y) - H(Y|X ) = H(X) + H(X|Y)

上訴過程可以用圖加深理解:
在這裡插入圖片描述

1.5 相對熵和交叉熵

相對熵和交叉熵