資訊理論複習筆記(1):資訊熵、條件熵,聯合熵,互資訊、交叉熵,相對熵
阿新 • • 發佈:2018-11-26
文章目錄
1.1 資訊和資訊的測量
1.1.1 什麼是資訊
資訊是對接收者來說是一種不確切的知識,可以認為是一種不確定性的度量。比如下面的例子,假設隨機變數 X= ‘出生年份’:
1) I will be one year older next year. ----> No information
2) I was born in 1993. ----> little information
3) I was born in 1990s. ---->More information
可見,資訊量與隨機變數可能值的數量相關。隨機變數能取到的值越多,代表事件的不確定度越大,包含的資訊越多。不確定度越大,資訊量越多
1.1.1 資訊怎麼表示
例如,一個班有30個學生,我們要用一個二進位制序列區分他們,需要多少bits?
所以至少需要5個bits才能代表每個學生
1.2 資訊熵
在通訊系統中,資訊熵用來表示平均每符號攜帶多少位元(bit)資訊,資訊熵的單位是 bit/symbol(位元每符號)。其背景如下:
我們需要把一個信源符號,轉化成一個0-1的二進位制位元形式,那麼需要多少個二進位制位元位,才能表達這個通訊符號的所有資訊呢?
上文說到,資訊代表不確定性,與事件的概率相關。那麼假設一個信源有5種可能的符號,記為
, 並且每個符號出現的概率分別為
,
所以熵(平均每位元攜帶的資訊量)為:
1.3 條件熵和聯合熵
聯合熵上與聯合分佈相關。聯合熵表示為:
條件熵上與條件分佈及聯合分佈相關。條件熵表示為:
The Chain Rule (Relationship between Joint Entropy and Conditional Entropy)
鏈式法則:
1.4 互資訊
互資訊為熵減去條件熵。
互資訊為 熵 的和減去 聯合熵
上訴過程可以用圖加深理解: