前言

資訊理論是由克勞德·夏農發展，用來找出訊號處理與通訊操作的基本限制，如資料壓縮、可靠的儲存和資料傳輸等。自創立以來，已被應用多個領域，例如自然語言處理(NLP)、機器學習等領域。

定長編碼(Block Codes)

讓我們從一個例子開始。小明酷愛動物，日常談吐中經常提及各種動物，包括：狗、貓、魚和鳥。一天，小明見到小紅（原諒我這麼俗的名字），兩個人決定用二進位制的方式來交流。為了交流方便，小明和小紅決定製定一套編碼規則

編碼對映

此時，若小明要發出“狗貓狗鳥”的資訊，需要完成以下過程：

編碼過程

通過以上三個過程，便可以將“狗貓狗鳥”轉化為二進位制了。

變長編碼(Variable Codes)

實際中，通訊往往需要付費，假設通訊按位（bit）收費。為了省錢，小明和小紅需要尋找合適的編碼策略。在設計編碼策略中，小紅統計了小明的說話

詞分佈

此時，若按照上面的定長編碼，每個字的平均編碼長度

L(x)=2×12+2×14+2×18+2×18=2

若想進一步壓縮平均編碼長度，變長編碼是一種有效的手段。變長編碼的基本思想：出現頻率高的字元使用短編碼，出現頻率低的字元使用長編碼。（你可能會問，為什麼不讓所有的編碼都使用短編碼？嘿嘿，都使用短編碼，還能實現一一對應嗎？）基於上述思想，小明和小紅重新指定了一套新的編碼策略:

詞分佈

此時，每個字的平均編碼長度為

L(x)=1×12+2×14+3

×18+3×18=1.75

顯然，新的策略能夠幫小明和小紅省很多錢。那麼，小明和小紅是如何設計的呢？

無損編碼(lossless compression)

為了便於接下來的描述，以下圖為例介紹幾個名稱

詞分佈

其中狗、貓、魚等稱為源符號，0、01、110等稱為碼字，整個對映使用C(x)表示。

無損編碼

小明和小紅的交流中，首先要保證資訊的無損性，即保證編碼後的資訊能夠無損的復原。若使用定長編碼，復原資訊輕而易舉便可實現，而變長編碼則不同。假如使用上圖,此時小明給出的代號為

詞分佈

根據約定好的碼錶，小紅既可以理解成“狗狗鳥狗”，也可以理解成“狗貓魚”。顯然，這是小明和小紅不願意看到的。通過查閱資料，小明和小紅髮現他們遇到的問題是“無損編碼”問題：

無損編碼是一類資料壓縮演算法，其壓縮的資料能夠無損的復原為原始資料。

若C(x)是無損編碼，它需要是：

非奇異編碼（Non-singular code）：x1≠x2⟹C(x1)≠C(x2)

在實際中，我們往往需要一次編碼一系列字元，而不是一次編碼一個字元，因此它需要滿足：

可擴充套件編碼（Extension of a code）：C(x1,...,xn)=C(x1)...C(xn)
唯一可譯解碼（Unique decodability）：xni≠xmj⟹C(xni)≠C(xmj)

儘管唯一可譯解碼已經足夠強了，但它並不能支撐“收到所有字元以後才進行解碼”的情況。例如，C(x)是

x	1	2	3	4
C(x)	10	00	11	110

當收到的代號是110000，解碼為322，而收到的代號是1100000，解碼為422。顯然，當收到所有資訊再解碼時，11就表示了不同的字元。對於此種問題，字首編碼是一種有效的解決方案,定義如下：

x1≠x2⟹C(x1)≠Prefix(C(x2))

即任意符號的編碼都不是其他編碼的字首。基於字首編碼，C(x)是

x	1	2	3	4
C(x)	0	10	110	111

在上面的介紹中，分別介紹了“非奇異編碼”、“唯一編碼”、“字首編碼”。這些編碼方式的相互關係可以通過下圖來描述：

詞分佈

通過上面的知識，字首編碼是解決編碼復原最好的方式，下面就需要考慮如何優化編碼長度。

最優編碼

碼樹

在介紹最優編碼之前，首先介紹一下碼樹和Karft不等式。對於給定碼字的全體集合，可以使用碼樹來表示。對於r進位制的碼樹，如下所示，其中左圖為二元碼樹，右邊為三元碼樹。在碼樹中R點是樹根，從樹根伸出樹枝，構成r元碼樹。

詞分佈

Karft不等式

對於r元字母表上的字首編碼，碼字長度為l1,l2,...,lm必須滿足不等式

∑ir−li≤1

反之，若給定滿足以上不等式的一組碼字長度，則存在一個相應的字首碼，其碼字長度就是給定長度。其中r可以理解成一個節點最多的孩子節點的個數。

正向證明
假設l1≤l2≤...≤ln，A表示r進位制、深度為ln的碼樹。對於使用r進製表示的l≤ln的任意字元，均能在碼樹A找到對應位置，進而第i個字首編碼在樹A中對應節點是vi。假設Ai表示以節點vi為根的子樹，此樹的深度為

6.資訊理論（一）：資訊量、熵和最優編碼

前言

定長編碼(Block Codes)

變長編碼(Variable Codes)

無損編碼(lossless compression)

無損編碼

最優編碼

碼樹

Karft不等式

6.資訊理論（一）：資訊量、熵和最優編碼

模式識別與機器學習（一）：概率論、決策論、資訊理論

Nginx實用教程（一）：啟動、停止、重載配置

【opencv入門之七】形態學圖像處理（一）：膨脹、腐蝕

Java泛型（一）：入門、原理、使用

java集合（一）：List、Iterator、Array、ArrayList、LinkList

ElasticSearch筆記整理（一）：簡介、REST與安裝配置

java多執行緒系列（一）：Thread、Runnable、Callable實現多執行緒的區別

jmeter教程（一）：url、uri及協議初識

Ajax（一）：簡介、原理

JPA基礎知識（一）：簡介、基本註解

Scala基礎教程（一）：簡介、環境安裝

Spring（一）：起源、歷史、背景等

淺析RxJava 1.x&2.x版本使用區別及原理（一）：Observable、Flowable等基本元素原始碼解析

多執行緒——（一）：暫停、恢復、停止執行緒較好的方式，sleep/wait/yield區別

C++11 併發程式設計基礎（一）：併發、並行與C++多執行緒

ActiveAndroid （一）：下載、配置與建立

Java NIO總結（一）：Channel、Buffer、Selector

影象配準】基於灰度的模板匹配演算法（一）：MAD、SAD、SSD、MSD、NCC、SSDA、SATD演算法

Android 圖片特效（一）：色相、飽和度與亮度

6.資訊理論（一）：資訊量、熵和最優編碼

前言

定長編碼(Block Codes)

變長編碼(Variable Codes)

無損編碼(lossless compression)

無損編碼

最優編碼

碼樹

Karft不等式

相關推薦