【資料壓縮】LZ77演算法原理及實現

阿新 • • 發佈：2019-01-18

1. 引言

LZ77演算法是採用字典做資料壓縮的演算法，由以色列的兩位大神Jacob Ziv與Abraham Lempel在1977年發表的論文《A Universal Algorithm for Sequential Data Compression》中提出。

基於統計的資料壓縮編碼，比如Huffman編碼，需要得到先驗知識——信源的字元頻率，然後進行壓縮。但是在大多數情況下，這種先驗知識是很難預先獲得。因此，設計一種更為通用的資料壓縮編碼顯得尤為重要。LZ77資料壓縮演算法應運而生，其核心思想：利用資料的重複結構資訊來進行資料壓縮。舉個簡單的例子，比如

取之以仁義，守之以仁義者，周也。取之以詐力，守之以詐力者，秦也。

取之以、仁義、，、者、守之以、也、詐力、。均重複出現過，只需指出其之前出現的位置，便可表示這些詞。為了指明出現位置，我們定義一個相對位置，如圖

相對位置之後的訊息串為取之以詐力，守之以詐力者，秦也。，若能匹配相對位置之前的訊息串，則編碼為以其匹配的訊息串的起始與末端index；若未能匹配上，則以原字元編碼。相對位置之後的訊息串可編碼為：[(1-3),(詐力),(6),(7-9),(詐力),(12),(6),(秦),(15-16)]，如圖所示：

上面的例子展示如何利用索引值來表示詞，以達到資料壓縮的目的。LZ77演算法的核心思想亦是如此，其具體的壓縮過程不過比上述例子稍顯複雜而已。

2. 原理

本文講主要討論LZ77演算法如何做壓縮及解壓縮，關於LZ77演算法的唯一可譯、無失真壓縮（即解壓可以不丟失地還原資訊）的性質，其數學證明參看原論文[1]。

滑動視窗

至於如何描述重複結構資訊，LZ77演算法給出了更為確切的數學解釋。首先，定義字串\(S\)的長度為\(N\)，字串\(S\)的子串\(S_{i,j},\ 1\le i,j \le N\)。對於字首子串\(S_{1,j}\)，記\(L_i^j\)為首字元\(S_{i}\)的子串與首字元\(S_{j+1}\)的子串最大匹配的長度，即：

\[ L_i^j = \max \{ l | S_{i,i+l-1} = S_{j+1,j+l} \} \quad \text{subject to} \quad l \le N-j \]

我們稱字串\(S_{j+1,j+l}\)匹配了字串\(S_{i,i+l-1}\)，且匹配長度為\(l\)。如圖所示，存在兩類情況：

定義\(p^j\)為所有情況下的最長匹配的\(i\)值，即

\[ p^j = \mathop {\arg \max }\limits_{i} \{ L_i^j \} \quad \text{subject to} \quad 1 \le i \le j \]

比如，字串\(S=00101011\)且\(j=3\)，則有

\(L_1^j=1\)，因為\(S_{j+1,j+1}=S_{1,1}\), \(S_{j+1,j+2} \ne S_{1,2}\);
\(L_2^j=4\)，因為\(S_{j+1,j+1}=S_{2,2}\), \(S_{j+1,j+2} = S_{2,3}\)，\(S_{j+1,j+3} = S_{2,4}\)，\(S_{j+1,j+4} = S_{2,5}\)，\(S_{j+1,j+5} \ne S_{2,6}\)；
\(L_3^j = 0\)，因為\(S_{j+1,j+1} \ne S_{3,3}\)。

因此，\(p^j = 2\)且最長匹配的長度\(l^j=4\). 從上面的例子中可以看出：子串\(S_{j+1,j+p}\)是可以由\(S_{1,j}\)生成，因而稱之為\(S_{1,j}\)的再生擴充套件（reproducible extension）。LZ77演算法的核心思想便源於此——用歷史出現過的字串做詞典，編碼未來出現的字元，以達到資料壓縮的目的。在具體實現中，用滑動視窗（Sliding Window）字典儲存歷史字元，Lookahead Buffer儲存待壓縮的字元，Cursor作為兩者之間的分隔，如圖所示：

並且字典與Lookahead Buffer的長度是固定的。

壓縮

用\((p,l,c)\)表示Lookahead Buffer中字串的最長匹配結果，其中

\(p\)表示最長匹配時，字典中字元開始時的位置（相對於Cursor位置），
\(l\)為最長匹配字串的長度，
\(c\)指Lookahead Buffer最長匹配結束時的下一字元

壓縮的過程，就是重複輸出\((p,l,c)\)，並將Cursor移動至\(l+1\)，虛擬碼如下：

Repeat:
    Output (p,l,c),
    Cursor --> l+1
Until to the end of string

壓縮示例如圖所示：

解壓縮

為了能保證正確解碼，解壓縮時的滑動視窗長度與壓縮時一樣。在解壓縮，遇到\((p,l,c)\)大致分為三類情況：

\(p==0\)且\(l==0\)，即初始情況，直接解碼\(c\)；
\(p>=l\)，解碼為字典dict[p:p+l+1]；
\(p<l\)，即出現迴圈編碼，需要從左至右迴圈拼接，虛擬碼如下：

for(i = p, k = 0; k < length; i++, k++)
    out[cursor+k] = dict[i%cursor]

比如，dict=abcd，編碼為(2,9,e)，則解壓縮為output=abcdcdcdcdcdce。

3. 實現

# coding=utf-8

class LZ77:
    """
    A simplified implementation of LZ77 algorithm
    """

    def __init__(self, window_size):
        self.window_size = window_size
        self.buffer_size = 4

    def longest_match(self, data, cursor):
        """
        find the longest match between in dictionary and lookahead-buffer
        """
        end_buffer = min(cursor + self.buffer_size, len(data))

        p = -1
        l = -1
        c = ''

        for j in range(cursor+1, end_buffer+1):
            start_index = max(0, cursor - self.window_size + 1)
            substring = data[cursor + 1:j + 1]

            for i in range(start_index, cursor+1):
                repetition = len(substring) / (cursor - i + 1)
                last = len(substring) % (cursor - i + 1)
                matchedstring = data[i:cursor + 1] * repetition + data[i:i + last]

                if matchedstring == substring and len(substring) > l:
                    p = cursor - i + 1
                    l = len(substring)
                    c = data[j+1]

        # unmatched string between the two
        if p == -1 and l == -1:
            return 0, 0, data[cursor + 1]
        return p, l, c

    def compress(self, message):
        """
        compress message
        :return: tuples (p, l, c)
        """
        i = -1
        out = []

        # the cursor move until it reaches the end of message
        while i < len(message)-1:
            (p, l, c) = self.longest_match(message, i)
            out.append((p, l, c))
            i += (l+1)
        return out

    def decompress(self, compressed):
        """
        decompress the compressed message
        :param compressed: tuples (p, l, c)
        :return: decompressed message
        """
        cursor = -1
        out = ''

        for (p, l, c) in compressed:
            # the initialization
            if p == 0 and l == 0:
                out += c
            elif p >= l:
                out += (out[cursor-p+1:cursor+1] + c)

            # the repetition of dictionary
            elif p < l:
                repetition = l / p
                last = l % p
                out += (out[cursor-p+1:cursor+1] * repetition + out[cursor-p+1:last] + c)
            cursor += (l + 1)

        return out


if __name__ == '__main__':
    compressor = LZ77(6)
    origin = list('aacaacabcabaaac')
    pack = compressor.compress(origin)
    unpack = compressor.decompress(pack)
    print pack
    print unpack
    print unpack == 'aacaacabcabaaac'

4. 參考資料

[1] Ziv, Jacob, and Abraham Lempel. "A universal algorithm for sequential data compression." IEEE Transactions on information theory 23.3 (1977): 337-343.
[2] guyb, 15-853:Algorithms in the Real World.

【資料壓縮】LZ77演算法原理及實現

1. 引言

2. 原理

滑動視窗

壓縮

解壓縮

3. 實現

4. 參考資料

【資料壓縮】LZ77演算法原理及實現

【資料壓縮】LZ78演算法原理及實現

【機器學習】Apriori演算法——原理及程式碼實現（Python版）

【常用晶片】ULN2003工作原理及中文資料（例項：STM32驅動28BYJ48步進電機）

資料壓縮的歷史、原理及常用演算法

資料結構和演算法 | 氣泡排序演算法原理及實現和優化

資料結構和演算法 | 簡單選擇排序演算法原理及實現

資料結構和演算法 | 插入排序演算法原理及實現和優化

資料結構和演算法 | 歸併排序演算法原理及實現和優化

【網際網路安全】DDoS攻防原理及實戰

【特徵匹配】RANSAC演算法原理與原始碼解析

【資料壓縮】Huffman編碼

【資料結構】雜湊表及雜湊桶的基本操作

【資料結構】雙向連結串列的實現

【目標檢測】目標檢測原理與實現(五)--基於Cascade分類器的目標檢測

【資料結構】鏈式棧的實現（C語言）

資料正規化 (data normalization) 的原理及實現 (Python sklearn)

排序演算法 | 希爾排序演算法原理及實現和優化

氣泡排序演算法原理及實現（超詳細）

K-means聚類的演算法原理及實現

【資料壓縮】LZ77演算法原理及實現

1. 引言

2. 原理

滑動視窗

壓縮

解壓縮

3. 實現

4. 參考資料

相關推薦