Huffman編碼實現壓縮解壓縮

阿新 • • 發佈：2019-01-07

這是我們的課程中佈置的作業，找一些資料將作業完成，順便將其寫到部落格，以後看起來也方便。

原理介紹

什麼是Huffman壓縮

Huffman( 哈夫曼 ) 演算法在上世紀五十年代初提出來了，它是一種無失真壓縮方法，在壓縮過程中不會丟失資訊熵，而且可以證明 Huffman 演算法在無失真壓縮演算法中是最優的。 Huffman 原理簡單，實現起來也不困難，在現在的主流壓縮軟體得到了廣泛的應用。對應用程式、重要資料等絕對不允許資訊丟失的壓縮場合， Huffman 演算法是非常好的選擇。
怎麼實現Huffman壓縮
哈夫曼壓縮是個無損的壓縮演算法，一般用來壓縮文字和程式檔案。哈夫曼壓縮屬於可變程式碼長度演算法一族。意思是個體符號（例如，文字檔案中的字元）用一個特定長度的位序列替代。因此，在檔案中出現頻率高的符號，使用短的位序列，而那些很少出現的符號，則用較長的位序列。
1. 二叉樹
  在電腦科學中，二叉樹是每個結點最多有兩個子樹的有序樹。通常子樹的根被稱作 “ 左子樹 ” （ left subtree ）和 “ 右子樹 ” （ right subtree ）。
2. 哈夫曼編碼 (Huffman Coding)
  哈夫曼編碼是一種編碼方式，哈夫曼編碼是可變字長編碼 (VLC) 的一種。 uffman 於 1952 年提出一種編碼方法，該方法完全依據字元出現概率來構造異字頭的平均長度最短的碼字，有時稱之為最佳編碼，一般就叫作 Huffman 編碼。
Huffman編碼生成步驟
1. 掃描要壓縮的檔案，對字元出現的頻率進行計算。
2. 把字元按出現的頻率進行排序，組成一個佇列。
3. 把出現頻率最低（權值）的兩個字元作為葉子節點，它們的權值之和為根節點組成一棵樹。
4. 把上面葉子節點的兩個字元從佇列中移除，並把它們組成的根節點加入到佇列。
5. 把佇列重新進行排序。重複步驟 3、4、5 直到佇列中只有一個節點為止。
6. 把這棵樹上的根節點定義為 0 （可自行定義 0 或 1 ）左邊為 0 ，右邊為 1 。這樣就可以得到每個葉子節點的哈夫曼編碼了。
  
  如 (a) 、 (b) 、 (c) 、 (d) 幾個圖，就可以將離散型的資料轉化為樹型的了。
  如果假設樹的左邊用0 表示右邊用 1 表示，則每一個數可以用一個 01 串表示出來。
  
  則可以得到對應的編碼如下：
  1–>110
  2–>111
  3–>10
  4–>0
  每一個01 串，既為每一個數字的哈弗曼編碼。
為什麼能壓縮
壓縮的時候當我們遇到了文字中的1 、 2 、 3 、 4 幾個字元的時候，我們不用原來的儲存，而是轉化為用它們的 01 串來儲存不久是能減小了空間佔用了嗎。（什麼 01 串不是比原來的字元還多了嗎？怎麼減少？）大家應該知道的，計算機中我們儲存一個 int 型資料的時候一般式佔用了 2^32-1 個 01 位，因為計算機中所有的資料都是最後轉化為二進位制位去儲存的。所以，想想我們的編碼不就是隻含有 0 和 1 嘛，因此我們就直接將編碼按照計算機的儲存規則用位的方法寫入進去就能實現壓縮了。
比如：
1這個數字，用整數寫進計算機硬碟去儲存，佔用了 2^32-1 個二進位制位
而如果用它的哈弗曼編碼去儲存，只有110 三個二進位制位。
效果顯而易見。

編碼實現

流程圖
編碼流程

資料結構
CharacterWeight：記錄字元值，以及其在待壓縮檔案中的權重。

public class CharacterCode {
    private int weight;//字元值  
    private char character;//字元值 
    private String code;//其對應huffman編碼 
    }

HuffmanNode：huffman樹中的節點資訊。

public class HuffmanNode {
    private int parent;//父節點
    private int lChild;//左子
    private int rChild;//右子
    private int weight;//權重
    }

程式關鍵步驟
- Huffman樹的構建
  Huffman樹的變數：ArrayList list；
  流程圖

程式碼

for(int i=0;i<list.size()-1;i++){  
            //w1 : the first min weight w2: the second min weight   
            //i1 : the first min weight index, i2:　the second min weight index  
            int w1 = MAX_VALUE, w2=MAX_VALUE;   
            int i1 = 0, i2 = 0;  
            // find the two node with the minimum weight  
            for(int j=0;j<tree.size();j++){  
                HuffmanNode node = tree.get(j);  
                if(node.getWeight()< w1 && node.getParent()==-1){  
                    w2 = w1;  
                    w1 = node.getWeight();  
                    i2 = i1;  
                    i1 = j;  
                }  
                else if(node.getWeight()<w2 && node.getParent()==-1){  
                    w2 = node.getWeight();  
                    i2 = j;  
                }  
            }  
            //set the two node to be the children of a new node, and add the new node to the tree  
            HuffmanNode pNode = new HuffmanNode(w1+w2);  
            pNode.setlChild(i1);  
            pNode.setrChild(i2);  
            tree.add(pNode);  
            tree.get(i1).setParent(tree.indexOf(pNode));  
            tree.get(i2).setParent(tree.indexOf(pNode));}

根據Huffman 樹獲得Huffman編碼
從葉子節點開始網上遍歷Huffman樹，直到到達根節點，根據當前節點為其父節點的左兒子還是右兒子確定這一位值是0還是1。最後將依次獲得的0,1字串反轉獲得Huffman編碼。

for(int i=0;i<list.size();i++){  
            HuffmanNode node = tree.get(i);  
            HuffmanNode pNode = tree.get(node.getParent());  
            String code ="";  
            while(true){  
                if(pNode.getlChild()==tree.indexOf(node)){  
                    code = "0"+code;  
                }  
                else if(pNode.getrChild() == tree.indexOf(node)){  
                    code = "1"+code;  
                }  
                else {  
                    System.out.println("Tree Node Error!!!");  
                    return null;  
                }  
                node=pNode;  
                if(node.getParent()!=-1)  
                    pNode=tree.get(node.getParent());  
                else   
                    break;  
            }  
            list.get(i).setCode(new String(code));  
        }

標頭檔案設計

編碼	型別	位元組數
字元總數	Int	4
字元種類數	Short	2
葉子節點	char字元 short 父節點	3
非葉子節點	Short 左兒子 short 右兒子 short父節點	6

檔案頭長度（單位： byte）
l= 9n
其中n 為字元種類數。

檔案內容的編碼和寫入

程式碼

while((temp=reader.read())!=-1){ //!= EOF     
            // get the code from the code table  
            String code = codeTable.get((char)temp);  
            c++;  
            if(c>=count/96){  
                System.out.print("=");  
                c=0;  
            }  
            try{  
                StringBuilder codeString = new StringBuilder(code);  
                outputStringBuffer.append(codeString);  
                while(outputStringBuffer.length()>8){  
                    out.write(Short.parseShort(outputStringBuffer.substring(0, 8),2));  
                    outputStringBuffer.delete(0, 8);  
                }  
            } catch(Exception e){  
                e.printStackTrace();  
            }  

        }

解碼實現

流程圖

資料結構
HuffmanNode：huffman樹中的節點資訊。

public class HuffmanNode {
    private int parent;//父節點
    private int lChild;//左子
    private int rChild;//右子
    private int weight;//權重
    }

程式關鍵步驟

重建Huffman樹。在檔案頭中存放的原本就是Huffman樹的節點資訊。

in = new DataInputStream(new FileInputStream(file));  
    count = in.readInt();  
    charNum = in.readShort();  
    nodeNum = 2*charNum -1;  
    //rebuild the huffman tree  
    for(int i=0;i<charNum;i++){  
        HuffmanNode node = new HuffmanNode((char)in.readByte());  
        int parent = in.readShort();  
        node.setParent(parent);  
        tree.add(node);  
    }  

    for(int i=charNum;i<nodeNum;i++){  
        HuffmanNode node = new HuffmanNode(' ');  
        int l = in.readShort();  
        int r = in.readShort();  
        int p = in.readShort();  
        node.setlChild(l);  
        node.setrChild(r);  
        node.setParent(p);  
        tree.add(node);  
    }

解碼
流程圖

程式碼

while(true){  
            while(buff.length()<32){  
                temp = in.readInt();  
                String codeString = Integer.toBinaryString(temp);  
                while(codeString.length()<32){  
                    codeString='0'+codeString;  
                }  
                buff.append(codeString);  
            }  
            node = tree.get(tree.size()-1);  
            dep = 0;  
            while(!(node.getlChild()==-1&&node.getrChild()==-1)){  
                if(dep>=buff.length()){  
                    System.out.println( "Buff overflow");  
                }  
                if(buff.charAt(dep)=='0'){  
                    node = tree.get(node.getlChild());  
                }  
                else if(buff.charAt(dep)=='1'){  
                    node = tree.get(node.getrChild());  
                }  
                else{  
                    System.out.println("Coding error");  
                }  
                dep++;  
            }  

            char c = node.getCH();  
            num++;  
            if(num>=n/99){  
                System.out.print("=");  
                num=0;  
            }  
            count++;  
            if(count>=n){  
                break;  
            }  
            charBuff+=c;  
            if(charBuff.length()>256){  
                writer.write(charBuff);  
                charBuff="";  
            }  
            buff.delete(0, dep);  

        }  

    } catch(EOFException e){  
        //just do nothing  
    }  
    catch(Exception e){  
        e.printStackTrace();  
    } finally{  
        //there may be data released in the buff and charbuff, so we need to process them  
        while(buff.length()>0){  
            node = tree.get(tree.size()-1);  
            dep = 0;  
            while(!(node.getlChild()==-1&&node.getrChild()==-1)){  
                if(dep>=buff.length()){  
                    break;  
                }  
                if(buff.charAt(dep)=='0'){  
                    node = tree.get(node.getlChild());  
                }  
                else if(buff.charAt(dep)=='1'){  
                    node = tree.get(node.getrChild());  
                }  
                else{  
                    System.out.println("Coding error");  
                    //return;  
                }  
                dep++;  
            }  
            char c = node.getCH();  
            num++;  
            if(num>=n/99){  
                System.out.print("=");  
                num=0;  
            }  
            count++;  
            if(count>=n){  
                break;  
            }  
            charBuff+=c;  
            if(charBuff.length()>256){  
                try {  
                    writer.write(charBuff);  
                } catch (IOException e1) {  
                    // TODO Auto-generated catch block  
                    e1.printStackTrace();  
                }  
                charBuff="";  
            }  
            buff.delete(0, dep);  
        }  

        try {  
            writer.write(charBuff);  
            writer.close();  
        } catch (IOException e) {  
            // TODO Auto-generated catch block  
            e.printStackTrace();  
        }   
    }  
    try{  
        writer.close();  
    } catch(IOException e){  
        throw e;  
    }

專案原始碼
留坑回頭放上

Huffman編碼實現壓縮、解壓檔案

Huffman編碼：根據詞頻構建Huffman樹，實現對文字的字首編碼。 1、統計文字中每個字元出現的次數，放入優先佇列中，構建一棵空的二叉樹； 2、取出頻率最小的兩個字元a、b，字元a、b的頻率分別作為此二叉樹的左右結點，左結點的編號為1，右結點的編號為0，其頻率之和（f

Huffman編碼實現壓縮解壓縮

這是我們的課程中佈置的作業，找一些資料將作業完成，順便將其寫到部落格，以後看起來也方便。原理介紹什麼是Huffman壓縮 Huffman( 哈夫曼 ) 演算法在上世紀五十年代初提出來了，它是一種無失真壓縮方法，在壓縮過程中不會丟失資訊熵，而且可

利用DPCM&Huffman編碼實現資料壓縮_C語言實現

一、實驗原理 DPCM是差分預測編碼調製的縮寫，它利用過去的抽樣值來預測當前的抽樣值，對它們的差值進行編碼。差值編碼可以提高編碼頻率，這種技術已應用於模擬訊號的數字通訊之中。影象內的畫素值之間並非相互獨立，某一畫素與周圍畫素之間存在一定的關係，這一關係導致整

利用huffman編碼實現壓縮檔案

　哈夫曼是一種常用的壓縮方法。是1952年為文字檔案建立的，其基本原理是頻繁使用的資料用較短的程式碼代替，很少使用的資料用較長的程式碼代替，每個資料的程式碼各不相同。這些程式碼都是二進位制碼，且碼的長度是可變的。如: 有一個原始資料序列，ABACCDAA則編碼為A(0

huffman演算法實現檔案的壓縮與解壓

本文采用哈夫曼編碼的方式進行檔案的壓縮和解壓縮，主要原理是通過huffman編碼來表示字元，出現次數多的編碼短，出現次數少的編碼長，這樣整體而言，所需的總的bit位是減少的。但是當大部分字元出現的

哈夫曼編碼壓縮解壓縮實現&不同型別檔案壓縮比的測試

壓縮原理及步驟&&壓縮比的計算壓縮原理及步驟壓縮的第一步：將一個檔案以各個字元出現的次數為權值建立哈夫曼樹，這樣每個字元可以用從樹根到該字元所在到葉子節點的路徑來表示。(左為0,右為1) 壓縮第二步：哈夫曼編碼有一

Huffman編碼壓縮解壓縮檔案

採用了哈弗曼編碼和優先佇列（最小堆）實現標頭檔案 #ifndef HUFFMAN_H_INCLUDED #define HUFFMAN_H_INCLUDED #include "stdio.h" #include "stdlib.h" #include "string.h

c#實現gzip壓縮解壓縮算法：byte[]字節數組，文件，字符串，數據流的壓縮解壓縮

mono att frame res 算法 cal http pda tail 轉載：https://blog.csdn.net/luanpeng825485697/article/details/78165788 我測試了下壓縮byte[]，是可以的 usi

哈夫曼編碼實現檔案的壓縮和解壓

哈夫曼編碼的概念哈夫曼編碼是基於哈夫曼樹實現的一種檔案壓縮方式。哈夫曼樹：一種帶權路徑最短的最優二叉樹，每個葉子結點都有它的權值，離根節點越近，權值越小（根節點權值為0，往下隨深度增加依次加一），樹的帶權路徑等於各個葉子結點的數值與其權值的乘積和。哈夫曼樹如圖：從圖中我們可以看出

Hadoop編碼解碼【壓縮解壓縮】機制詳解（1）

編碼/解碼器一旦找到，就會被用來去掉檔名字尾生成輸出檔名（通過CompressionCodecFactory的靜態方法removeSuffix()來實現）。這樣，如下呼叫程式便把一個名為file.gz的檔案解壓縮為file檔案: % hadoop FileDecompressor file.gz Comp

bzip2壓縮解壓縮

http 文件必須 cnblogs logs blog png .com 分享壓縮/解壓縮壓縮/解壓縮之後的文件名稱必須是bz2 首先是 -z 壓縮文件-d 解壓縮！ bzip2壓縮解壓縮

gzip壓縮解壓縮

image log ges img .cn com -1 ima 分享壓縮/解壓縮壓縮/解壓縮之後的文件名稱必須是gz 解壓縮 gzip壓縮解壓縮

Linux下的tar壓縮解壓縮命令詳解

命令 .tar.gz 需要 logo 意思追加 lin 產生 ron tar -c: 建立壓縮檔案-x：解壓-t：查看內容-r：向壓縮歸檔文件末尾追加文件-u：更新原壓縮包中的文件這五個是獨立的命令，壓縮解壓都要用到其中一個，可以和別的命令連用但只

[轉][C#]壓縮解壓縮類 GZipStream

public sin spa eve tput doc col bsp ext 本文來自：https://msdn.microsoft.com/zh-cn/library/system.io.compression.gzipstream(v=vs.100).aspx us

Linux壓縮解壓縮（unzip，tar）

哪些 family top -s dir 處理根目錄 cti font unzip tar 常用解壓縮命令： tar -zxvpf：解壓縮 tar -zcvpf: 壓縮

AntZipUtils【基於Ant的Zip壓縮解壓縮工具類】

Qt之zip壓縮/解壓縮（QuaZIP）

com spm c++ ews pen 更多 pri cat markdown 摘要：簡述 QuaZIP是使用Qt/C++對ZLIB進行簡單封裝的用於壓縮及解壓縮ZIP的開源庫。適用於多種平臺，利用它可以很方便的將單個或多個文件打包為zip文件，且打包後的zip文件可

+++++++btrfs、壓縮/解壓縮和編程之if和for總結

linuxbtrfsfilesystem device balance subvolume創建、掛載、子卷的掛載、創建、向btrfs中添加或移除設備、重新均衡數據<btrfs系統不支持，網上摘錄，以後再修改....>1、父卷可直接格式化、掛載及同LVM邏輯卷一樣可以動態的擴展和縮減2、原生RAID

如何在Win10裏使用命令行來壓縮/解壓縮文件

歸檔顯示 blog 公眾成功寶寶簡單公眾號 zip 如果你的電腦的硬盤空間十分有限，那麽這篇文章應該對你有用。在這篇文章中，我們將討論如何為文件或者文件夾啟用文件壓縮。和ZIP文件壓縮或者RAR文件壓縮相比，使用這種方式，你無需創建歸檔文件，壓縮後的文件也將可以像

9、壓縮/解壓縮及任務計劃介紹

壓縮、解壓縮、歸檔1、壓縮比：壓縮前和壓縮後的大小體積比例2、壓縮目的：時間換空間，用cpu的時間換磁盤的空間；如何選擇壓縮，要衡量是節省cpu時間還是節省硬盤空間。3、linux壓縮、解壓縮工具，及歸檔工具：序號壓縮工具解壓縮工具不解壓查看內容後綴備註1compressuncompress.

Huffman編碼實現壓縮解壓縮

原理介紹

編碼實現

解碼實現

相關推薦