基於哈夫曼編碼完成的檔案壓縮及解壓

阿新 • • 發佈：2019-01-10

這幾天在較為認真的研究基於哈夫曼編碼的檔案壓縮及解壓，費了點時間，在這分享一下：

這裡用鏈式結構，非順序表結構；

檔案壓縮：

1.獲取檔案資訊（這裡採用TXT格式文字）；

2.壓縮檔案；

3.寫配置檔案（便於解壓時用，無非就是存放原檔案的索引之類的，比如說，檔案中某個字元出現的個數，記錄下來）

4.解壓縮，使用壓縮後的檔案和配置檔案解壓檔案；

5.用比對軟體，比對解壓後的檔案和原始檔是否相同；

下面慢慢解析：

先看一個檔案資訊類：

typedef long long LongType;
struct FileInfo
{
	unsigned char _ch;       //字元
	LongType _count;         //字元出現次數
	string _code;            //字元對應的哈夫曼編碼 

	FileInfo(unsigned char ch = 0)
		:_ch(ch)
		,_count(0)
	{}


	FileInfo operator+(const FileInfo& x)
	{
		FileInfo tmp;
		tmp._count = this->_count + x._count;
		return tmp;
	}

	bool operator !=(const FileInfo& x) const
	{
		return this->_count != x._count;
	}
};

bool operator<(const FileInfo info1,const FileInfo info2)
{
	return info1._count < info2._count;
}

此為一個檔案資訊的類結構，包含字元，字元對應出現的次數，以及這個字元對應的哈夫曼編碼（能看到這篇部落格的星弟，對哈夫曼編碼不會陌生，這裡不再強調）

除了統計字元出現的次數及哈夫曼編碼，還完成了幾個運算子的過載

要獲取哈夫曼編碼，就得建立哈夫曼樹，建立哈夫曼樹用最小堆取操作，以下是最小堆建立過程

// 小堆
template<class T>
struct Less
{
	bool operator() (const T& l, const T& r)
	{
		return l < r; // operator<
	}

};

template<class T>
struct Greater
{
	bool operator() (const T& l, const T& r)
	{
		return l > r; // operator<
	}
};

template<class T, class Compare = Less<T>>
class Heap
{
public:
	Heap()
	{}

	Heap(const T* a, size_t size)
	{
		for (size_t i = 0; i < size; ++i)
		{
			_arrays.push_back(a[i]);
		}

		// 建堆
		for(int i = (_arrays.size()-2)/2; i >= 0; --i)
		{
			AdjustDown(i);
		}
	}

	void Push(const T& x)
	{
		_arrays.push_back(x);
		AdjustUp(_arrays.size()-1);
	}

	void Pop()
	{
		assert(_arrays.size() > 0);
		swap(_arrays[0], _arrays[_arrays.size() - 1]);
		_arrays.pop_back();

		AdjustDown(0);
	}

	T& Top()
	{
		assert(_arrays.size() > 0);
		return _arrays[0];
	}

	bool Empty()
	{
		return _arrays.empty();
	}

	int Size()
	{
		return _arrays.size();
	}

	void AdjustDown(int root)
	{
		int child = root*2 + 1;
		// 	
		Compare com;
		while (child < _arrays.size())
		{
			// 比較出左右孩子中小的那個
			if (child+1<_arrays.size() &&
				*_arrays[child+1] < _arrays[child])
			//if(child+1<_arrays.size() &&
			//	com(_arrays[child+1],_arrays[child]))
			{
				++child;
			}

			if(*_arrays[child] < _arrays[root])
			//if(com(_arrays[child],_arrays[root]))
			{
				swap(_arrays[child], _arrays[root]);
				root = child;
				child = 2*root+1;
			}
			else
			{
				break;
			}
		}
	}

	void AdjustUp(int child)
	{
		int parent = (child-1)/2;

		//while (parent >= 0)
		while (child > 0)
		{
			if (*_arrays[child] < _arrays[parent])
			{
				swap(_arrays[parent], _arrays[child]);
				child = parent;
				parent = (child-1)/2;
			}
			else
			{
				break;
			}
		}
	}


public:
	vector<T> _arrays;
};

最小堆裡也完成了很多介面，包括push pop等

然後就是幾個壓縮和解壓的函式介面

1.根據哈夫曼樹獲取哈夫曼變慢：

	void _GenerateHuffmanCode(HuffmanTreeNode<FileInfo>* root)
	{
		if (root == nullptr)
		{
			return;
		}

		_GenerateHuffmanCode(root->_left);
		_GenerateHuffmanCode(root->_right);

		//當前節點為葉子節點為空  才生成哈夫曼編碼
		if (root->_left == nullptr && root->_right == nullptr)
		{
			HuffmanTreeNode<FileInfo>* cur = root;
			HuffmanTreeNode<FileInfo>* parent = cur->_parent;
			string& code = _infos[cur->_weight._ch]._code;

			while (parent)
			{
				if (parent->_left == cur)
				{
					code += '1';
				}
				else if (parent->_right == cur)
				{
					code += '0';
				}
				cur = parent;
				parent = cur->_parent;
			}
			reverse(code.begin(), code.end());
		}
	}

2.根據最小堆建立哈夫曼樹；

void CreateTree(T *a, size_t size, const T& invalid)
	{
		assert(a);
		Heap<HuffmanTreeNode<T>*> s1;  //草 終於發現問題  在這裡   （堆裡放的是指標，型別一定要對）

		//找兩個最小的元素
		for (size_t i = 0; i < size; ++i)
		{
			if (a[i] != invalid)
			{
			HuffmanTreeNode<T>* node = new HuffmanTreeNode<T>(a[i]);
				s1.Push(node);
			}
		}

		while (s1.Size() > 1)
		{
			HuffmanTreeNode<T>* left = s1.Top();
			s1.Pop();
			HuffmanTreeNode<T>* right = s1.Top();
			s1.Pop();


			HuffmanTreeNode<T>* parent = new HuffmanTreeNode<T>(left->_weight + right->_weight);

		
			parent->_left = left;
			parent->_right = right;

			left->_parent = parent;
			right->_parent = parent;

			s1.Push(parent);
		}
		_root = s1.Top();
		s1.Pop();
	}

3.讀取文字檔案中的一行：

	bool _ReadLine(FILE *fOutLogFile, string& line)
	{
		char ch = fgetc(fOutLogFile);
		if (feof(fOutLogFile))
			return false;
		else
		{
			if (ch == '\n')
			{
				line += ch;
				ch = fgetc(fOutLogFile);
			}

			while (ch != '\n')
			{
				line += ch;
				ch = fgetc(fOutLogFile);
			}
			return true;
		}
	}

4.檔案壓縮

	//檔案壓縮
	bool Compress(const char* filename)
	{
		//1.開啟一個檔案，統計檔案字元出現的次數
		//2.生成對應的哈弗曼編碼
		//3.壓縮檔案
		//4.寫配置檔案，方便解壓縮

		assert(filename);
		FILE *fOut = fopen(filename, "rb");
		assert(fOut);

		//統計檔案字元出現的次數
		unsigned char ch = fgetc(fOut);
		while (!feof(fOut))  //檔案結束
		{
			_infos[ch]._count++;
			ch = fgetc(fOut);
		}

		HuffmanTree<FileInfo> ht;
		FileInfo invalid;
		ht.CreateTree(_infos, 256, invalid);

		//哈夫曼編碼
		_GenerateHuffmanCode(ht.GetRoot());

		string compressFile = filename;
		compressFile += ".huf";

		//壓縮後的檔名 字尾為《輸入檔名+.huf》
		FILE *finCompress = fopen(compressFile.c_str(), "wb"); //獲取string中的C字串
		assert(finCompress);

		fseek(fOut, 0, SEEK_SET);//將檔案指標移到開頭
		char cha = fgetc(fOut);
		unsigned char inch = 0;
		int index = 0;  //一個位元組的八位
		while (!feof(fOut))
		{
			string& code = _infos[(unsigned char)cha]._code;

			for (size_t i = 0; i < code.size(); ++i)
			{
				inch <<= 1;     //低位向高位進
				if (code[i] == '1')
				{
					inch |= 1;
				}

				if (++index == 8)
				{
					fputc(inch, finCompress); //夠8位，裝進檔案
					index = 0;   //重新一輪開始
					inch = 0;
				}
			}
			cha = fgetc(fOut);
		}

		fclose(fOut);

		//如果index = 0 說明 上邊8位剛好存滿 不等 下一個自己又出來了
		if (index != 0)   //處理最後一個字元不夠的問題
		{
			inch <<= (8 - index); //最高位必須裝上 後邊的浪費掉
			fputc(inch, finCompress);
		}

		fclose(finCompress);
	}

5.寫配置檔案：

string logFile = filename;
		logFile += ".log";
		
		FILE *Log = fopen(logFile.c_str(), "wb");
		assert(Log);

		string chInfo;

		char str[128] = {0}; //沒空間 不可以

		for (size_t i = 1; i < 256; ++i)
		{
			if (_infos[i]._count > 0)
			{
				chInfo += _infos[i]._ch;
				chInfo += ',';
				chInfo += _itoa(_infos[i]._count,str,10);
				chInfo += '\n';
				fputs(chInfo.c_str(), Log);
				chInfo.clear();
			}
		}

		fclose(Log);

6.最後的檔案解壓：

//重構檔案
	void _RestoreFiles(HuffmanTreeNode<FileInfo> *root, const char* Fileneme,long long size)
	{
		assert(root);

		//原壓縮檔案
		string name = Fileneme;
		name += ".huf";
		
		FILE* Out = fopen(name.c_str(),"rb");
		assert(Out);
		
		string restorefilename = Fileneme;
		restorefilename += ".over";
		FILE *over = fopen(restorefilename.c_str(),"wb");
		assert(over);

		int pos = 8;
		long long poss = size;

		unsigned char chz = fgetc(Out);
		while (poss>0)
		{
			HuffmanTreeNode<FileInfo>* cur = nullptr;
			cur = root;
			while (cur->_left != nullptr || cur->_right != nullptr)
			{
				pos--;
				unsigned char temp = chz >> pos;
				int ch = 1 & temp;
				if (ch == 0)
				{
					cur = cur->_right;
				}

				else if (ch == 1)
				{
					cur = cur->_left;
				}

				if (pos == 0)
				{
					chz = fgetc(Out);
					pos = 8;
				}
			}
			fputc(cur->_weight._ch, over);

			poss--;
		}

		fclose(Out);
		fclose(over);
	}

	
	void UnCompress(const char* Fileneme)//解壓縮
	{
		//1.開啟日誌檔案
		//2.根據資訊還原哈夫曼樹
		//3.還原資訊；
		string UnCompressneme = Fileneme;
		UnCompressneme += ".log";
		FILE *fOutLogFile = fopen(UnCompressneme.c_str(), "rb");
		assert(fOutLogFile);

		string line;
		while (_ReadLine(fOutLogFile, line))
		{
			unsigned char ch = line[0];
			_infos[ch]._count = atoi(line.substr(2).c_str());
			line.clear();
		} 

		HuffmanTree<FileInfo> f;
		FileInfo invalid;
		f.CreateTree(_infos, 256, invalid);

		//根據重建的哈夫曼樹 還原檔案；
		long long size = f.GetRoot()->_weight._count;
		_RestoreFiles(f.GetRoot(), Fileneme,size);
	}

到此，此專案基本完成；如遇問題，希望留言，隨時解答，如有見解，跪求賜教！

基於哈夫曼編碼完成的檔案壓縮及解壓

這幾天在較為認真的研究基於哈夫曼編碼的檔案壓縮及解壓，費了點時間，在這分享一下：這裡用鏈式結構，非順序表結構；檔案壓縮： 1.獲取檔案資訊（這裡採用TXT格式文字）； 2.壓縮檔案； 3.寫配置檔案（便於解壓時用，無非就是存放原檔案的索引之類的，比如說，檔案中某個字

基於哈夫曼演算法的檔案壓縮軟體

資料結構課設（一）作業要求 1、設計並實現一個使用哈夫曼演算法對檔案進行壓縮的工具軟體。 2、通過命令列引數指定操作模式（壓縮/解壓）、原始檔名、目標檔名。 3、壓縮操作將原始檔按位元組讀入並統計位元組頻率，生成位元組的哈夫曼編碼，將編碼樹和用哈夫曼編碼對位元組重新編碼後的結果儲存

基於哈夫曼樹的檔案壓縮

基本思想：壓縮： 1、統計出檔案中相同字元出現的次數 2、獲取哈夫曼編碼次數作為權值構建哈夫曼樹 3、重新編碼，寫回壓縮檔案儲存標頭檔案：原始檔字尾編碼資訊的行數每個字元的權儲存編碼解壓縮： 1、獲取原

基於哈夫曼編碼的文字檔案壓縮與解壓縮

基於哈夫曼編碼實現檔案壓縮是在學習資料結構（嚴蔚敏版）書中哈夫曼樹及其應用後對書中虛擬碼的實現和完善，採用哈夫曼靜態編碼的方式，通過對資料進行兩遍掃描，第一次統計出現的字元頻次，進而構造哈夫曼樹，第二遍掃描資料根據得到的哈夫曼樹對資料進行編碼。對於其中的

哈夫曼編碼實現檔案的壓縮和解壓

哈夫曼編碼的概念哈夫曼編碼是基於哈夫曼樹實現的一種檔案壓縮方式。哈夫曼樹：一種帶權路徑最短的最優二叉樹，每個葉子結點都有它的權值，離根節點越近，權值越小（根節點權值為0，往下隨深度增加依次加一），樹的帶權路徑等於各個葉子結點的數值與其權值的乘積和。哈夫曼樹如圖：從圖中我們可以看出

哈夫曼編碼實現文字壓縮和解壓（C++）

哈弗曼樹：又稱最優二叉樹，是帶權路徑長度最短的樹。哈夫曼編碼：是一種字首編碼，即同一字符集中任何一個字元的編碼都不是另外一個字元編碼的字首（最左子串）。在哈弗曼樹中，若用‘0’表示左子樹，‘1’表示右子樹，那麼每當從根遍歷到一個葉子節點時都會形成一個0

利用哈夫曼樹實現檔案壓縮和解壓縮

利用庫中的優先順序佇列實現哈夫曼樹，最後基於哈夫曼樹最終實現檔案壓縮。描述： 1.統計檔案中字元出現的次數，利用優先順序佇列構建Haffman樹，生成Huffman編碼。構造過程可以使用priority_queue輔助，每次pq.top

利用哈夫曼樹進行檔案壓縮

專案描述：專案簡介：利用哈夫曼編碼的方式對檔案進行壓縮，並且對壓縮檔案可以解壓開發環境：windows vs2013 專案概述： 1.壓縮 a.讀取檔案，將每個字元，該字元出現的次數和權值構成哈夫曼樹 b

【資料結構與演算法】利用哈夫曼樹進行檔案壓縮（部分借鑑網上內容）

哈夫曼編碼(Huffman Coding)，又稱霍夫曼編碼，是一種編碼方式，哈夫曼編碼是可變字長編碼(VLC)的一種。Huffman於1952年提出一種編碼方法，該方法完全依據字元出現概率來構造異字頭的平均長度最短的碼字，有時稱之為最佳編碼，一般就叫做Huffman編碼（

哈夫曼樹以及檔案壓縮的實現

一、HuffmanTree 哈夫曼樹也稱為最優二叉樹，是加權路徑長度最短的二叉樹。在講述哈夫曼樹之前先給出幾個概念：路徑：從一個結點到一個結點之間的分支構成這兩個結點之間的路徑路徑長度：路徑上分支

Linux遠端伺服器上檔案壓縮及解壓

前段時間老師要我將我們Linux伺服器上的安裝檔案進行打包，方便以後在其他伺服器上使用。特將打包方法和大家分享：壓縮方法： tar -zcvf 打包後生成的檔名全路徑要打包的目錄

通過哈夫曼編碼壓縮檔案

原理就是統計帶壓縮檔案字元頻率，構建哈夫曼樹，然後求哈夫曼編碼，將字元頻率(解壓的時候通過字元頻率建樹)和哈夫曼編碼寫入檔案，完成壓縮。壓縮程式碼： //獲取一個檔案的每個字元的頻率 void get_frequency(string filename, int frequency[2

資料結構————檔案壓縮（利用哈夫曼編碼實現）

檔案壓縮原理：首先檔案壓縮是通過HuffmaCode實現的、整體思路通過讀取檔案獲取字元出現頻率，通過字元出現頻率可以構建HuffmanTree，每個檔案中出現的字元通過HuffmanTree獲取HuffmanCode，從而將檔案中的字元同過HuffmanTree獲取相應編碼，並寫入壓

哈夫曼編碼應用之實現檔案壓縮

背景：為了鍛鍊自己的程式碼能力，以及資料結構演算法掌握的能力，做此專案來鍛鍊自己提高自己的能力，本專案運用了C++中的知識，比如模板類，仿函式等等，還用到了資料結構中的演算法知識，比如建堆調堆、哈夫曼編碼，還用到了檔案操作的知識。總是試一次很好的訓練。介紹一下哈夫曼編碼：

利用哈夫曼編碼壓縮檔案

利用哈夫曼編碼壓縮解壓檔案1. 引言本文為大一下學期C語言課程的期末大作業，經過修改後釋出。文中要用到的測試檔案1.lst見連結: https://pan.baidu.com/s

哈夫曼編碼壓縮解壓縮實現&不同型別檔案壓縮比的測試

壓縮原理及步驟&&壓縮比的計算壓縮原理及步驟壓縮的第一步：將一個檔案以各個字元出現的次數為權值建立哈夫曼樹，這樣每個字元可以用從樹根到該字元所在到葉子節點的路徑來表示。(左為0,右為1) 壓縮第二步：哈夫曼編碼有一

哈夫曼編碼壓縮,解壓,壓縮比,編碼表,儲存到檔案

//mian.c #include "FunctionReference.h" int main() { HuffmanTree HT; //哈夫曼樹 int sum; //統計的字元總數 int n;

完成基於哈夫曼樹（最優二叉樹）的壓縮及解壓小程式的收穫

收穫 1）更有條理的構造我的程式碼了：先從main方法下手，將自己想要的實現程式的功能以註釋的方式寫出來，然後再逐漸細化每一部分的功能，每部分的功能都有非常明確的輸入部分，將這些輸入的內容加工，進行輸出（也就是下一部分功能的實現的輸入部分）就是這部分功能

哈夫曼編碼的實現（讀入檔案的形式）

#include<bits/stdc++.h> using namespace std; int w[30]; typedef struct { int weight; int parent,lchild,rchild; }HTNode,*HuffmanTree; typedef

C++中的位移操作以實現檔案的壓縮（實現哈夫曼對檔案壓縮與解壓時做的一個小測試）

因為以前基本上沒用過位移操作，所以這裡做了一個小測試，加深了一下對位移的理解相關概念：因為C++中對檔案的操作常用的就是按位元組來進行讀取。下面對檔案的讀寫進行舉例（這是我常用的方式，大家也可以用其它方法讀取）：　　首先包含相關標頭檔案：　　　　

基於哈夫曼編碼完成的檔案壓縮及解壓

相關推薦