数据结构——赫夫曼树

简介:

1 基本概念


赫夫曼树(Huffman Tree)又称为最优树,是一类带权路径长度最短的树。本文仅讨论最优二叉树。

树的路径长度是指从树根到树中其余各个结点的路径长度之和。对具有n个结点的二叉树而言,完全二叉树具有最短的树的路径长度。

若在二叉树中,树叶结点带有权值,则有:结点的带权路径长度定义为从树根到该结点之间的路径长度与该结点上所带权值之积。

若树中有n个树叶结点,且每个树叶结点均带有权值,则有:树的带权路径长度定义为树中所有树叶结点的带权路径长度之和,可记为:


有时,也将树的路径长度称为内路径长度,而将树的带权路径长度称为树的外路径长度

构造最优树的赫夫曼算法

①根据给定的n个权值,构成n棵二叉树的集合F,其中每棵树中只有一个带有权值的根结点,其左右子树均为空树。

②在F中选取两棵根结点的权值最小的树,并以它们作为左右子树构造一棵新的二叉树,且置新的二叉树根结点的权值为其左、右子树上根结点的权值之和。

③在F中删除这两棵树,同时将新得到的二叉树加入F中。

重复②③步骤,知道F只含一棵树而知。这棵树便是所求的的赫夫曼树。


2 赫夫曼树实现

具有n个树叶结点的赫夫曼(二叉)树总的结点个数为2n-1。由于树中的结点个数是确定的,因此,选择静态树表作为存储结构,结合即将讨论的赫夫曼编码,最终选择静态三叉树表作为建立赫夫曼树的存储结构。静态三叉树表结点结构如下:

struct HTnode
{
	char ch;
	int weight,parent,lchild,rchild;
};
HuffmanTree类声明如下:
#pragma once
#define MAXSIZE 1000
#include "HTnode.h"
#include <windows.h>
class HuffmanTree
{
	friend class HuffmanCoder;
public:
	HuffmanTree(int n,char chA[],int weightA[]):m_HTsize(0),m_HT(NULL)
	{
		_Create(n,chA,weightA);
	}

	~HuffmanTree()
	{
		delete [] m_HT;
	}

	void Display();
private:
	int m_HTsize; //树叶结点个数
	HTnode* m_HT;
	void _Create(int,char chA[],int weightA[]);
	int _MinVal(const int&);
	void _Select(const int,int&,int&);
};
HuffmanTree类实现如下:
#include "HuffmanTree.h"
#include <iostream>
using namespace std;

void HuffmanTree::_Create(int n,char chA[],int weightA[])
{
	int i, s1, s2;
	m_HTsize = 2 * n - 1;
	m_HT = new HTnode[2 * n - 1];
	if (n <= 1)
	{
		return;
	}
	for (i = 0; i < n; i++)
	{
		m_HT[i].ch = chA[i];
		m_HT[i].weight = weightA[i];
		m_HT[i].parent = -1;
		m_HT[i].lchild = -1;
		m_HT[i].rchild = -1;
	}
	while(i < m_HTsize)
	{
		_Select(i,s1,s2);
		m_HT[s1].parent = m_HT[s2].parent = i;
		m_HT[i].lchild = s1;
		m_HT[i].rchild = s2;
		m_HT[i].weight = m_HT[s1].weight + m_HT[s2].weight;
		m_HT[i].parent = -1;
		i++;
	}
}

void HuffmanTree::Display()
{
int i;
std::cout<<"所建立的赫夫曼树的静态链表表示如下:"<<std::endl;
std::cout<<"位置\t"<<"字符\t"<<"权值\t"<<"双亲\t"<<"左孩子\t"<<"右孩子"<<endl;
for (i = 0; i < (m_HTsize + 1) / 2; i++)
{
cout<<i<<"\t"<<m_HT[i].ch<<"\t"<<m_HT[i].weight<<"\t"<<m_HT[i].parent
<<"\t"<<m_HT[i].lchild<<"\t"<<m_HT[i].rchild<<endl;
}
while (i < m_HTsize)
{
cout<<i<<"\t\t"<<m_HT[i].weight<<"\t"<<m_HT[i].parent<<"\t"<<m_HT[i].lchild
<<"\t"<<m_HT[i].rchild<<endl;
i++;
}
}

//从前i个结点中选择parent为-1且weight最小的结点,获取其序号
int HuffmanTree::_MinVal(const int& i)
{
	int j, k, min = MAXSIZE;
	for (j = 0; j < i; j++)
	{
		if (m_HT[j].parent == -1 && m_HT[j].weight < min)
		{
			min = m_HT[i].weight;
			k = j;
		}
	}
	m_HT[k].parent = MAXSIZE;
	return k;
}

void HuffmanTree::_Select(const int i,int& s1,int& s2)
{
	int s;
	s1 = _MinVal(i);
	s2 = _MinVal(i);
	if (s1 > s2)
	{
		s = s1;
		s1 = s2;
		s2 = s;
	}
}

3 赫夫曼树编码

赫夫曼树的一个重要应用是在通信中构造最优的前缀编码,从而使得电文长度达到最短。

通常有两类二进制编码:

等长编码:编码的二进制长度取决于电文中出现的字符个数。

不等长编码:各字符的二进制编码长度不等。它的好处是可以使传送电文的字符串总长度尽可能的短。

通常各个字符在电文中出现的次数是不相同的,若对出现次数较多的字符采用尽可能短的编码,则传送电文的总长便可减少。

在实用的不等长编码中,任一一个字符的编码都不能是另一个字符编码的前缀,这种编码成为前缀编码

赫夫曼编码表的结点结构定义如下:

//赫夫曼编码表结点结构
struct HCnode
{
	char ch;
	char* pstring;
};
赫夫曼编码类实现如下:
//HuffmanCoder.h
#pragma once
#include "HCnode.h"
#include "HuffmanTree.h"
class HuffmanCoder
{
public:
	HuffmanCoder(const int& n)
	{
		m_HC = new HCnode[n];
		m_HCsize = n;
	}

	~HuffmanCoder()
	{
		for (int i = 0; i < m_HCsize; i++)
		{
			delete [] m_HC[i].pstring;
		}
		delete [] m_HC;
	}

	void CreateBook(HuffmanTree&);
	void Coder(char ch[]);
	void Decoder(HuffmanTree&);
private:
	HCnode* m_HC; //赫夫曼编码表基地址指针
	int m_HCsize; //外结点个数
};
//HuffmanCoder.cpp
#include "HuffmanCoder.h"
#include <iostream>
#include <fstream>
using namespace std;
void HuffmanCoder::CreateBook(HuffmanTree& ht)
{
	int i,j,c,f,start;
	char* cd = new char[m_HCsize];
	cd[m_HCsize-1] = '\0';
	cout<<"以下是各字符的赫夫曼编码:"<<endl;
	for (i = 0; i < m_HCsize; i++)
	{
		start = m_HCsize - 1;
		m_HC[i].ch = ht.m_HT[i].ch;
		for (c = i, f = ht.m_HT[i].parent; f !=-1; c = f, f = ht.m_HT[f].parent)
		{
			if (ht.m_HT[f].lchild == c)
			{
				cd[--start] = '0';
			}
			else
			{
				cd[--start] = '1';
			}
		}

		m_HC[i].pstring = new char[m_HCsize-start];
		cout<<"第"<<i<<"个字符"<<ht.m_HT[i].ch<<"的编码是:";
		for (j = start; j < m_HCsize; j++)
		{
			cout<<cd[j];
			m_HC[i].pstring[j-start] = cd[j];
		}
		cout<<endl;
	}
}

//对用字符串组成的电文用赫夫曼编码表进行编码
void HuffmanCoder::Coder(char ch[])
{
	ofstream outfile("f1.dat",ios::out);
	for (int i = 0; i < strlen(ch); i++)
	{
		for (int j = 0; j < m_HCsize; j++)
		{
			if (m_HC[j].ch == ch[i])
			{
				for (int k = 0; m_HC[j].pstring[k];k++)
				{
					cout<<m_HC[j].pstring[k];
					outfile.put(m_HC[j].pstring[k]);
				}
				break;
			}
		}
	}
	cout<<endl;
	outfile.close(); //关闭数据文件
}

//对用0,1组成的电文用赫夫曼树进行译码
void HuffmanCoder::Decoder(HuffmanTree& ht)
{
	char ch[256];
	int j = 0, i = 0, p, pre, root = ht.m_HTsize - 1;
	ifstream infile("f1.dat",ios::in);
	while (infile.get(ch[j]))
	{
		j++;
	}
	ch[j] = 0;
	cout<<"需译制的二进制电文是:"<<endl;
	cout<<ch<<endl;
	cout<<"译码结果:"<<endl;
	pre = -1;
	p = root;
	while (i < strlen(ch))
	{
		while(p != -1)
		{
			if (ch[i] == '0')
			{
				pre = p;
				p = ht.m_HT[p].lchild;
			}
			else
			{
				pre = p;
				p = ht.m_HT[p].rchild;
			}
			i++;
		}
		cout<<ht.m_HT[pre].ch;
		i--;
		pre = -1;
		p = root;
	}
	cout<<endl;
	infile.close();
}
主函数如下:
//main.cpp
#include <iostream>
#include <fstream>
#include "HuffmanCoder.h"
using namespace std;

void main(int argc, char* argv[])
{
	ifstream cin("input.txt");
	int n;
	cout<<"---此程序实现建立赫夫曼树并求赫夫曼编码---"<<endl<<endl;
	cout<<"请输入树叶结点的个数(n>1):";
	cin>>n;
	char chA[256];
	int WeightA[256];

	for (int i = 0; i < n; i++)
	{
		cout<<"请输入第"<<i<<"个字符及其权值"<<endl;
		cin>>chA[i]>>WeightA[i];
	}
	HuffmanTree ht(n,chA,WeightA);
	ht.Display();

	HuffmanCoder hc(n);
	hc.CreateBook(ht);
	cout<<"请输入需编码的字符串(字符串中的字符必须是当前对象中的字符):"<<endl;
	cin>>chA;
	cout<<"编码结果"<<endl;
	hc.Coder(chA);
	cout<<endl;
	hc.Decoder(ht);
	cout<<endl;
	system("pause");
}

程序输入:


程序输出:

转载:http://blog.csdn.net/foreverling/article/details/43270427

目录
相关文章
|
2月前
|
算法
数据结构之博弈树搜索(深度优先搜索)
本文介绍了使用深度优先搜索(DFS)算法在二叉树中执行遍历及构建链表的过程。首先定义了二叉树节点`TreeNode`和链表节点`ListNode`的结构体。通过递归函数`dfs`实现了二叉树的深度优先遍历,按预序(根、左、右)输出节点值。接着,通过`buildLinkedList`函数根据DFS遍历的顺序构建了一个单链表,展示了如何将树结构转换为线性结构。最后,讨论了此算法的优点,如实现简单和内存效率高,同时也指出了潜在的内存管理问题,并分析了算法的时间复杂度。
59 0
|
2月前
|
存储 缓存 算法
在C语言中,数据结构是构建高效程序的基石。本文探讨了数组、链表、栈、队列、树和图等常见数据结构的特点、应用及实现方式
在C语言中,数据结构是构建高效程序的基石。本文探讨了数组、链表、栈、队列、树和图等常见数据结构的特点、应用及实现方式,强调了合理选择数据结构的重要性,并通过案例分析展示了其在实际项目中的应用,旨在帮助读者提升编程能力。
74 5
|
2月前
|
存储 搜索推荐 算法
【数据结构】树型结构详解 + 堆的实现(c语言)(附源码)
本文介绍了树和二叉树的基本概念及结构,重点讲解了堆这一重要的数据结构。堆是一种特殊的完全二叉树,常用于实现优先队列和高效的排序算法(如堆排序)。文章详细描述了堆的性质、存储方式及其实现方法,包括插入、删除和取堆顶数据等操作的具体实现。通过这些内容,读者可以全面了解堆的原理和应用。
112 16
|
2月前
|
算法
数据结构之文件系统模拟(树数据结构)
本文介绍了文件系统模拟及其核心概念,包括树状数据结构、节点结构、文件系统类和相关操作。通过构建虚拟环境,模拟文件的创建、删除、移动、搜索等操作,展示了文件系统的基本功能和性能。代码示例演示了这些操作的具体实现,包括文件和目录的创建、移动和删除。文章还讨论了该算法的优势和局限性,如灵活性高但节点移除效率低等问题。
67 0
|
3月前
|
存储 算法 关系型数据库
数据结构与算法学习二一:多路查找树、二叉树与B树、2-3树、B+树、B*树。(本章为了解基本知识即可,不做代码学习)
这篇文章主要介绍了多路查找树的基本概念,包括二叉树的局限性、多叉树的优化、B树及其变体(如2-3树、B+树、B*树)的特点和应用,旨在帮助读者理解这些数据结构在文件系统和数据库系统中的重要性和效率。
35 0
数据结构与算法学习二一:多路查找树、二叉树与B树、2-3树、B+树、B*树。(本章为了解基本知识即可,不做代码学习)
|
3月前
|
Java C++
【数据结构】探索红黑树的奥秘:自平衡原理图解及与二叉查找树的比较
本文深入解析红黑树的自平衡原理,介绍其五大原则,并通过图解和代码示例展示其内部机制。同时,对比红黑树与二叉查找树的性能差异,帮助读者更好地理解这两种数据结构的特点和应用场景。
44 0
|
3月前
|
存储 算法
数据结构与算法学习十六:树的知识、二叉树、二叉树的遍历(前序、中序、后序、层次)、二叉树的查找(前序、中序、后序、层次)、二叉树的删除
这篇文章主要介绍了树和二叉树的基础知识,包括树的存储方式、二叉树的定义、遍历方法(前序、中序、后序、层次遍历),以及二叉树的查找和删除操作。
38 0
|
3月前
05(数据结构考研)树相关操作代码
05(数据结构考研)树相关操作代码
37 0
|
3月前
|
存储 算法 Java
数据结构和算法--分段树
数据结构和算法--分段树
26 0