用二叉树实现哈夫曼算法、哈夫曼树提升压缩比率及可逆压缩和非可逆压缩

简介: 用二叉树实现哈夫曼算法、哈夫曼树提升压缩比率及可逆压缩和非可逆压缩

一、用二叉树实现哈夫曼算法


上一篇博客已经提到,莫尔斯编码是根据日常文本中各字符的出现频率来决定表示各字符的编码数据长度的。不过该编码体系中,对 AAAAAABBCDDEEEEEF 这种文本来说并不是效率最高的


下面用哈夫曼算法试一下,哈夫曼算法是指,为各压缩对象文件分别构造最佳的编码体系,并以该编码体系为基础来进行压缩。因此,用什么样的编码(哈夫曼编码)对数据进行分隔,就要由各个文件而定。用哈夫曼算法压缩过的文件中,存储着哈夫曼编码信息和压缩过的数据



下面,对AAAAAABBCDDEEEEEF 中的A - F的字符,按照 出现频率高的字符用尽量少的位数编码来表示 这一原则进行整理。按照出现频率从高到低的顺序整理后,结果如下,同时也列出了编码方案:


字符 出现频率 编码(方案) 位数
A 6 0 1
E 5 1 1
B 2 10 2
D 2 11 2
C 1 100 3
F 1 101 3


在上表编码方案中,随着出现频率的降低,字符编码信息的数据位数逐渐增加,从最开始的1位、2位一次增加到3位。不过这个编码体系是存在问题的,你不知道100这个3位的编码,它的意思是用1、0、0这三个编码来表示E、A、A呢?还是用10、0来表示B、A呢?还是用100来表示C呢?


而在哈夫曼算法中,通过借助哈夫曼树的构造编码体系,即使在不使用字符区分符号的情况下,也可以构建能够进行区分的编码体系。不过哈夫曼树的算法要比较复杂,下面式一个哈夫曼树的构造构成


自然界树的从根开始生叶,而哈夫曼树则是叶生枝



二、哈夫曼树能够提升压缩比率


使用哈夫曼树之后,出现频率越高的数据所占用的位数越少,这也是哈夫曼树的核心思想。通过上图的步骤二可以看出,枝条连接数据时,我们是从出现频率较低的数据开始的。这就意味着出现频率低的数据到达根部的枝条也越多。而枝条越多则意味着编码的位数随之增加


接下来我们来看哈夫曼树的压缩比率,用上图得到的数据表示AAAAAABBCDDEEEEEF


000000000000 100100 110 101101 0101010101 111,40位 = 5字节。压缩前的数据是17字节,压缩后的数据达到了惊人的5字节,也就是压缩比率 = 5 /17 = 29%,达到了如此高的压缩率


可以参考一下,无论哪种类型的数据,都可以用哈夫曼树作为压缩算法:


文件类型 压缩前 压缩后 压缩比率
文本文件 14862字节 4119字节 28%
图像文件 96062字节 9456字节 10%
EXE文件 24576字节 4652字节 19%


三、可逆压缩和非可逆压缩


图像文件的使用目的通常是把图像数据传输到显示器、打印机等设备上。常用的图像格式有:BMP、JPEG、TIFF、GIF格式等


BMP:是使用Windows自带的画笔来做成的一种图像形式


JPEG:是数码相机等常用的一种图像数据形式


TIFF:是一种通过在文件中包含"标签"就能够快速显示出数据形式的图像形式


GIF:是由美国开发的一种数据形式,要求色数不超过256个


图像文件可以使用RLE算法和哈夫曼算法,因为图像文件在多数情况下并不要求数据需要还原得到压缩之前一模一样的状态,允许丢失一部分数据。我们把能还原到压缩前状态的压缩称为 可逆压缩 ,无法还原到压缩前状态的压缩称为 非可逆压缩



一般来说,JPEG格式的文件是非可逆压缩,因此还原后有部分图像信息比较模糊。GIF是可逆压缩

目录
相关文章
|
22天前
|
存储 人工智能 自然语言处理
Delta-CoMe:清华联合OpenBMB等高校开源的新型增量压缩算法
Delta-CoMe是由清华大学NLP实验室联合OpenBMB开源社区、北京大学和上海财经大学提出的新型增量压缩算法。该算法通过结合低秩分解和低比特量化技术,显著减少了大型语言模型的存储和内存需求,同时保持了模型性能几乎无损。Delta-CoMe特别适用于处理数学、代码和多模态等复杂任务,并在推理速度上有所提升。
56 6
Delta-CoMe:清华联合OpenBMB等高校开源的新型增量压缩算法
|
1月前
|
算法
分享一些提高二叉树遍历算法效率的代码示例
这只是简单的示例代码,实际应用中可能还需要根据具体需求进行更多的优化和处理。你可以根据自己的需求对代码进行修改和扩展。
|
1月前
|
存储 缓存 算法
如何提高二叉树遍历算法的效率?
选择合适的遍历算法,如按层次遍历树时使用广度优先搜索(BFS),中序遍历二叉搜索树以获得有序序列。优化数据结构,如使用线索二叉树减少空指针判断,自定义节点类增加辅助信息。利用递归与非递归的特点,避免栈溢出问题。多线程并行遍历提高速度,注意线程安全。缓存中间结果,避免重复计算。预先计算并存储信息,提高遍历效率。综合运用这些方法,提高二叉树遍历算法的效率。
60 5
|
1月前
|
机器学习/深度学习 JSON 算法
二叉树遍历算法的应用场景有哪些?
【10月更文挑战第29天】二叉树遍历算法作为一种基础而重要的算法,在许多领域都有着不可或缺的应用,它为解决各种复杂的问题提供了有效的手段和思路。随着计算机科学的不断发展,二叉树遍历算法也在不断地被优化和扩展,以适应新的应用场景和需求。
45 0
|
2月前
|
存储 算法 关系型数据库
数据结构与算法学习二一:多路查找树、二叉树与B树、2-3树、B+树、B*树。(本章为了解基本知识即可,不做代码学习)
这篇文章主要介绍了多路查找树的基本概念,包括二叉树的局限性、多叉树的优化、B树及其变体(如2-3树、B+树、B*树)的特点和应用,旨在帮助读者理解这些数据结构在文件系统和数据库系统中的重要性和效率。
32 0
数据结构与算法学习二一:多路查找树、二叉树与B树、2-3树、B+树、B*树。(本章为了解基本知识即可,不做代码学习)
|
2月前
|
存储 算法 搜索推荐
数据结构与算法学习十七:顺序储存二叉树、线索化二叉树
这篇文章主要介绍了顺序存储二叉树和线索化二叉树的概念、特点、实现方式以及应用场景。
37 0
数据结构与算法学习十七:顺序储存二叉树、线索化二叉树
|
2月前
|
存储 算法
【二叉树】—— 算法题
【二叉树】—— 算法题
【二叉树】—— 算法题
|
1月前
|
存储 JSON 算法
TDengine 检测数据最佳压缩算法工具,助你一键找出最优压缩方案
在使用 TDengine 存储时序数据时,压缩数据以节省磁盘空间是至关重要的。TDengine 支持用户根据自身数据特性灵活指定压缩算法,从而实现更高效的存储。然而,如何选择最合适的压缩算法,才能最大限度地降低存储开销?为了解决这一问题,我们特别推出了一个实用工具,帮助用户快速判断并选择最适合其数据特征的压缩算法。
55 0
|
2月前
|
存储 算法
数据结构与算法学习十六:树的知识、二叉树、二叉树的遍历(前序、中序、后序、层次)、二叉树的查找(前序、中序、后序、层次)、二叉树的删除
这篇文章主要介绍了树和二叉树的基础知识,包括树的存储方式、二叉树的定义、遍历方法(前序、中序、后序、层次遍历),以及二叉树的查找和删除操作。
32 0
|
4月前
|
算法
【初阶数据结构篇】二叉树算法题
二叉树是否对称,即左右子树是否对称.
34 0