【贪心算法经典应用】哈夫曼编码原理与算法详解 python

简介: 【贪心算法经典应用】哈夫曼编码原理与算法详解 python

作者介绍:10年大厂数据\经营分析经验,现任大厂数据部门负责人。

会一些的技术:数据分析、算法、SQL、大数据相关、python

欢迎加入社区:码上找工作

作者专栏每日更新:

LeetCode解锁1000题: 打怪升级之旅

python数据分析可视化:企业实战案例

备注说明:方便大家阅读,统一使用python,带必要注释,公众号 数据分析螺丝钉 一起打怪升级

哈夫曼编码是一种广泛使用的数据压缩方法,特别是在无损数据压缩领域。本文将详细介绍哈夫曼编码的原理、算法过程,以及如何使用贪心算法实现这一过程。通过这种方式,我们能有效地理解贪心算法在实际问题解决中的应用。

背景和理论基础

哈夫曼编码由David A. Huffman于1952年提出,它是一种利用字符频率来构造最优前缀码的算法。其核心思想是创建一个低成本的编码,用较短的代码表示频率高的字符,用较长的代码表示频率低的字符,从而实现数据的有效压缩。

  • 前缀码:任何字符的编码都不是其他字符编码的前缀,这消除了解码时的歧义性。
  • 贪心策略:在构造编码树时,总是选择两个最小频率的字符进行合并,这保证了最终的编码总成本(即编码的长度和频率的乘积)最小。

哈夫曼编码原理

考虑字符串 “aabacabad”,我们如何构建哈夫曼编码呢?

步骤 1: 统计频率

首先,计算字符串中每个字符的出现频率:

a: 5
b: 2
c: 1
d: 1

步骤 2: 初始化优先队列

对每个字符创建一个节点,并根据其频率放入优先队列(最小堆)中。每个节点是一个树的叶子节点。

初始队列(按频率排序):

节点     频率
---------------
[c:1]
[d:1]
[b:2]
[a:5]

步骤 3: 构建哈夫曼树

哈夫曼编码的目的是将常用字符编码为较短的码字,而不常用字符编码为较长的码字。字符的频率直接影响其在哈夫曼树中的位置:

  • 高频字符 被放在树的较高层(更靠近根节点),这样从根节点到这些字符的路径较短,因此产生的编码也较短。
  • 低频字符 被放在树的较低层(更远离根节点),这样路径较长,编码也较长。

这种策略使得编码的总长度(即编码长度乘以频率的总和)最小化,从而实现有效的压缩。

使用以下算法构建哈夫曼树,直到队列中只剩一个节点:

  • 合并两个最小频率的节点:从队列中取出两个最小的节点,合并为一个新节点,其频率是两个节点频率的和,这两个节点成为新节点的子节点。
  • 将新节点重新加入队列
第一次合并(合并 ‘c’ 和 ‘d’)
新节点: [cd],频率: 2
结构:
    [cd:2]
   /     \
[c:1]   [d:1]

队列更新为:

[b:2]
[cd:2]
[a:5]
第二次合并(合并 ‘b’ 和 ‘cd’)
新节点: [bcd],频率: 4
结构:
    [bcd:4]
   /      \
[b:2]    [cd:2]
        /    \
     [c:1]  [d:1]

队列更新为:

[bcd:4]
[a:5]
第三次合并(合并 ‘bcd’ 和 ‘a’)
新节点: [abcda],频率: 9 (这是根节点)
结构:
      [abcda:9]
     /        \
  [a:5]      [bcd:4]
            /      \
         [b:2]    [cd:2]
                 /    \
              [c:1]  [d:1]

队列清空,树构建完成。

步骤 4: 生成编码

在哈夫曼编码过程中,每个字符的编码由其在哈夫曼树中的位置决定,具体来说,是由从根节点到该字符对应叶子节点的路径决定。路径中左转表示“0”,右转表示“1”。

  • ‘a’ 的路径直接左转,因此编码为 “0”。
  • ‘b’ 的路径是向右转,然后左转,因此编码为 “10”。
  • ‘c’ 的路径是向右转,再向右转,然后左转,因此编码为 “110”。
  • ‘d’ 的路径是向右 转,再向右转,然后右转,因此编码为 “111”。

最终编码:

  1. a -> 1
  2. b -> 01
  3. c -> 001
  4. d -> 000

效率分析

首先,基于字符 “aabacabad”,我们确定字符频率及其对应的哈夫曼编码和固定长度编码:

字符 频率 哈夫曼编码 哈夫曼位数 固定编码 固定位数
a 5 1 1 00 2
b 2 01 2 01 2
c 1 001 3 10 2
d 1 000 3 11 2
计算总位数需求

下面,我们计算每种编码策略的总位数需求:

哈夫曼编码总位数
  • 对于 ‘a’:5个字符 ✖️ 1位/字符 = 5位
  • 对于 ‘b’:2个字符 ✖️2位/字符 = 4位
  • 对于 ‘c’:1个字符 ✖️3位/字符 = 3位
  • 对于 ‘d’:1个字符 ✖️3位/字符 = 3位

哈夫曼编码总位数 = 5 + 4 + 3 + 3 = 15位

固定长度编码总位数
  • 每个字符使用2位编码(固定)
  • 对于 ‘a’:5个字符 ✖️ 2位/字符 = 10位
  • 对于 ‘b’:2个字符 ✖️2位/字符 = 4位
  • 对于 ‘c’:1个字符 ✖️2位/字符 = 2位
  • 对于 ‘d’:1个字符 ✖️ 2位/字符 = 2位

固定编码总位数 = 10 + 4 + 2 + 2 = 18位

压缩效率比较表

最后,我们整理以上计算结果,形成一个压缩效率比较表:

编码类型 总位数 压缩效率
哈夫曼编码 15位
固定长度编码 18位

结论

从表中可见,哈夫曼编码通过对字符使用变长编码,使得频率高的字符使用更短的编码,有效减少了总编码长度。相比之下,固定长度编码不区分字符频率,导致其总位数使用较多,压缩效率较低。哈夫曼编码尤其在处理非均匀分布的大数据集时,能显著优化数据存储和传输效率。

通过这种方式,哈夫曼编码不仅提供了理论上的最优压缩方案,而且在实际应用中广泛用于多种数据压缩场景,包括网络数据传输和文件存储。

哈夫曼编码Python算法

这里使用贪心算法来构建哈夫曼树,它是哈夫曼编码核心过程中的一个主要部分。贪心算法在此过程中的应用体现在选择过程中 —— 每次从所有可用的节点中选择两个频率最低的节点来合并。这种方法是基于局部最优选择,目的是构建全局最优的哈夫曼树。

贪心策略

在构建哈夫曼树的过程中,我们按以下贪心策略操作:

  1. 选择最小元素:每次从节点集合(初始时为优先队列)中选取两个频率最小的节点。这是一种贪心选择,因为合并这两个节点可以保证后续构建的树的总权重增加最小。
  2. 合并操作:将这两个最小节点合并为一个新的节点,其频率是两个子节点频率之和。这个新节点随后会被重新加入到节点集合中参与后续的合并操作。
  3. 重复过程:重复上述过程,直到节点集合中只剩一个节点,这个节点就是哈夫曼树的根节点,代表了构建完成的哈夫曼树。

代码示例

import heapq
from collections import Counter, defaultdict
class HuffmanNode:
    def __init__(self, char, freq):
        self.char = char   # 存储字符
        self.freq = freq   # 存储频率
        self.left = None   # 左子树
        self.right = None  # 右子树
    # 定义比较操作,以支持优先队列中的节点排序
    def __lt__(self, other):
        return self.freq < other.freq
def build_huffman_tree(text):
    """构建哈夫曼树并返回根节点"""
    # 统计字符频率
    frequency = Counter(text)
    # 创建优先队列(最小堆)
    heap = [HuffmanNode(char, freq) for char, freq in frequency.items()]
    heapq.heapify(heap)
    # 当堆中节点数大于1时,执行合并操作
    while len(heap) > 1:
        left = heapq.heappop(heap)  # 取出频率最小的节点
        right = heapq.heappop(heap) # 取出频率第二小的节点
        merged = HuffmanNode(None, left.freq + right.freq)  # 创建新的内部节点
        merged.left = left
        merged.right = right
        heapq.heappush(heap, merged)  # 将新节点添加回堆中
    return heap[0]  # 堆中最后剩下的节点为根节点
def huffman_codes(node, prefix="", code={}):
    """生成哈夫曼编码表"""
    if node is not None:
        if node.char is not None:
            code[node.char] = prefix
        huffman_codes(node.left, prefix + "0", code)
        huffman_codes(node.right, prefix + "1", code)
    return code
def encode(text, code):
    """使用哈夫曼编码表来编码文本"""
    return ''.join(code[char] for char in text)
def main():
    text = "aabacabad"  # 示例文本
    root = build_huffman_tree(text)  # 构建哈夫曼树
    code = huffman_codes(root)  # 生成哈夫曼编码表
    encoded_text = encode(text, code)  # 编码文本
    print("原始文本:", text)
    print("字符频率:", Counter(text))
    print("哈夫曼编码表:", code)
    print("编码后的文本:", encoded_text)
if __name__ == "__main__":
    main()

代码说明

  1. HuffmanNode 类:定义了哈夫曼树的节点,包括字符、频率及其左右子节点。
  2. build_huffman_tree 函数:接收输入文本,统计字符频率,构建哈夫曼树,并返回根节点。
  3. huffman_codes 函数:从哈夫曼树的根节点开始,递归地为每个字符生成其对应的哈夫曼编码,并存储在字典中返回。
  4. encode 函数:使用生成的哈夫曼编码表将原始文本转换为编码字符串。
  5. main 函数:提供示例文本,调用上述函数

总结

哈夫曼编码通过贪心算法的应用,优化了编码长度,从而达到了数据压缩的目的。这种算法不仅在理论上具有优雅的数学基础,而且在实际应用中也非常有效,尤其是在文件压缩和通信系统中。理解哈夫曼编码的原理和实现不仅可以深化对贪心算法的理解,还可以扩展到其他需要数据压缩的应用场景中。


欢迎关注微信公众号 数据分析螺丝钉

相关文章
|
17小时前
|
开发者 Python
探索 Python 中的协程:从基本概念到实际应用
在现代编程中,异步处理变得越来越重要,Python 通过其内置的协程提供了强大的工具来简化这一过程。本文将深入探讨 Python 中的协程,从基本概念出发,逐步展示其实际应用,并通过具体代码示例帮助你掌握这种技术。
|
1天前
|
数据采集 数据可视化 大数据
Python在大数据处理中的应用实践
Python在大数据处理中扮演重要角色,借助`requests`和`BeautifulSoup`抓取数据,`pandas`进行清洗预处理,面对大规模数据时,`Dask`提供分布式处理能力,而`matplotlib`和`seaborn`则助力数据可视化。通过这些工具,数据工程师和科学家能高效地管理、分析和展示海量数据。
20 4
|
1天前
|
缓存 算法
基于机会网络编码(COPE)的卫星网络路由算法matlab仿真
**摘要:** 该程序实现了一个基于机会网络编码(COPE)的卫星网络路由算法,旨在提升无线网络的传输效率和吞吐量。在MATLAB2022a中测试,结果显示了不同数据流个数下的网络吞吐量。算法通过Dijkstra函数寻找路径,计算编码机会(Nab和Nx),并根据编码机会减少传输次数。当有编码机会时,中间节点执行编码和解码操作,优化传输路径。结果以图表形式展示,显示数据流与吞吐量的关系,并保存为`R0.mat`。COPE算法预测和利用编码机会,适应卫星网络的动态特性,提高数据传输的可靠性和效率。
|
1天前
|
机器学习/深度学习 数据采集 算法
KNN算法原理及应用(一)
**KNN算法**是一种监督学习的分类算法,适用于解决分类问题。它基于实例学习,无需训练过程,当新样本到来时,通过计算新样本与已有训练样本之间的距离,找到最近的K个邻居,然后根据邻居的类别进行多数表决(或加权表决)来预测新样本的类别。K值的选择、距离度量方式和分类决策规则是KNN的关键要素。KNN简单易懂,但计算复杂度随样本量增加而增加,适用于小规模数据集。在鸢尾花数据集等经典问题上表现良好,同时能处理多分类任务,并可应用于回归和数据预处理中的缺失值填充。
KNN算法原理及应用(一)
|
1天前
|
算法 索引
DFS算法及应用(二)
回溯:回溯就是DFS的一种,在搜索探索过程中寻找问题的解,当发现不满足求解条件时,就回溯返回,尝试其他路径。
|
1天前
|
算法
DFS算法及应用(一)
DFS(深度优先搜索)是一种图遍历算法,常用于解决穷举问题,如全排列、迷宫问题、图的连通性等。它沿着树的深度分支进行探索,直至达到叶子节点,若无法继续则回溯。例如,将数字6拆分为3个正整数的递增序列问题可以通过DFS实现,类似地,分糖果问题和买瓜问题同样可以用DFS求解。DFS通常涉及递归或栈结构,通过标记已访问节点避免重复。在编程中,会定义递归函数,设定结束条件,然后枚举可能的情况,并处理下一层节点。
|
1天前
|
算法
KNN算法原理及应用(二)
不能将所有数据集全部用于训练,为了能够评估模型的泛化能力,可以通过实验测试对学习器的泛化能力进行评估,进而做出选择。因此需要使用一个测试集来测试学习器对新样本的判别能力。
|
3天前
|
机器学习/深度学习 算法 数据可视化
m基于PSO-LSTM粒子群优化长短记忆网络的电力负荷数据预测算法matlab仿真
在MATLAB 2022a中,应用PSO优化的LSTM模型提升了电力负荷预测效果。优化前预测波动大,优化后预测更稳定。PSO借鉴群体智能,寻找LSTM超参数(如学习率、隐藏层大小)的最优组合,以最小化误差。LSTM通过门控机制处理序列数据。代码显示了模型训练、预测及误差可视化过程。经过优化,模型性能得到改善。
18 6
|
3天前
|
算法 调度
基于变异混合蛙跳算法的车间调度最优化matlab仿真,可以任意调整工件数和机器数,输出甘特图
**摘要:** 实现变异混合蛙跳算法的MATLAB2022a版车间调度优化程序,支持动态调整工件和机器数,输出甘特图。核心算法结合SFLA与变异策略,解决Job-Shop Scheduling Problem,最小化总完成时间。SFLA模拟蛙群行为,分组进行局部搜索和全局信息交换。变异策略增强全局探索,避免局部最优。程序初始化随机解,按规则更新,经多次迭代和信息交换后终止。
|
8天前
|
算法 JavaScript 决策智能
基于禁忌搜索算法的TSP路径规划matlab仿真
**摘要:** 使用禁忌搜索算法解决旅行商问题(TSP),在MATLAB2022a中实现路径规划,显示优化曲线与路线图。TSP寻找最短城市访问路径,算法通过避免局部最优,利用禁忌列表不断调整顺序。关键步骤包括初始路径选择、邻域搜索、解评估、选择及禁忌列表更新。过程示意图展示搜索效果。