你知道 Python 如何解压缩数据吗

简介: 你知道 Python 如何解压缩数据吗

楔子



当数据量大的时候,自然而然想到的就是对数据进行压缩,下面来看看 Python 如何压缩数据。这里主要介绍三个模块,分别是 zlib、bz2、gzip,它们都是内置的,直接导入即可,不需要额外安装。

那么下面就开始吧。


zlib 模块



看一下 zlib 模块的用法。

import zlib
original_data = b"komeiji satori is a cute girl"
print(len(original_data))
"""
29
"""
# 对数据进行压缩
compressed_data = zlib.compress(original_data)
print(len(compressed_data))
"""
37
"""
# 我们看到当数据量很小的时候,压缩之后反而会增大
# 对数据进行解压
print(
    zlib.decompress(compressed_data) == original_data
)
"""
True
"""

在压缩的时候还可以指定压缩级别:

import zlib
original_data = b"komeiji satori is a cute girl" * 1024
# 压缩级别 0 ~ 9,值越大,压缩级别越高,默认压缩级别为 6
for i in range(0, 10):
    compressed_data = zlib.compress(original_data, i)
    print(f"压缩前数据长度: {len(original_data)}, "
          f"压缩后数据长度: {len(compressed_data)}")
"""
压缩前数据长度: 29696, 压缩后数据长度: 29707
压缩前数据长度: 29696, 压缩后数据长度: 245
压缩前数据长度: 29696, 压缩后数据长度: 245
压缩前数据长度: 29696, 压缩后数据长度: 245
压缩前数据长度: 29696, 压缩后数据长度: 122
压缩前数据长度: 29696, 压缩后数据长度: 122
压缩前数据长度: 29696, 压缩后数据长度: 122
压缩前数据长度: 29696, 压缩后数据长度: 122
压缩前数据长度: 29696, 压缩后数据长度: 122
压缩前数据长度: 29696, 压缩后数据长度: 122
"""

压缩级别越高,速度越慢,但压缩之后的数据体积也越小。

如果你要压缩的数据过大,那么还可以采用增量压缩。

from io import BytesIO
import zlib
# 用 buffer 模拟大文件
original_data = b"komeiji satori is a cute girl" * 1024
buffer = BytesIO()
buffer.write(original_data)
buffer.seek(0)
# 创建压缩器,压缩等级为 5
compressor = zlib.compressobj(5)
# 每次读取 1024 字节,进行压缩
while (data := buffer.read(1024)) != b"":
    compressor.compress(data)
# 循环结束之后,压缩结束,调用 flush 方法拿到压缩数据
compressed_data = compressor.flush()
# 这里我们进行解压,然后对比一下,看看和原始数据是否相等
# 注意:zlib 压缩之后是有一个头部信息的,否则会认为数据不是 zlib 压缩格式
# 但是增量压缩会将头部信息给去掉,所以解压的时候还要手动加上
# 这个头部信息是 b"x\x9c",转成十六进制就是 "789c"
decompressed_data = zlib.decompress(b"x\x9c" + compressed_data)
print(original_data == decompressed_data) 
"""
True
"""

压缩数据还可以和原始数据混在一起,举个例子:

import zlib
original_data = b"komeiji satori is a cute girl" * 1024
compressed_data = zlib.compress(original_data)
combined_data = compressed_data + original_data
# 创建一个解压缩器
decompressor = zlib.decompressobj()
# 对 combined_data 进行解压,只会得到对 compressed_data 解压之后的数据
# 由于 zlib 会在压缩数据前面加上一个头部信息,所以 combined_data 要求必须是压缩数据在前
decompressed_data = decompressor.decompress(combined_data)
# 和原始数据是相等的
print(decompressed_data == original_data)
"""
True
"""
# 还可以拿到未解压的数据,显然也是原始数据
print(decompressor.unused_data == original_data)
"""
True
"""

当然,zlib 还支持验证数据完整性。

import zlib
original_data = b"komeiji satori is a cute girl" * 1024
# 计算 Adler-32 校验和
print(zlib.adler32(original_data))
"""
4170046071
"""
# 计算 CRC-32 校验和
print(zlib.crc32(original_data))
"""
2627291461
"""

以上就是 zlib 模块的用法。


bz2 模块



bz2 模块和 zlib 的用法非常类似:

import bz2
original_data = b"komeiji satori is a cute girl" * 1024
# 也可以指定压缩等级,范围 1 ~ 9,注意:zlib 是 0 ~ 9
compressed_data = bz2.compress(original_data, 5)
print(len(original_data))
"""
29696
"""
print(len(compressed_data))
"""
103
"""
print(bz2.decompress(compressed_data) == original_data)
"""
True
"""

也可以增量压缩:

from io import BytesIO
import bz2
original_data = b"komeiji satori is a cute girl" * 1024
buffer = BytesIO()
buffer.write(original_data)
buffer.seek(0)
# 创建压缩器,压缩等级为 5
compressor = bz2.BZ2Compressor(5)
while (data := buffer.read(1024)) != b"":
    compressor.compress(data)
compressed_data = compressor.flush()
# 这里不需要额外补充头部信息
decompressed_data = bz2.decompress(compressed_data)
print(original_data == decompressed_data)
"""
True
"""

也可以同时包含压缩数据和未压缩数据:

import bz2
original_data = b"komeiji satori is a cute girl" * 1024
compressed_data = bz2.compress(original_data)
combined_data = compressed_data + original_data
# 创建一个解压缩器
decompressor = bz2.BZ2Decompressor()
decompressed_data = decompressor.decompress(combined_data)
# 和原始数据是相等的
print(decompressed_data == original_data)  # True
# 还可以拿到未解压的数据,显然也是原始数据
print(decompressor.unused_data == original_data)  # True
# 同样要求压缩数据在前

相比 zlib,bz2 还可以读写文件:

import os
import bz2
original_data = b"komeiji satori is a cute girl" * 1024
# 写入文件
with bz2.open("1.bz2", "wb", compresslevel=9) as f:
    f.write(original_data)
# 读取文件,判断两者是否相等
with bz2.open("1.bz2", "rb", compresslevel=9) as f:
    print(f.read() == original_data)  # True
os.unlink("1.bz2")

当然我们使用内置函数 open 打开文件,然后手动写入压缩数据或者读取数据再手动解压,也是可以的。


gzip 模块



首先 gzip 只有全量压缩,没有增量压缩。

import gzip
original_data = b"komeiji satori is a cute girl" * 1024
# 也可以指定压缩等级,范围 0 ~ 9
compressed_data = gzip.compress(original_data, 5)
print(len(original_data)) 
"""
29696
"""
print(len(compressed_data)) 
"""
134
"""
print(gzip.decompress(compressed_data) == original_data)  
"""
True
"""

还可以调用 gzip.open 函数:

import os
import gzip
original_data = b"komeiji satori is a cute girl" * 1024
# 写入文件
with gzip.open("1.gz", "wb", compresslevel=9) as f:
    f.write(original_data)
# 读取文件,判断两者是否相等
with gzip.open("1.gz", "rb", compresslevel=9) as f:
    print(f.read() == original_data)  #
    """
    True
    """
os.unlink("1.gz")


小结



以上就是 Python 压缩数据所使用的三个模块,之间是比较相似的。另外再补充一点,一般将数据压缩之后,会转成 16 进制进行传输,举个例子:

import binascii
import gzip
original_data = b"komeiji satori"
compressed_data = gzip.compress(original_data, 5)
# 转成 16 进制
hex_data = binascii.hexlify(compressed_data)
print(
    binascii.unhexlify(hex_data) == compressed_data
)  # True

还是比较简单的。

相关文章
|
1月前
|
数据采集 Web App开发 数据可视化
Python零基础爬取东方财富网股票行情数据指南
东方财富网数据稳定、反爬宽松,适合爬虫入门。本文详解使用Python抓取股票行情数据,涵盖请求发送、HTML解析、动态加载处理、代理IP切换及数据可视化,助你快速掌握金融数据爬取技能。
932 1
|
1月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
315 0
|
1月前
|
JSON 算法 API
Python采集淘宝商品评论API接口及JSON数据返回全程指南
Python采集淘宝商品评论API接口及JSON数据返回全程指南
|
1月前
|
JSON API 数据安全/隐私保护
Python采集淘宝拍立淘按图搜索API接口及JSON数据返回全流程指南
通过以上流程,可实现淘宝拍立淘按图搜索的完整调用链路,并获取结构化的JSON商品数据,支撑电商比价、智能推荐等业务场景。
|
3月前
|
机器学习/深度学习 新能源 调度
电力系统短期负荷预测(Python代码+数据+详细文章讲解)
电力系统短期负荷预测(Python代码+数据+详细文章讲解)
295 1
|
3月前
|
缓存 API 网络架构
淘宝item_search_similar - 搜索相似的商品API接口,用python返回数据
淘宝联盟开放平台中,可通过“物料优选接口”(taobao.tbk.dg.optimus.material)实现“搜索相似商品”功能。该接口支持根据商品 ID 获取相似推荐商品,并返回商品信息、价格、优惠等数据,适用于商品推荐、比价等场景。本文提供基于 Python 的实现示例,包含接口调用、数据解析及结果展示。使用时需配置淘宝联盟的 appkey、appsecret 和 adzone_id,并注意接口调用频率限制和使用规范。
|
2月前
|
存储 监控 API
Python实战:跨平台电商数据聚合系统的技术实现
本文介绍如何通过标准化API调用协议,实现淘宝、京东、拼多多等电商平台的商品数据自动化采集、清洗与存储。内容涵盖技术架构设计、Python代码示例及高阶应用(如价格监控系统),提供可直接落地的技术方案,帮助开发者解决多平台数据同步难题。
|
2月前
|
存储 JSON 算法
Python集合:高效处理无序唯一数据的利器
Python集合是一种高效的数据结构,具备自动去重、快速成员检测和无序性等特点,适用于数据去重、集合运算和性能优化等场景。本文通过实例详解其用法与技巧。
126 0
|
4月前
|
存储 Web App开发 前端开发
Python + Requests库爬取动态Ajax分页数据
Python + Requests库爬取动态Ajax分页数据
|
4月前
|
JSON API 数据格式
Python采集京东商品评论API接口示例,json数据返回
下面是一个使用Python采集京东商品评论的完整示例,包括API请求、JSON数据解析

推荐镜像

更多