[MySQL 学习] zlib库相关结构和函数

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介:

以下主要是阅读zlib库时,对库函数的注释的翻译,也是为了帮助理解zlib在innodb压缩表中的应用

这里只考虑了Innodb用到的函数,其他的具体参考zlib.h文件,里面的注释写的非常详细

————————-

1.主要用到的结构体是z_stream,定义在文件zlib/zlib.h中,我们需要去定义的字段包括
Bytef    *next_in 输入的源字符串
uInt     avail_in 输入源字符串长度,当avail_in下降到0时,必须更新next_in和avail_in
Bytef    *next_out 输出字符串
uInt     avail_out 在next_out中的可用空闲空间,当avail_out下降到0时,必须更新next_out
alloc_func zalloc
内存分配函数,Innodb里对应的函数指针是page_zip_zalloc
如不指定需要设置为NULL
free_func  zfree 内存释放函数,Innodb里对应函数指针为page_zip_free
如不指定需要设置为NULL
voidpf     opaque 会被作为参数传递给zalloc和zfree,在innodb里使用的是mem_heap.

2.压缩函数(只涉及到Innodb中的调用)
a.deflateInit2(strm, level, method, windowBits, memLevel, strategy)
参数
@1, z_stream对象
@2,压缩级别
@3,值为Z_DEFLATED,当前唯一的defalte压缩方法,用于以后扩展
@4,窗口比特数,范围在8~15,更大的值意味着消耗更多的内存来获得更好的压缩效果,如果使用deflateInit来初始化的话默认值为15
windowBits也可以在-8~-15间赋值,用于raw deflate(不理解?),这时候使用-windowsBits来决定窗口大小,deflate()会生成raw deflate data,没有zlib头和尾,并且也不会去调用adler32
当使用gzlib编码时,windowsbits也可以设置为大于15,但跟zlib的文件格式会有很大的不同。
在Innodb中值为UNIV_PAGE_SIZE_SHIFT,值为14(如果Page Size为默认16K的话)
@5,memlevel用于指定分配多少内存用于内部的压缩状态,值为1将使用最小的内存但更慢并降低压缩比;memlevel值为9时,会使用最大内存来获得最快的速度。默认值为8,在Innodb里使用的值为MAX_MEM_LEVEL,deflate需要的内存为:
(1 << (windowBits+2)) +  (1 << (memLevel+9))
@6,用于调整压缩算法
包括以下值:
Z_DEFAULT_STRATEGY, 用于普通数据
Z_FILTERED,用于由filter(或者称为predictor)生成的数据.过滤的数据包含很多小的随机数据。这种情况下,压缩算法能够获得更好的压缩效果。该选项可以强制更多的哈夫曼编码和更少的字符匹配。有时候可以作为Z_DEFAULT_STRATEGY和Z_HUFFMAN_ONLY的折衷。
Z_HUFFMAN_ONLY,用于强制哈夫曼编码(不做字符匹配)
Z_RLE,限制匹配长度为1(run-length encoding),用于设计的和Z_HUFFMAN_ONLY一样快速,但对PNG图片类型会获得很好的压缩效果
Z_FIXED,阻止使用动态哈夫曼编码,从而允许获得更简单的解码
strategy参数只影响压缩比,而不会影响到压缩输出的正确性,因此没有正确的设置也不要紧。

b.deflate(strm, flush)
deflate尽可能的进行数据压缩,如果输入缓存变空或者输出缓冲变慢了才会停止。除了需要强制刷新,可能会引入一些延迟(读取输入数据,而不产生输出)
-从next_in开始压缩更多的数据,并更新相应的next_in和avail_in。如果无法处理所有的输入(因为在输出缓存中没有足够的空间),next_in和avail_in会在当前点更新并在下次调用delfate时从当前点重新开始。
-从next_out开始产生更多的输出,并更新相应的next_out和avail_out。当flush参数为非0值时,上述行为会被强制执行,强制频繁的刷新会降低压缩比,所以该参数应该只在需要的时候才去设置它(例如交互式应用)。即使没有设置flush,也需要提供一些输出。
在调用deflate函数之前,应用需要确定以上至少有一个行为是可行的(通过提供更多的输入或消费更多的输出,并更新相应的avail_in活avail_out)。在调用deflate前,avail_out不可为空。应用能够在需要时候消费压缩数据输出,例如,在输出缓冲满时(avail_out==0),或者每次调用deflate函数之后。如果deflate返回值为Z_OK并且avail_out值为0,在清空输出缓冲后,需要再次调用deflate,因为有可能还有更多未完成的数据。

通常情况下, flush参数被设置为Z_NO_FLUSH,这允许deflate来决定在产生输出前积攒多少数据,以获得更好的压缩效果。

当flush被设置为:
Z_SYNC_FLUSH,所有pending的输出被刷新到输出缓冲,以字节边界对齐,这样解压器能够获得当前所有可用的输入数据。(特别是如果有足够的输出缓冲,在调用函数后,avail_in值为0)。flush操作可能会降低压缩效果,所以应该只在需要使用。在完成当前delfate块后,随后是一个空的存储块,在下个字节里有3个bit的留白,随后是4个字节(00 00 FF FF)

Z_PARTIAL_FLUSH,所有pending的输出被刷新到输出缓冲,但不以一个字节边界对齐,当设置为该值时,所有当前的输入数据对解压器而言是可用的。这确保了足够的字节按序输出给解压器,以在空的固定代码块之前完成block

Z_BLOCK,如果一个deflate块结束并提交,但输出不做对其,并且当前块最多保留7个Bits,在下一次deflate块完成后作为next byte写入。这种情况下,解压器可能无法提供足够的bit去完成数据解压以提供给压缩器。这需要下一个block提交后才能完成。

Z_FULL_FLUSH,所有的输出都被刷新,所有的压缩状态也被重置。这样如果当前压缩数据损坏或者需要随机访问时,解压操作可以从这个点重新开始。太频繁的使用Z_FULL_FLUSH会验证的降低压缩性。

如果deflate返回并且avail_out值为0,该函数必须再次使用相同的flush参数调用,并预留足够的输出空间,直到flush完成(defalte返回非0的avail_out)。当使用Z_FULL_FLUSH或Z_SYNC_FLUSH时,确保avail_out大于6以避免重复的flush标记。

Z_FINISH,pending的输入被执行,pengding的输出被刷新,如果有足够的输出空间时,deflate返回值为Z_STREAM_END。如果deflate返回Z_OK,该函数必须再次调用一次。在返回Z_STREAM_END之后,唯一可以进行的操作就是deflateReset或者deflateEnd。 如果所有的压缩可以在单独一步完成时,Z_FINISH可以在defalteinit后立即使用。这种情况下,avail_out的值最少为deflateBound返回的值。这样deflate才能确保返回Z_STREAM_END。

deflate()会在strm->adler上设置当前所有输入的adler32 checksum值;另外也可能更新strm->data_type值(如果能够猜测输入数据的类型,Z_BINARY或者Z_TEXT)。

c. deflateEnd (strm)
所有动态分配的数据结构都被释放掉,并抛弃所有未完成的输入,也不会刷新任何pending的输出。
成功时返回Z_OK,失败时返回Z_STREAM_ERROR

d.inflateInit2(strm, windowBits)
用于初始化解压z_streamp
跟deflateInit2类似,在调用该函数之前,同样需要先初始化next_in, avail_in, zalloc, zfree 以及 opaque
注意解压时提供的windowBits不能比压缩时的windowBits大,否则在解压时inflate会返回错误Z_DATA_ERROR。

e.inflate(strm, flush)
inflate与deflate相反,根据strm尽可能的解压数据。
flush参数可以是Z_NO_FLUSH, Z_SYNC_FLUSH, Z_FINISH,Z_BLOCK, 或者 Z_TREES。Z_SYNC_FLUSH要求infalte尽可能的刷新到输出缓冲。Z_BLOCK要求在获取下一个deflate 块的边界inflate需要停止。当解码zlib或gzip格式时,这会导致infalte在压缩数据头部和在第一个block之前会立刻返回。

Z_BLOCK选项有助于在append或组合defalte stream是。inflate在返回时会设置strm->data_type为从strm->next_in中最后一个字节中未使用的Bit数字。如果inflate正在解码最后一个block,值为64;如果在解码end-of-block code或者解码完整的头部

Z_TREES行为和Z_BLOCK类似,但它也会在每次到达一个deflate块头的尾部,在该块上任何实际需要解码的数据之前返回。这允许调用者决定deflate块头的长度,用于随后在一个deflate块中的随机访问。当到达deflate块头尾部时,inflate返回,并设置strm->data_type值为256.

infalte()应该被反复调用,直到其返回值为Z_STREAM_END或者返回一个错误。然而,如果所有的压缩操作可以单独一个步骤来完成(只调用一次inflate),flush应该被设置为Z_FINISH。这种情况下,所有pending的输入被处理,所有pending的输出被刷新;avail_out必须足够大,来存储解压数据。Z_FINISH也许不是必须的,但他可以用来告诉inflate去使用更快的方法来完成一次inflate调用。Z_FINISH也告诉inflate如果stream完成了,无需维护一个滑动窗口,这减少了inflate的内存占用。如果stream没有完成,或者由于没有提供全部的stream,或者没有提供足够的输出空间,就会分配一个滑动窗口,inflate可以被再次调用去完成操作(就像使用Z_NO_FLUSH那样)

f.inflateEnd(strm)
释放所有动态分配的内存

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
全面了解阿里云能为你做什么
阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程,来了解阿里云能够为你的业务带来哪些帮助 &nbsp; &nbsp; 相关的阿里云产品:云服务器ECS 云服务器 ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,助您降低 IT 成本,提升运维效率,使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs
相关文章
|
20天前
|
SQL 关系型数据库 MySQL
【MySQL基础篇】盘点MySQL常用四大类函数
本文介绍了MySQL中的四大类常用函数:字符串函数、数值函数、日期函数和流程函数。
【MySQL基础篇】盘点MySQL常用四大类函数
|
20天前
|
SQL 存储 关系型数据库
【MySQL基础篇】全面学习总结SQL语法、DataGrip安装教程
本文详细介绍了MySQL中的SQL语法,包括数据定义(DDL)、数据操作(DML)、数据查询(DQL)和数据控制(DCL)四个主要部分。内容涵盖了创建、修改和删除数据库、表以及表字段的操作,以及通过图形化工具DataGrip进行数据库管理和查询。此外,还讲解了数据的增、删、改、查操作,以及查询语句的条件、聚合函数、分组、排序和分页等知识点。
【MySQL基础篇】全面学习总结SQL语法、DataGrip安装教程
|
1月前
|
SQL 关系型数据库 MySQL
MySQL常见函数第二期,你都用过哪些呢 ?
本期介绍了20个常用的MySQL函数,涵盖日期处理(如CURDATE()、DATE_FORMAT())、数学运算(如ABS()、ROUND())、统计分析(如COUNT()、SUM())等,帮助提高SQL查询效率和数据处理能力。希望对大家的学习有所帮助。
66 7
|
1月前
|
关系型数据库 MySQL
MySQL常见函数第一期,你都用过哪些呢 ?
本期介绍10个常用的MySQL函数:字符串连接(CONCAT)、提取子字符串(SUBSTRING)、获取字符串长度(LENGTH)、转换大小写(UPPER、LOWER)、去除空格(TRIM)、替换字符串(REPLACE)、查找子字符串位置(INSTR)、带分隔符的字符串连接(CONCAT_WS)以及获取当前日期时间(NOW)。
67 8
|
1月前
|
数据采集 关系型数据库 MySQL
MySQL常用函数:IF、SUM等用法
本文介绍了MySQL中常用的IF、SUM等函数及其用法,通过具体示例展示了如何利用这些函数进行条件判断、数值计算以及复杂查询。同时,文章还提到了CASE WHEN语句和其他常用函数,如COUNT、AVG、MAX/MIN等,强调了它们在数据统计分析、数据清洗和报表生成中的重要性。
|
1月前
|
关系型数据库 MySQL 数据处理
【MySQL】函数
MySQL 提供了丰富的函数集,涵盖字符串处理、数值运算、日期时间操作和聚合计算等多个方面。这些函数在日常数据库操作中极为重要,通过合理使用这些函数,可以大大提高数据处理和查询的效率。用户还可以通过自定义函数,扩展 MySQL 的功能以满足特定需求。
58 3
|
2月前
|
关系型数据库 MySQL 数据处理
MySQL函数与约束
MySQL 提供了丰富的函数和强大的约束机制,用于数据处理和完整性维护。通过掌握这些工具,可以有效地管理和分析数据库中的数据,确保数据的一致性和准确性。无论是在日常数据查询中使用内置函数,还是在数据库设计中应用各种约束,都是确保数据库系统稳定、高效运行的关键。希望本文对您理解和应用 MySQL 函数与约束有所帮助。
40 1
|
2月前
|
关系型数据库 MySQL
mysql 5.7.x版本查看某张表、库的大小 思路方案说明
mysql 5.7.x版本查看某张表、库的大小 思路方案说明
82 5
|
2月前
|
SQL DataWorks 关系型数据库
阿里云 DataWorks 正式支持 SelectDB & Apache Doris 数据源,实现 MySQL 整库实时同步
阿里云数据库 SelectDB 版是阿里云与飞轮科技联合基于 Apache Doris 内核打造的现代化数据仓库,支持大规模实时数据上的极速查询分析。通过实时、统一、弹性、开放的核心能力,能够为企业提供高性价比、简单易用、安全稳定、低成本的实时大数据分析支持。SelectDB 具备世界领先的实时分析能力,能够实现秒级的数据实时导入与同步,在宽表、复杂多表关联、高并发点查等不同场景下,提供超越一众国际知名的同类产品的优秀性能,多次登顶 ClickBench 全球数据库分析性能排行榜。
|
2月前
|
关系型数据库 MySQL Serverless
MySQL函数
最常用的MySQL函数,包括聚合函数,字符串函数,日期时间函数,控制流函数等
43 1