六月的雨在钉钉

从事java行业8年至今，热爱技术，热爱以博文记录日常工作，csdn博主，座右铭是：让技术不再枯燥，让每一位技术人爱上技术

Flink操作hudi压缩提供4种触发策略，可通过hoodie.compact.inline.trigger.strategy / compaction.trigger.strategy进行配置：

NUM_COMMITS：达到N次commit时触发压缩，默认的触发策略，默认值为5次，通过hoodie.compact.inline.max.delta.commits / compaction.delta_commits配置 TIME_ELAPSED：自上次压缩以来经过的时间 > N 秒时触发压缩，通过hoodie.compact.inline.max.delta.seconds / compaction.delta_seconds配置 NUM_AND_TIME：NUM_COMMITS和TIME_ELAPSED同时满足时触发压缩 NUM_OR_TIME：NUM_COMMITS或TIME_ELAPSED同时满足时触发压缩

2023-05-06 19:05:42

赞同展开评论打赏

wljslmz

公众号：网络技术联盟站，InfoQ签约作者，阿里云社区签约作者，华为云云享专家，BOSS直聘创作王者，腾讯课堂创作领航员，博客+论坛：https://www.wljslmz.cn，工程师导航：https://www.wljslmz.com

在使用 Flink 写入 Hudi，并进行离线压缩时，可以采用以下两种策略：

基于时间的分区压缩

基于时间的分区压缩策略是指，将数据按照时间进行划分，每个分区存储一段时间范围内的数据，并按照一定的时间间隔进行压缩。例如，在每天零点将前一天的数据进行压缩。

这种策略的优点是实现简单，可以根据数据的时间特征进行有效的分区压缩，适用于数据量比较大的场景。缺点是可能会出现数据分布不均匀的情况，部分分区数据过大，造成压缩时间过长的问题。

基于数据量的分区压缩

基于数据量的分区压缩策略是指，将数据按照一定的数据量进行分区，每个分区存储一定数量的数据量，并按照一定的数据量间隔进行压缩。例如，在数据量达到一定数量时将分区内的数据进行压缩。

这种策略的优点是能够有效避免数据的分布不均匀问题，可以保证每个分区的数据量相对均衡。但是缺点是需要根据数据量大小设置分区大小和压缩时间间隔，可能会增加实现的复杂度。

根据实际情况选择相应的离线压缩策略，在实现过程中要注意数据分布的情况，避免数据倾斜和过大的分区压缩时间。

2023-05-05 21:05:08

赞同展开评论打赏

冲冲冲冲

Hudi 提供了多种不同类型的压缩策略，你可以根据你的需求和数据特征选择适合的压缩策略。下面是一些常见的压缩策略及其适用场景：

BLOOM：基于布隆过滤器的压缩，适用于更新较少的场景。
SNAPPY：基于 Snappy 压缩算法的压缩，适用于更新较多的场景。
ZLIB：基于 Zlib 压缩算法的压缩，适用于需要高压缩比的场景。
GZIP：基于 Gzip 压缩算法的压缩，适用于需要高压缩比的场景。

你可以根据实际需求选择不同的策略。同时要注意的是，压缩策略所带来的压缩率可能并不是线性的，需要根据具体数据场景做出测试来确定最佳的压缩策略。

2023-05-05 17:49:02

赞同展开评论打赏

穿过生命散发芬芳

在Flink中使用Hudi进行离线压缩时，可以选择以下几种策略：

1、时间戳策略：在每个时间段（如每天或每周）结束时，将该时间段内所有数据进行压缩。这种策略适合处理数据量较大的情况，可以减少数据读取和写入的次数。

2、分区策略：将数据按照分区进行压缩，可以在数据量较大的情况下提高压缩效率。同时，还可以根据数据的更新频率和查询频率进行合理的分区设计，提高数据的查询效率。

3、批处理策略：在数据量较小的情况下，可以选择将所有数据都进行压缩，以减少数据存储和管理的成本。

4、组合策略：可以将以上策略进行组合，根据具体业务需求和数据特征进行选择，以达到最佳的压缩效果和查询性能。

2023-05-03 07:50:19

赞同展开评论打赏

Kinging

使用Hudi的Compaction Strategy功能来进行离线压缩。

根据数据情况，可以选择以下三种Compaction Strategy：

LazyCompaction：在Hudi表写入过程中，会保留多个版本的数据，Compaction会将所有旧版本合并到最新版本上。这种策略适合针对更新频率不高的数据。它在compaction过程中，不会将数据写入一临时文件，并且复制所有的数据段，以确保不会丢失任何数据。
BoundedCompaction：对表按照时间和大小进行分组，并将每个组合并到新文件中。这种策略适用于数据集均衡的情况。它会将数据写入单独的临时文件，一旦Compaction完成，它会将新的数据集移动到Hudi表目录中。
TimedCompaction：在固定时间间隔或者周期性地执行Compaction。这种策略适用于处理时序数据，因为在数据更新后需要更新数据的时间戳。它会将数据写入一个临时文件，并在完成Compaction之后删除旧文件。

2023-04-28 21:50:25

赞同展开评论打赏

魏红斌

天下风云出我辈，一入江湖岁月催，皇图霸业谈笑中，不胜人生一场醉。

时间戳 + 删除记录
根据时间戳来划分数据集，例如按天、按周等，将过期的数据标记为删除，并进行离线合并。这种方法比较简单易行，但是需要扫描整个数据集，并且会产生大量的删除操作。

对齐索引 + 插入与删除记录
根据 Hudi 内部维护的基于时间的索引，按照块、文件或者分区等单位进行划分，并将过期的数据进行标记或者删除操作。这种方法需要更多的计算和索引维护，但是可以减少删除操作的数量，提高数据合并的效率。

预聚合 + 小文件合并
对数据进行预聚合，例如按照时间段进行统计并存储到小文件中，然后再将每个小文件与之前生成的文件进行合并。这种方法可以减少数据的扫描和删除操作，但是需要进行更多的聚合计算以及文件的管理和合并。

2023-04-27 09:52:05

赞同展开评论打赏

ReaganYoung

值得去的地方都没有捷径

Hudi 支持多种离线压缩策略，可以根据您的具体需求选择适合您的策略。以下是一些常见的离线压缩策略：

基于时间的压缩策略：将数据按时间进行分区，定期删除旧数据并进行压缩，以减少存储空间。

基于大小的压缩策略：将数据按大小进行分区，当数据达到一定大小时，进行压缩。这种策略可以帮助减少存储空间，但可能会增加处理时间。

基于数据类型的压缩策略：将不同类型的数据分别进行压缩，以减少存储空间和提高处理效率。

对于 Flink 写 Hudi 离线压缩，您可以根据您的数据特点和存储需求选择合适的压缩策略。同时，您还可以考虑使用多种压缩策略的组合，以达到更好的效果。例如，结合时间和大小的压缩策略，或者结合数据类型和大小的压缩策略。

2023-04-26 18:02:58

赞同展开评论打赏

安然AR

在使用 Flink 写入 Hudi 时，通常需要考虑离线数据压缩的策略。Hudi 提供了两种主要的压缩策略：时间线压缩（Timeline Compaction）和增量压缩（Incremental Compaction）。

时间线压缩时间线压缩是一种将多个版本的 Hudi 文件合并成一个新文件的策略。它基于每个文件的更新时间戳，在每个时间段内选择一个最新的版本，并将其与之前的所有版本合并到一个新文件中。

时间线压缩适用于以下情况：

数据集更新频率低：如果您的数据集只会定期更新，例如每天或每周，那么时间线压缩可能是一种合适的策略。数据集存储空间较大：如果您的数据集很大，且占用了大量的存储空间，那么时间线压缩可以帮助您减少存储开销。增量压缩增量压缩是一种在单个 Hudi 文件中压缩多个版本的策略。它基于文件大小、记录数量等指标，动态地选择最佳的压缩点，将过时的版本进行清理，并将新版本添加到文件中。

增量压缩适用于以下情况：

数据集更新频率高：如果您的数据集频繁更新，例如每小时或每分钟，那么增量压缩可能是一种更好的选择。性能要求高：如果您需要实时处理大量数据，并且需要快速地将新数据写入到 Hudi 文件中，那么增量压缩可以帮助您提高性能和吞吐量。需要注意的是，时间线压缩和增量压缩都有其优点和局限性。在选择压缩策略时，需要根据实际情况进行评估和测试，并选择最适合的策略。同时，还需要遵循相关的编程规范和最佳实践，以提高任务的性能和可维护性。

2023-04-26 12:25:50

赞同展开评论打赏

爱吃白菜的GGB

在使用 Flink 写 Hudi 离线压缩时，可以考虑以下几种策略：

时间戳压缩：根据数据的时间戳信息，将相邻的数据记录按照时间进行合并，从而减少冗余数据。这种方式适用于数据更新比较频繁的场景。
分区压缩：将多个分区中相同的记录进行合并，从而减少重复数据，同时可以将数据分布更均匀，提高查询效率。这种方式适用于数据分布比较不均匀的场景。
字段压缩：将相同的字段值合并成一个值，从而减少重复数据。这种方式适用于字段值相同的记录比较多的场景。
压缩文件合并：将多个小文件合并成一个大文件，从而减少文件数量，提高查询效率。这种方式适用于文件数量比较多的场景。

在选择压缩策略时，需要根据实际场景进行选择，综合考虑数据更新频率、数据分布情况、字段值分布情况、文件数量等因素，并进行实验验证，以确保选择的策略可以满足业务需求，并且能够提高查询效率。

2023-04-25 08:22:41

赞同展开评论打赏

三掌柜666

十分耕耘，一定会有一分收获！

楼主你好，在默认情况下，MERGE_ON_READ表的压缩是启用的，触发器策略是在完成五次提交后执行压缩，原因是因为压缩会消耗大量内存，并且与写操作处于相同的管道中，所以当数据量很大(>100000 /秒)时，很容易干扰写操作。所以使用离线压缩能够更稳定地执行压缩任务，即离线压缩采用触发器策略。

2023-04-24 21:24:30

赞同展开评论打赏

叶秋学长

全栈JAVA领域创作者

Hudi提供了三种压缩策略：时间、大小和记录数。在使用Flink写入Hudi的过程中，可以根据具体场景选择不同的压缩策略。

时间压缩时间压缩策略是基于时间的，它将数据按照时间分成小的数据块，并将每个数据块写入一个文件。当数据块中的数据达到指定的时间范围时，Hudi会将这些数据块压缩成一个更小的文件。这个策略适用于更新频率不高的数据集。

大小压缩大小压缩策略是基于文件大小的。当文件大小达到指定大小时，Hudi会将文件压缩成一个更小的文件。这个策略适用于更新频率较高的数据集。

记录数压缩记录数压缩策略是基于记录数的。当记录数达到指定的数量时，Hudi会将记录压缩成一个更小的文件。这个策略适用于数据集更新频率较低，但每个文件中的数据比较小的情况。

可以根据具体场景选择适合的压缩策略，也可以根据需要结合使用多种压缩策略。例如，可以将时间压缩和大小压缩结合使用，以达到更好的压缩效果。

2023-04-24 08:03:42

赞同展开评论打赏

祁符建

热爱开发

在阿里云Flink中使用Hudi进行离线压缩，可以选择以下两种策略：

时间戳策略：在时间戳策略中，您需要为每个Hudi表定义一个保留时间（retention time），当数据的写入时间距离当前时间超过保留时间时，这些数据将被删除。在执行离线压缩时，只需要对超过保留时间的数据进行压缩即可。

版本号策略：在版本号策略中，您需要为每个Hudi表定义一个最大版本号（max versions），当某条数据的版本超过最大版本号时，这些数据将被删除。在执行离线压缩时，只需要对超过最大版本号的数据进行压缩即可。

综合来看，时间戳策略比较适用于按照时间顺序进行数据访问的场景，例如日志数据；版本号策略则适用于需要存储多个版本数据的场景，例如实时流数据。根据实际情况，您可以选择合适的策略来进行离线压缩。

2023-04-23 18:01:29

赞同展开评论打赏

vohelon

Flink 提供了多种离线压缩策略，其中最常用的是基于哈希的压缩策略。下面是一个使用 Flink 和 Apache Sumo 实现基于哈希的 hudi 离线压缩的示例：

首先，确保你已经安装了 Flink 和 Apache Sumo。如果尚未安装，请运行以下命令进行安装：

npm install -g flink sumo 创建一个名为 hudi-compress.py 的 Python 脚本，并将以下内容复制到脚本中：

python import hashlib
import io

压缩文件名和哈希值

filename = 'your_file.txt'
hash_value = 'your_hash_value'

创建输出流

with io.open(filename, 'rb') as f:
compressed_data = f.read()

创建哈希哈希器

hasher = hashlib.sha256()

计算哈希值

hasher.update(compressed_data)

将哈希值转换为十六进制字符串

compressed_data_hex = hasher.hexdigest()

打包压缩数据

with io.open(filename + '.gz', 'wb') as f:
f.write(compressed_data_hex) 运行脚本：

bash python hudi-compress.py 脚本将使用 hashlib.sha256() 方法创建一个哈希哈希器，计算压缩数据的哈希值。然后将哈希值转换为十六进制字符串，并使用 io.open() 方法将压缩数据写入输出流中。

2023-04-23 17:25:49

赞同展开评论打赏

武当张三丰丶

存在即是合理

在使用Flink写Hudi进行离线压缩时，通常可以采用以下两种策略：

1、基于时间的策略：按照时间维度，将Hudi表中的数据分成若干个时间段，然后针对每个时间段进行压缩。例如，可以按照天、周、月等时间单位来划分数据，并在每个时间段结束时进行离线压缩。这种策略比较简单，适合对数据量比较小、更新比较频繁的场景。

2、基于数据量的策略：按照数据量大小，将Hudi表中的数据分成若干个数据块，当一个数据块的大小达到一定阈值时，对该数据块进行离线压缩。这种策略适合对数据量比较大、更新比较少的场景。在使用这种策略时，需要注意设置合适的数据块大小阈值，避免一次性压缩太多数据导致压缩时间过长。

2023-04-23 16:32:35

赞同展开评论打赏

flink写hudi 离线压缩，采用哪种策略啊

压缩文件名和哈希值

创建输出流

创建哈希哈希器

计算哈希值

将哈希值转换为十六进制字符串

打包压缩数据

实时计算 Flink

相关产品

热门讨论

热门文章

相关课程

相关电子书

相关实验场景

flink写hudi 离线压缩，采用哪种策略啊

压缩文件名和哈希值

创建输出流

创建哈希哈希器

计算哈希值

将哈希值转换为十六进制字符串

打包压缩数据

实时计算 Flink

相关产品

热门讨论

热门文章

相关课程

相关文章

相关电子书

相关实验场景