单表单topic多分区同步数据量不稳定

环境信息

canal version：1.1.3 mysql version：5.6.16

问题描述

以下是canal instance 配置： canal.mq.topic=test #canal.mq.partition=0

canal.mq.partitionsNum=6 canal.mq.partitionHash=test.test1:id

问题：

如果多分区配置，发现同步出来的数据会根据 hash的字段或多或多（比如按id hash 就会少，按order_id hash 会多，id是主键。）如果是但分区同步到分区 0，那数据就是正常的

原提问者GitHub用户mjjian0

展开

收起

古拉古拉 2023-05-08 14:48:53 140 版权

3 条回答

写回答

取消提交回答

函数计算小白

hash之后针对对应字段值的变化，可能就会乱序，需要注意这点可以尝试一下1.1.3 alpha-3版本，目前已经对partition hash的做了修复

原回答者GitHub用户agapple

2023-05-09 18:00:16

赞同展开评论
vohelon

在 Canal Server 中，Partition 是将数据划分为多个逻辑分区进行处理的方式。为了高效地处理大量数据，Partition 可以分布在多台服务器上，每个服务器处理自己负责的 Partition。但是，如果 Partition 的配置出现问题，就会导致数据无法正确地同步。

下面是一些可能有用的信息和建议：

Canal Server 的分区配置应该与 RocketMQ 集群中的分区配置相匹配。如果 Canal 配置的 Partition 数量与 RocketMQ 集群中的数量不一致，就会导致数据分配不均衡。在 Canal Server 的配置文件中，可以通过设置 canal.mq.partitionsNum 来指定 Partition 的数量。确保这个数量与 RocketMQ 集群中的 Partition 数量一致。

如果您使用了 PartitionHash 分区策略，请确保 PartitionHash 所使用的字段是唯一的。如果不唯一，就有可能出现数据被分配到错误的 Partition 的情况。对于主键字段，通常可以保证其唯一性，因此建议使用主键作为 PartitionHash 的字段。

您可以尝试调整 Canal Server 中 Partition 的分配规则，以确保数据能够正确地分配到各个 Partition。比如，可以使用 Canal Server 提供的随机分配策略、轮询分配策略、或者手动指定 Partition。

2023-05-08 15:29:48

赞同展开评论
LittlePenguin

随心分享，欢迎友善交流讨论：）

这个问题是因为你使用了hash分区的方式，但是hash分区并不能保证每个分区的数据量均衡。因为hash函数本身可能存在一些规律，例如按照主键id进行hash，如果id是自增的，那么数据就会集中在一些分区中，而其他分区的数据量就会比较少。因此，建议使用range分区的方式来保证每个分区的数据量均衡。你可以按照以下步骤来修改配置：

将canal.mq.partitionsNum设置成想要的分区数，例如6。

将canal.mq.partitionHash修改成canal.mq.partitionHash=test.test1:order_id，表示使用order_id字段进行range分区。

在Kafka中创建对应的Topic，并设置分区数，例如创建test Topic时，设置分区数为6。

这样，Canal就会将同一个表的数据按照order_id进行range分区，将数据均匀地分配到6个分区中，从而保证每个分区的数据量均衡。

2023-05-08 15:20:33

赞同展开评论

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

单表单topic多分区同步数据量不稳定

相关文章