flink cdc进行多表关联时生成大宽表时, 同步的时候会丢失更新的情况吗,但手动修改数据,它又能正常触发同步,日志没报错?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
在使用Flink CDC进行多表关联生成大宽表时,可能会出现同步过程中丢失更新的情况。以下是可能导致该问题的原因及解决方案:
mutatetype
和ignoredelete
参数。
mutatetype
设置为insertorupdate
,则根据主键更新数据。ignoredelete
设置为true
,则忽略回撤消息产生的Delete请求。'mutatetype' = 'insertorupdate', -- 根据主键更新数据
'ignoredelete' = 'true' -- 忽略回撤消息产生的Delete请求
CREATE TABLE hologres_sink (
a BIGINT,
d STRING,
e STRING,
PRIMARY KEY(a) NOT ENFORCED
) WITH (
'connector' = 'hologres',
'dbname' = '<yourDbname>',
'tablename' = '<yourWideTablename>',
'username' = '${secret_values.ak_id}',
'password' = '${secret_values.ak_secret}',
'endpoint' = '<yourEndpoint>',
'mutatetype' = 'insertorupdate',
'ignoredelete' = 'true'
);
execution.checkpointing.interval: 5min
'scan.parallelism' = '4' -- 设置并发数为4
currentEmitEventTimeLag
指标,确认是否已完成全量数据同步并进入Binlog读取阶段。BinlogSplitReader is created
日志,确认是否读取完全量数据。通过以上分析和配置调整,可以有效解决Flink CDC在多表关联生成大宽表时可能出现的更新丢失问题。如果问题仍然存在,建议进一步检查Flink作业的日志和Hologres的写入日志,定位具体原因。您可以复制页面截图提供更多信息,我可以进一步帮您分析问题原因。
实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。