备案控制台

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

flinkcdc2.4.2有没有解决维表关联的痛点呀?

flinkcdc2.4.2有没有解决维表关联的痛点呀?就是不设置ttl会导致ckp越来越大，设置了会丢失数据的情况。强烈建议我们cdc的社区能优化下维表关联功能，如果不能作为维表使用，cdc的使用性大大减低

展开

收起

真的很搞笑 2023-11-06 20:27:03 82 0

2 条回答

写回答

取消提交回答

芯在这

你可以看看flink 1.18对于不同流的state的ttl设置，更推荐的是cdc去 look up join 一个性能更强的olap数据库，只读数据库等，或者paimon。一般指的state清理造成的数据丢失问题，大概率你用的是双流join，而不是维表join，此回答整理自钉群“Flink CDC 社区”

2023-11-08 07:41:04

赞同展开评论打赏
sunrr

Apache Flink的CDC (Change Data Capture) 2.4.2版本并没有专门针对维表关联的痛点进行优化。对于你提到的"不设置ttl会导致ckp越来越大，设置了会丢失数据"的问题，这主要是由于Flink的State TTL机制和Checkpoint机制的设计导致的。

Flink的State TTL机制是为了防止状态过大而导致内存溢出，它会定期清理过期的状态。然而，如果在处理CDC数据时，状态被频繁地更新，并且每个状态的TTL都很短，那么Checkpoint的大小就会迅速增大。

另一方面，如果设置了过短的TTL，那么在处理CDC数据时，可能会因为状态被过早地清理而导致数据丢失。这是因为在Flink的Checkpoint过程中，状态会被持久化到磁盘上，然后在后续的运算中，会从磁盘上加载这些状态。如果状态被过早地清理，那么在后续的运算中，就可能无法加载到这些状态，从而导致数据丢失。

对于这种情况，一种可能的解决方案是，优化你的应用程序，以减少状态的数量和大小。例如，你可以考虑使用更高效的序列化格式，或者减少不必要的状态更新。此外，你也可以考虑使用更长的TTL，以减少Checkpoint的大小，但同时也要确保在Checkpoint期间，有足够的内存来存储所有的状态。

另外，你也可以考虑使用其他的CDC解决方案，例如Debezium或Canal，它们可能提供了更好的维表关联支持。

2023-11-07 11:04:04

赞同展开评论打赏

问答分类：

实时计算 Flink版

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

实时计算 Flink版

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

54966

27

0

企业邮箱

8499

6

0

this xml file does not appear to have any style in

28402

8

0

如果购买了域名，一定要备案才能用吗

35788

33

0

有哪些值得收藏的五个种子搜索引擎&磁力搜索引擎？

91600

16

0

OSS的endpoint如何查看

29281

3

0

com/action/joingroup?code=v1是什么意思

204529

19

0

什么是二进制？二进制怎么算？

37083

40

0

支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】

227215

10

0

配置了安全组规则，端口还是无法访问

26966

20

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

热门讨论

热门文章

FFA 2024 大会门票免费送！AI时代下大数据技术未来路在何方？

Caused by: org.apache.kafka.common.errors.TimeoutE

Flink如何配置Task Manager？

请问flink-connector-jdbc在sink时，如何设置批量写入？

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

Slot request bulk is not fulfillable，20以上job同时部署失败

mysql是cst时区，不修改msyq时区的情况下， flink改怎么配置时区？

Flink sql将数组炸开，实现hive的explode函数的效果，还有什么其他好的方式？

大佬，Caused by: java.lang.ClassNotFoundException: or

flink 1.18必须配套JDK11吗 1.8是不是不行了呢？

展开全部

数据仓库介绍与实时数仓案例

分布式Snapshot和Flink Checkpointing简介

阿里云实时计算产品案例&解决方案汇总

Flink SQL 功能解密系列 —— 流式 TopN 挑战与实现

Apache Flink 漫谈系列(04) - State

阿里巴巴高级技术专家章剑锋：大数据发展的 8 个要点

【对话科技】Flink技术介绍和新功能展望

【阿里内部应用】基于Blink为新商业调控打造实时大数据交互查询服务

携程实时智能检测平台建设实践

开篇 | 揭秘 Flink 1.9 新架构，Blink Planner 你会用了吗？

展开全部

相关电子书

更多

低代码开发师（初级）实战教程 立即下载

冬季实战营第三期：MySQL数据库进阶实战 立即下载

阿里巴巴DevOps 最佳实践手册 立即下载