Flink CDC差不多1s同步一条数据，效率很低，有没有优化方案？走的内网。

"问题1：Flink CDC差不多1s同步一条数据，效率很低，有没有优化方案？走的内网。

我就是dinky上弄的。

连接器版本

checkpoint配的3000s
问题2：
这都20分钟了，是不是有点慢了，还没有数据写进去，写到KAfka。"

收起

小易01 2023-07-24 21:49:52 357 发布于江西版权

3 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

Flink CDC 同步数据的效率受到多个因素的影响，例如数据源的性能、网络带宽、Flink 应用程序的配置等。如果同步效率较低，可以考虑以下一些优化方案：
增加并行度：可以尝试增加 Flink 应用程序的并行度，以提高同步效率。可以通过修改 Flink 应用程序的配置文件或者使用命令行参数来设置并行度。
调整数据源的性能：如果数据源性能较低，可能会导致同步效率低下。可以尝试优化数据源的配置，例如增加数据库连接池大小、增加硬件资源等。
使用异步 I/O：在 Flink 应用程序中，可以使用异步 I/O 来减少同步等待时间，提高效率。可以使用 Flink 提供的 Asynchronous I/O API 来实现异步读取和写入数据。
增加网络带宽：如果同步数据的网络带宽不足，可以尝试增加网络带宽，以提高数据传输速度。
调整数据格式：如果

2023-07-29 18:38:16 举报

赞同评论

评论
全部评论 (0)
登录后可评论
意中人jswy

意中人就是我呀！

"回答1：
这两个参数不太合理吧，写doris是微批次的，达到flush条件才会写入，你找个batch size才1，interval 60秒。把batch size调大，interval调小。flinkcdc不可能有这么大延迟，sink参数问题。dinky是开发平台，连接器走的还是doris出的flink-connecoe-doris连接器。暂时没找到你的batch-size, 先调整下参数运行看看，flink-cdc采集数据还是很快的，主要问题都是在sink，不放心直接print对比数据时间。
回答2：你这是多流join，每个流都会触发计算，where 条件也会限制，你这个限制比较多，一个一个去了看看，先有数据，再加where 和内连接，看是什么问题，我们一般不用inner join，很少多流join，多流join的状态是越来越大且会丢数据，看你都是cdc拉进来没必要，维表join解决。用jdbc连接mysql，再用system of 语法来，源表之需要一个cdc就行了，ord_retail_order_bill，用一个触发计算，其他从维表都可以查询到数据，都用cdc不太合适。订单表cdc进来，然后查订单明细表，档案表都是作为维表查询。此回答整理至钉群“Flink CDC 社区”"

2023-07-26 11:37:13 举报

赞同评论

评论
全部评论 (0)
登录后可评论
武当张三丰丶

存在即是合理
Flink CDC 同步效率低的原因可能有很多，例如数据量过大、网络延迟、硬件性能不足等。以下是一些优化方案：
1. 增加 Flink 的并行度，可以提高同步效率。
2. 调整 Flink CDC 的配置参数，例如增加缓冲区大小、调整采样间隔等。
3. 如果Flink CDC 是通过内网传输数据的，可以考虑使用更快的网络设备或者优化网络拓扑结构来提高传输效率。
2023-07-25 14:43:28 举报

赞同评论

评论
全部评论 (0)
登录后可评论

Flink CDC差不多1s同步一条数据，效率很低，有没有优化方案？走的内网。

实时计算 Flink

相关文章

热门讨论

热门文章

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

Flink CDC差不多1s同步一条数据，效率很低，有没有优化方案？走的内网。

实时计算 Flink

相关文章

热门讨论

热门文章