开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC差不多1s同步一条数据,效率很低,有没有优化方案?走的内网。

"问题1:Flink CDC差不多1s同步一条数据,效率很低,有没有优化方案?走的内网。
da7be368ad66197c6b655b9e906d559e.png
我就是dinky上弄的。
2ac1cbf50f63622e545c1471df12792d.png
连接器版本
bddfb7d58b548c630724ed52d26cfea8.png
checkpoint配的3000s
问题2:d58be73ad816c9ec1a0768ffdc528c67.png
这都20分钟了,是不是有点慢了,还没有数据写进去,写到KAfka。"

展开
收起
小易01 2023-07-24 21:49:52 297 0
3 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    Flink CDC 同步数据的效率受到多个因素的影响,例如数据源的性能、网络带宽、Flink 应用程序的配置等。如果同步效率较低,可以考虑以下一些优化方案:
    增加并行度:可以尝试增加 Flink 应用程序的并行度,以提高同步效率。可以通过修改 Flink 应用程序的配置文件或者使用命令行参数来设置并行度。
    调整数据源的性能:如果数据源性能较低,可能会导致同步效率低下。可以尝试优化数据源的配置,例如增加数据库连接池大小、增加硬件资源等。
    使用异步 I/O:在 Flink 应用程序中,可以使用异步 I/O 来减少同步等待时间,提高效率。可以使用 Flink 提供的 Asynchronous I/O API 来实现异步读取和写入数据。
    增加网络带宽:如果同步数据的网络带宽不足,可以尝试增加网络带宽,以提高数据传输速度。
    调整数据格式:如果

    2023-07-29 18:38:16
    赞同 展开评论 打赏
  • 意中人就是我呀!

    "回答1:3bcdf714a58355b28ec67c1c0d70bd7e.png
    这两个参数不太合理吧,写doris是微批次的,达到flush条件才会写入,你找个batch size才1,interval 60秒。把batch size调大,interval调小。flinkcdc不可能有这么大延迟,sink参数问题。dinky是开发平台,连接器走的还是doris出的flink-connecoe-doris连接器。暂时没找到你的batch-size, 先调整下参数运行看看,flink-cdc采集数据还是很快的,主要问题都是在sink,不放心直接print对比数据时间。
    回答2:你这是多流join,每个流都会触发计算,where 条件也会限制,你这个限制比较多,一个一个去了看看,先有数据,再加where 和 内连接,看是什么问题,我们一般不用inner join,很少多流join,多流join的状态是越来越大且会丢数据,看你都是cdc拉进来没必要,维表join解决。用jdbc连接mysql,再用system of 语法来,源表之需要一个cdc就行了,ord_retail_order_bill,用一个触发计算,其他从维表都可以查询到数据,都用cdc不太合适。订单表cdc进来,然后查订单明细表,档案表都是作为维表查询。此回答整理至钉群“Flink CDC 社区”"

    2023-07-26 11:37:13
    赞同 展开评论 打赏
  • 存在即是合理

    Flink CDC 同步效率低的原因可能有很多,例如数据量过大、网络延迟、硬件性能不足等。以下是一些优化方案:

    1. 增加 Flink 的并行度,可以提高同步效率。
    2. 调整 Flink CDC 的配置参数,例如增加缓冲区大小、调整采样间隔等。
    3. 如果Flink CDC 是通过内网传输数据的,可以考虑使用更快的网络设备或者优化网络拓扑结构来提高传输效率。
    2023-07-25 14:43:28
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载