开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC里mongo cdc的配置都是什么含义呢?

Flink CDC里mongo cdc的配置 batch.size,poll.max.batch.size,poll.await.time.ms 都是什么含义呢?如果想降低cdc拉取数据的延时,是把这三个值都调小吗?e25c0fb84746f847a589bf995c4e30a8.pnghttps://github.com/ververica/flink-cdc-connectors/blob/master/docs/content/connectors/mongodb-cdc.md
参考了这个文档

展开
收起
小小鹿鹿鹿 2024-02-25 22:35:44 103 0
3 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在Flink CDC中,batch.sizepoll.max.batch.sizepoll.await.time.ms这三个参数都与数据的拉取和处理有关

    batch.size 是游标的批处理大小,它决定了一次从MongoDB中读取的数据量。poll.max.batch.size 则定义了同一批处理中最多可以包含的变更文档数量,这个参数控制了流处理时一次拉取的最多变更文档个数。poll.await.time.ms 指的是两次拉取数据之间的等待时间间隔,默认值为1500毫秒。

    如果想要降低CDC拉取数据的延时,可以考虑将batch.sizepoll.max.batch.sizepoll.await.time.ms这三个值调小。但是,这并不意味着简单地将这些值设为最小就能达到最佳效果。

    调整这些参数需要根据具体的业务场景和系统性能进行权衡。例如,减小batch.sizepoll.max.batch.size可能会减少每次处理的数据量,从而加快数据处理速度,但同时也可能增加数据库的查询次数,对数据库造成更大的压力。同样,减小poll.await.time.ms可以缩短拉取数据的间隔时间,但也可能会导致更频繁的数据库访问和网络请求,增加系统的负载。

    因此,在调整这些参数以优化性能时,建议先进行充分的测试,以找到最适合当前系统和工作负载的参数配置。

    2024-02-26 13:25:45
    赞同 展开评论 打赏
  • 关于 MongoDB CDC 的配置参数含义:

    • batch.size:MongoDB 数据源每次批量拉取的数据条数。
    • poll.max.batch.size:MongoDB Oplog poller 每次轮询的最大批处理大小。
    • poll.await.time.ms:MongoDB Oplog poller 在等待新事件时的最大阻塞时间(毫秒)。

      若要降低 CDC 拉取数据的延时,可以尝试适当调小这些值,但要注意过小的值可能导致网络开销增大、性能下降,应根据实际集群负载情况进行调整和优化。

    2024-02-26 11:47:01
    赞同 展开评论 打赏
  • 在Flink CDC中,MongoDB的配置参数batch.size, poll.max.batch.size, 和 poll.await.time.ms 控制着从MongoDB拉取数据的方式。理解这些参数的含义可以帮助你调整它们以降低数据拉取延迟。

    1. batch.size: 这个参数定义了MongoDB游标每次返回的结果数量。默认值为1024。如果你想要降低数据拉取延迟,可以尝试减小这个值,这样每次从MongoDB获取的数据量就会减少,从而更快地处理和返回结果。

    2. poll.max.batch.size: 这个参数定义了在轮询模式下,单个批次中包含的最大变更流文档数量。默认值为1024。同样,如果你想降低数据拉取延迟,可以尝试减小这个值,以便更快地处理和返回结果。

    3. poll.await.time.ms: 这个参数定义了在轮询变更流时等待新结果的时间(以毫秒为单位)。默认值为1000(即1秒)。如果你想降低数据拉取延迟,可以尝试减小这个值,这样在轮询变更流时等待新结果的时间就会更短。

    需要注意的是,虽然减小这些参数的值可能会降低数据拉取延迟,但也可能会影响吞吐量和资源使用情况。因此,在进行调整时,需要根据你的具体需求和系统性能来平衡这些因素。此外,确保你的MongoDB实例有足够的性能来处理这些请求,因为这也会对延迟产生影响。

    2024-02-26 11:10:07
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 热门讨论

    热门文章

    相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载