开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

Flink CDC我需要设置什么参数 才能增加挖掘的速度 ?

Flink CDC我需要设置什么参数 才能增加挖掘的速度 ?一天24个小时 有几个小时会出现延迟 现在是一次性抽取50多张表

展开
收起
真的很搞笑 2023-11-22 09:26:40 41 0
3 条回答
写回答
取消 提交回答
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    在 Flink CDC 中,有多种方法可以提高数据挖掘的速度:

    1. 增加并行度:可以通过增加 Flink 任务的并行度来提高数据挖掘速度。例如,可以将并行度设置为 8 以加快数据挖掘速度。
    2. 减少 CPU 使用率:您可以将任务的优先级降低,以减少 CPU 使用率,以便 Flink 任务能在可用资源中获得更多的内存。
    3. 调整分片:可以根据您的数据量和数据格式,将大表分成小表,以更快地挖掘数据。
    4. 使用更快速的网络连接:可以使用高速网络连接来加快数据传输速度。
    5. 使用缓存:可以将经常访问的数据存储在缓存中,以减少磁盘 I/O 时间。
    2023-11-29 13:50:22
    赞同 展开评论 打赏
  • Apache Flink Change Data Capture (FlinkCDC) 的性能主要取决于以下几个因素:

    1. 数据源的流量:如果数据源的流量很大,那么FlinkCDC需要处理的数据就会很多,这可能会导致FlinkCDC的处理速度变慢。

    2. Flink的任务并行度:你可以通过调整Flink任务的并行度来提高FlinkCDC的处理速度。增加并行度可以让更多的数据被同时处理,从而提高处理速度。

    3. Flink的内存配置:FlinkCDC在处理数据时,需要消耗一定的内存资源。如果内存资源不足,那么FlinkCDC的处理速度可能会变慢。你可以通过调整Flink的内存配置来改善这个问题。

    4. Flink的I/O吞吐量:FlinkCDC在处理数据时,需要进行大量的I/O操作。如果I/O吞吐量不足,那么FlinkCDC的处理速度可能会变慢。你可以通过调整Flink的I/O吞吐量来改善这个问题。

    5. 数据处理的逻辑:数据处理的逻辑也会影响FlinkCDC的处理速度。如果你需要对数据进行复杂的处理,那么FlinkCDC的处理速度可能会变慢。

    对于你提到的每天会有几个小时出现延迟的问题,这可能是由于数据源的流量在这段时间内突然增大,或者是由于FlinkCDC的处理能力在这段时间内下降导致的。你可以通过监控FlinkCDC的运行状态,找出问题出现的时间点,然后在这个时间点上进行优化。

    2023-11-29 12:01:11
    赞同 展开评论 打赏
  • 根据表查询数据的sql 是用的 regex function 这块表越多,sql查询性能也比较慢;可以想想多 connection 并发触发 logminer 解析数据,,最后 单线程控制 事件顺序,此回答整理自钉群“Flink CDC 社区”

    2023-11-22 12:08:48
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载