开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

flinkcdc同步70张表,完了启动不到15分钟,日志打印了815m,这个是正常的吗?

flinkcdc同步70张表,完了启动不到15分钟,日志打印了815m,这个是正常的吗,采用的是flink同步doris的jar包,和 flink sql的模式?其中 有3个任务是同步3个数据库的表,总计 50张表,每个数据库一个任务,sqlserveer的是走flinksql的模式,20张表

展开
收起
真的很搞笑 2023-12-20 08:27:02 46 0
3 条回答
写回答
取消 提交回答
  • 关于Flink CDC同步70张表并在不到15分钟内打印了815MB的日志,这是否正常取决于你的数据量、表结构、网络环境和Flink作业配置等因素。如果数据量较大或者表结构复杂,那么生成的日志量可能会较多。Flink SQL模式和jar包的同步方式也会影响日志的生成和输出。如果你希望减少日志的生成和占用的空间,可以考虑以下方法:

    • 调整Flink作业的日志级别和输出格式,以减少不必要的信息和细节。
    • 使用日志收集和分析工具(如Logstash、Fluentd、ELK stack等)来集中管理和过滤日志。
    • 对Flink作业进行性能调优和资源优化,以提高数据处理和写入的效率。
    • 根据实际情况调整Flink作业的并行度和并发数,以平衡数据处理和日志生成的压力。
    2023-12-20 16:06:29
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    Flink CDC是基于Change Data Capture(CDC)技术的数据同步工具,可以支持关系型数据库数据的实时同步到Flink流处理中进行实时计算和分析。其优势在于不仅支持增量同步,还支持全量/全量+增量的同步,同时基于检查点机制实现故障恢复,能够快速恢复数据同步的进度。此外,FlinkCDC通过读取数据库日志的方式做到实时同步,这个和很多实时同步的工具原理相同。

    对于你的情况,同步70张表并在启动不到15分钟就打印了815m的日志,这个首先需要看具体的日志内容来判断是否正常。如果这815m的日志主要是任务运行状态、数据同步进度等关键信息,那么可以认为是正常的。但如果日志中包含大量错误信息或者任务执行失败等信息,那么可能就需要进一步排查问题。

    你提到有3个任务是同步3个数据库的表,总计50张表,每个数据库一个任务,sqlserver的是走flinksql的模式,20张表。这种分任务、分数据库的同步策略可以帮助提高任务的并行度和效率。对于sqlserver的20张表采用flinksql模式,可以利用Flink SQL CDC的优势,将MySQL中的全增量数据实时地采集、预计算、并同步到其他存储系统中。

    2023-12-20 14:24:12
    赞同 展开评论 打赏
  • 最好走整库同步,减少连接数 ,此回答整理自钉群“Flink CDC 社区”

    2023-12-20 09:47:41
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关电子书

更多
PostgresChina2018_赖思超_PostgreSQL10_hash索引的WAL日志修改版final 立即下载
Kubernetes下日志实时采集、存储与计算实践 立即下载
日志数据采集与分析对接 立即下载