flinkcdc同步70张表，完了启动不到15分钟，日志打印了815m，这个是正常的吗？

flinkcdc同步70张表，完了启动不到15分钟，日志打印了815m，这个是正常的吗，采用的是flink同步doris的jar包，和 flink sql的模式？其中有3个任务是同步3个数据库的表，总计 50张表，每个数据库一个任务，sqlserveer的是走flinksql的模式，20张表

展开

收起

真的很搞笑 2023-12-20 08:27:02 116 版权

3 条回答

写回答

取消提交回答

小Lee
关于Flink CDC同步70张表并在不到15分钟内打印了815MB的日志，这是否正常取决于你的数据量、表结构、网络环境和Flink作业配置等因素。如果数据量较大或者表结构复杂，那么生成的日志量可能会较多。Flink SQL模式和jar包的同步方式也会影响日志的生成和输出。如果你希望减少日志的生成和占用的空间，可以考虑以下方法：
- 调整Flink作业的日志级别和输出格式，以减少不必要的信息和细节。
- 使用日志收集和分析工具（如Logstash、Fluentd、ELK stack等）来集中管理和过滤日志。
- 对Flink作业进行性能调优和资源优化，以提高数据处理和写入的效率。
- 根据实际情况调整Flink作业的并行度和并发数，以平衡数据处理和日志生成的压力。
2023-12-20 16:06:29

赞同展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

Flink CDC是基于Change Data Capture（CDC）技术的数据同步工具，可以支持关系型数据库数据的实时同步到Flink流处理中进行实时计算和分析。其优势在于不仅支持增量同步，还支持全量/全量+增量的同步，同时基于检查点机制实现故障恢复，能够快速恢复数据同步的进度。此外，FlinkCDC通过读取数据库日志的方式做到实时同步，这个和很多实时同步的工具原理相同。

对于你的情况，同步70张表并在启动不到15分钟就打印了815m的日志，这个首先需要看具体的日志内容来判断是否正常。如果这815m的日志主要是任务运行状态、数据同步进度等关键信息，那么可以认为是正常的。但如果日志中包含大量错误信息或者任务执行失败等信息，那么可能就需要进一步排查问题。

你提到有3个任务是同步3个数据库的表，总计50张表，每个数据库一个任务，sqlserver的是走flinksql的模式，20张表。这种分任务、分数据库的同步策略可以帮助提高任务的并行度和效率。对于sqlserver的20张表采用flinksql模式，可以利用Flink SQL CDC的优势，将MySQL中的全增量数据实时地采集、预计算、并同步到其他存储系统中。

2023-12-20 14:24:12

赞同展开评论
芯在这

最好走整库同步，减少连接数，此回答整理自钉群“Flink CDC 社区”

2023-12-20 09:47:41

赞同展开评论

flinkcdc同步70张表，完了启动不到15分钟，日志打印了815m，这个是正常的吗？

实时计算 Flink

相关文章

热门讨论

热门文章