Flink CDC我需要设置什么参数才能增加挖掘的速度 ?

Flink CDC我需要设置什么参数才能增加挖掘的速度 ?一天24个小时有几个小时会出现延迟现在是一次性抽取50多张表

展开

收起

真的很搞笑 2023-11-22 09:26:40 170 版权

3 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
在 Flink CDC 中，有多种方法可以提高数据挖掘的速度：
1. 增加并行度：可以通过增加 Flink 任务的并行度来提高数据挖掘速度。例如，可以将并行度设置为 8 以加快数据挖掘速度。
2. 减少 CPU 使用率：您可以将任务的优先级降低，以减少 CPU 使用率，以便 Flink 任务能在可用资源中获得更多的内存。
3. 调整分片：可以根据您的数据量和数据格式，将大表分成小表，以更快地挖掘数据。
4. 使用更快速的网络连接：可以使用高速网络连接来加快数据传输速度。
5. 使用缓存：可以将经常访问的数据存储在缓存中，以减少磁盘 I/O 时间。
2023-11-29 13:50:22

赞同展开评论
sunrr
Apache Flink Change Data Capture (FlinkCDC) 的性能主要取决于以下几个因素：
1. 数据源的流量：如果数据源的流量很大，那么FlinkCDC需要处理的数据就会很多，这可能会导致FlinkCDC的处理速度变慢。
2. Flink的任务并行度：你可以通过调整Flink任务的并行度来提高FlinkCDC的处理速度。增加并行度可以让更多的数据被同时处理，从而提高处理速度。
3. Flink的内存配置：FlinkCDC在处理数据时，需要消耗一定的内存资源。如果内存资源不足，那么FlinkCDC的处理速度可能会变慢。你可以通过调整Flink的内存配置来改善这个问题。
4. Flink的I/O吞吐量：FlinkCDC在处理数据时，需要进行大量的I/O操作。如果I/O吞吐量不足，那么FlinkCDC的处理速度可能会变慢。你可以通过调整Flink的I/O吞吐量来改善这个问题。
5. 数据处理的逻辑：数据处理的逻辑也会影响FlinkCDC的处理速度。如果你需要对数据进行复杂的处理，那么FlinkCDC的处理速度可能会变慢。
对于你提到的每天会有几个小时出现延迟的问题，这可能是由于数据源的流量在这段时间内突然增大，或者是由于FlinkCDC的处理能力在这段时间内下降导致的。你可以通过监控FlinkCDC的运行状态，找出问题出现的时间点，然后在这个时间点上进行优化。
2023-11-29 12:01:11

赞同展开评论
芯在这

根据表查询数据的sql 是用的 regex function 这块表越多，sql查询性能也比较慢；可以想想多 connection 并发触发 logminer 解析数据，，最后单线程控制事件顺序，此回答整理自钉群“Flink CDC 社区”

2023-11-22 12:08:48

赞同展开评论

Flink CDC我需要设置什么参数才能增加挖掘的速度 ?

实时计算 Flink

相关文章

热门讨论

热门文章

Flink CDC我需要设置什么参数 才能增加挖掘的速度 ?

实时计算 Flink

相关文章

热门讨论

热门文章

Flink CDC我需要设置什么参数才能增加挖掘的速度 ?