备案控制台

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

flink 端到端延迟以及flinkcdc 同步mysql时的延迟存在突刺，怎么寻找排查原因？

一些相关配置：

promethues 配置：

以下延迟指标都是flink 内部提供的相关指标，prometheusReporter 推送到pushgateway 的间隔是 60s , 具体配置如下：
图片1.png

prometheus 拉取间隔为 30s ：
图片2.png

状态后端Rocksdb配置:

问题1 ：flink 端到端延迟突刺

flink_taskmanager_job_latency_source_id_operator_id_operator_subtask_index_latency 指标用来检测端到端延迟，开启时的配置参数如下图：
图片4.png

任务1 ：

这个任务的sql 以及 dag 图如下：

通过对比发现 flink 端到端延迟从 source 到 sink 端延迟与 source 到 join 算子的延迟图形一致，基本可以确定是延迟增大就是 flinkSQL中regular join阶段引起的，以下是 flink 到 join 算子的延迟监控图：

大部分时间延迟都是在一个较小的范围 100ms 以内
当前任务 join算子链的 flink_taskmanager_job_task_operator_numRecordsInPerSecond 指标，总体上在以下时间段在有数据的情况下每分钟 2-3 （0.033 * 60）条左右

Checkpoint:

图片11.png
当前任务是全量checkpoint，对于全量做checkpoint ，通过对比发现当延迟增大的时候，一般 checkpoint 时长也会很大（增量checkpoint 现象不明显）

其他状况：

在历史数据中发现，当source 到join的延迟指标增大时，并没有发现存在输入，即下图情况：

去数据源kafka 中查询也并未查询到出现延迟时有数据输入

此时的checkpoint如下：

job2：

图片17.png

这个任务的checkpoint 也是全量，但是状态更大，对应的端到端延迟的最大值以及突刺的平均值也更大

图片19.png
图片20.png

job3:

图片21.png

这个任务的checkpoint是增量的，
对应的延迟和checkpoint 的关系如下：

具体问题：

对于以上3个任务，似乎状态越大，在regular join 阶段的延迟就会越大，但是也存在没有数据输入时端到端延迟飙高

问题2：flinkcdc 同步mysql 延迟

当前使用的flink-sql-connector-mysql-cdc版本是 2.4.1
使用的指标是 cdc 源码中提供的 currentFetchEventTimeLag这一指标来表示flinkcdc 同步时的 binlog 延迟，这一指标是从数据在数据库提交操作后生成的时间点到进入flinkcdc source 之间的时间差
内网机器间的网络传输，通过 ping 主机，网络延迟较为稳定，大概在3ms左右，但是并没有对主机之间网络延时进行检测

例1 ：

延迟突刺达到 12s ,持续直到下一条数据到来
Source的数据的输入是较为稳定的大概是 2.0 * 60s = 120
writer 算子的numRecordsInPerSecond 指标如下图：

例2 ：

通过source 算子的numRecordsInPerSecond 指标发现存在数据输入，但是延迟指标却一直保持
而 writer 算子的numRecordsInPerSecond 指标则可以解释（所以这是为什么，是被过滤了吗，还是flinkcdc 心跳也算作 source 的输入吗）

具体问题：

影响currentFetchEventTimeLag 的因素相关的指标比较难找，去查找过对mysql监控的zabbix，没能找到相关的因素，可以从排查呢？

展开

收起

游客ww6d6yn35bupg 2024-01-29 17:29:02 176 0

0 条回答

写回答

取消提交回答

问答分类：

流计算移动开发关系型数据库 MySQL 监控消息中间件 Kafka Cloud Native Prometheus 数据库实时计算 Flink版可观测监控 Prometheus 版云数据库 RDS MySQL 版云消息队列 Kafka 版

问答标签：

实时计算 Flink版mysql 实时计算 Flink版同步 flink云数据库 RDS MySQL 版云数据库 RDS MySQL 版同步 flinkcdc同步云数据库 RDS MySQL 版

问答地址：

开发者社区 > 大数据与机器学习 > 实时计算 Flink > 问答

相关产品：

实时计算 Flink版

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

实时计算 Flink版

RDS如何看只读实例延迟

34

1

0

Flink CDC用mysql的时间和doris的入库时间对比做延迟警告，靠谱吗？

54

0

0

Flink CDC中cdc mysql数据延迟越来越久可能是什么原因，背压正常。网络延迟正常？

127

1

0

Flink CDC采集mysql入kafka，有一千多笔延迟在十几分钟，这个应该怎么排查？

69

1

0

RDS for MySQL只读实例同步延迟原因与处理

40

1

0

flink-cdc是不是对mysql比较友好，mysql会有很大的延迟吗？

46

1

0

RDS数据库数据落库后为什么查询有延迟

28

1

0

RDS MySQL数据库代理中的延迟阈值设置为0s是意思

39

1

0

PolarDB的Paxos三副本如果批量插入马上查询会跟mysql一样出现主从延迟读不到的情况吗？

58

1

0

调用DescribeSlowLogs查询RDS慢日志统计是否有延迟

32

1

0

大数据与机器学习

实时计算 Flink

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务，基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎，提高作业开发运维效率。

我要提问

相关产品

实时计算 Flink版

文档详情产品详情

热门讨论

热门文章

FFA 2024 大会门票免费送！AI时代下大数据技术未来路在何方？

flink1.20.0 部署后发布报错，是怎么回事，各种配置都配置了

在建行，数据通常来源于哪些？

大佬，Caused by: java.lang.ClassNotFoundException: or

请问flink-connector-jdbc在sink时，如何设置批量写入？

Caused by: org.apache.kafka.common.errors.TimeoutE

Flink 集群重启后，所有的Jobs任务全都没有了。如果快速恢复所有的任务

FlinkCDC MySQL 中 scan.startup.mode 用的是什么模式啊？

Flink sql将数组炸开，实现hive的explode函数的效果，还有什么其他好的方式？

Apache Flink未授权访问上传导致的RCE漏洞，这个漏洞目前方案解决吗？

展开全部

数据仓库介绍与实时数仓案例

权威详解 | 阿里新一代实时计算引擎 Blink，每秒支持数十亿次计算

OPPO数据中台之基石：基于Flink SQL构建实数据仓库

分布式Snapshot和Flink Checkpointing简介

独家专访阿里集团副总裁贾扬清：我为什么选择加入阿里巴巴？

实时计算 Flink SQL 核心功能解密

Flink SQL 功能解密系列 —— 维表 JOIN 与异步优化

流计算StreamCompute

通过Flink实时构建搜索引擎的索引

Flume+Kafka+Flink+Redis构建大数据实时处理系统：实时统计网站PV、UV展示

展开全部

相关课程

更多

MySQL企业常见架构与调优经验分享

12717

7

去学习

云数据库MySQL版快速上手教程

20259

13

去学习

阿里云云原生数据仓库AnalyticDB MySQL版使用教程

179

5

去学习

MySQL实战进阶

4538

7

去学习

数据库及SQL/MySQL基础

6973

22

去学习

云数据库MySQL快速入门

2709

10

去学习

相关电子书

更多

One Box：解读事务与分析一体化数据库 HybridDB for MySQL 立即下载

One Box：解读事务与分析一体化数据库HybridDB for MySQL 立即下载

如何支撑HTAP场景-HybridDB for MySQL系统架构和技术演进 立即下载

相关实验场景

更多