开发者社区> 问答> 正文

检查点的start-delay、alignment duration理解。

如题,文档 https://nightlies.apache.org/flink/flink-docs-release-1.13/docs/ops/monitoring/checkpoint_monitoring/ 。

我目前情况是,有个任务,从kafka读取数据,写hive,orc格式,带了compact功能,align 模式。 目前发现DAG为4个Task,分别为: Task1: Source: TableSourceScan.... ... ... -> streaming-writer 并行度60 Task2: compact-coordinator 并行度1 Task3: compact-operator 并行度60 Task4: PartitionCommitter -> Sink: end 并行度1

目前观察到检查点存在超时,我给一个ckpt数据,耗时18min30s,如下是E2E时长。 Task1: 49s。 Task2: 1s。 Task3: 18min20s。 Task4: 18min30s。 继续观察Task3的subtask的detail信息,compact-operator算子ckpt显示数据是非常小,几乎没有。同时alignment duration都是0ms,也就是不存在对齐时长。 但是 start-delay 却很长,有的达到16min左右,不清楚这个是为啥?

目前根据文档分析下来,start-delay是从第一个barrier创建 到 该barrier到达该subtask的时长,不清楚我这个DAG任务情况下,是什么导致这个情况呢? 为什么第一个barrier到达都这么耗时。*来自志愿者整理的flink邮件归档

展开
收起
moonlightdisco 2021-12-07 16:36:12 1351 0
1 条回答
写回答
取消 提交回答
  • Hi!

    这个 checkpoint 时间的差距确实不太符合预期,因为 compact 一般都是比较快的。建议看一下 task3 的 jstack 以及 gc 情况,确认是不是 task3 gc 严重阻塞 checkpoint,以及 task3 具体在做什么。*来自志愿者整理的flink邮件归档

    2021-12-07 17:06:12
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Window_Time_Watermark 立即下载
SPEED MATTERS:HOW TO PROCESS B 立即下载
Tracking-Ransomware-End-To-End 立即下载