开发者社区> 问答> 正文

背压问题排查疑问求解

flink项目的DAG如图: http://apache-flink.147419.n8.nabble.com/file/t1014/Dingtalk_20201111100815.jpg ,job任务每晚高峰期就会出现背压问题,checkpoint超时。图中,a,b,c全部出现背压,d,e,f正常,根据 背压排查思路 http://www.whitewood.me/2019/11/03/Flink-%E5%8F%8D%E5%8E%8B%E5%88%86%E6%9E%90%E5%8F%8A%E5%A4%84%E7%90%86/ ,应该c是根源,奇怪的是查看c的metrics(outPoolUsage、inPoolUsage 、floatingBuffersUsage、exclusiveBuffersUsage ),数据显示都是0,是不是可以理解c自身处理能力导致了背压了呢,至于gc这块,差不多跑一天左右,gc次数1400左右,还有逻辑场景里,基本是keyby->window->reduce这种,中间涉及到了Set集合存储用户id,Map存储耗时和次数(主要用来计算99line,95line,将耗时时间作为key,同时间的记录数做value,减少集合大小),还有数据倾斜这块,a的并行度给kafka的partation一致,而且a,b,c,d,e,f的subtasks基本均衡,整个运行期间也没出现异常信息,像这种现象,该如何定位到问题点呢*来自志愿者整理的flink邮件归档

展开
收起
小阿怪 2021-12-07 10:47:14 658 0
1 条回答
写回答
取消 提交回答
  • 按照你描述,出问题的是def中任意1个或多个。不会是c的问题哈。*来自志愿者整理的flink邮件归档

    2021-12-07 11:34:46
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
美团 crash 监控分析系统优化之路:crash 率从千分位到万分位 立即下载
当可视化遇见了微隔离 立即下载
使用Arthas 抽丝剥茧深入应用-线上诊断利器之外 立即下载