开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

各位大佬,flink任务的并发数调大到160+以后,每隔几十分钟就会出现一次TM节点连接丢失的异常,

各位大佬,flink任务的并发数调大到160+以后,每隔几十分钟就会出现一次TM节点连接丢失的异常,导致任务重启。并发在100时运行比较稳定,哪位大佬可以提供下排查的思路? image.png 本问题来自阿里云开发者社区的【11大垂直技术领域开发者社群】。 点击这里欢迎加入感兴趣的技术领域群。

展开
收起
黄一刀 2019-11-29 16:26:02 3696 0
2 条回答
写回答
取消 提交回答
  • 原因不确定,可能有的原因有:(1)内存用超了OOM挂掉了;(2)内存用多了被yarn的nodemanager给killed了,可以看看nodemanger的日志;(3)内存不太够,在做GC耗时较长卡住了,可以看看TM的gc日志;(4)网络抖动,可以尝试把timeout时间调长,taskmanager.network.netty.client.connectTimeoutSec=1800;(5)其他原因。

    2020-03-06 21:06:00
    赞同 展开评论 打赏
  • 建议先去看看失败了的那个TaskManager的日志,确定下根本的原因

    2019-11-29 16:26:22
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关产品

  • 实时计算 Flink版
  • 相关电子书

    更多
    Flink CDC Meetup PPT - 龚中强 立即下载
    Flink CDC Meetup PPT - 王赫 立即下载
    Flink CDC Meetup PPT - 覃立辉 立即下载