开发者社区 > 大数据与机器学习 > 实时计算 Flink > 正文

有哪位大佬碰到过这种问题么 yarn-per-job模式提交的任务 可能因为网络波动导致zk心跳超时

有哪位大佬碰到过这种问题么 yarn-per-job模式提交的任务 可能因为网络波动导致zk心跳超时 导致任务失败 有啥好的方式可以解决么 请求大佬指点1081问.png

展开
收起
游客3oewgrzrf6o5c 2022-07-07 14:41:24 387 0
1 条回答
写回答
取消 提交回答
  • 十分耕耘,一定会有一分收获!

    楼主你好,在使用YARN-per-job模式提交任务时,由于网络波动等原因可能导致Zookeeper心跳超时,从而导致任务失败。为了解决这个问题,可以尝试以下方法:

    1. 调整Zookeeper参数:可以尝试调整Zookeeper的心跳间隔和超时时间,使其能够适应网络波动和负载变化。具体来说,可以使用Zookeeper的tickTimeinitLimitsyncLimit参数,调整心跳间隔、启动超时和同步超时等参数,以提高Zookeeper的可靠性和稳定性。

    2. 使用更可靠的网络:可以使用更可靠的网络,例如专线或VPN等,以减少网络波动和丢包率,提高数据传输的可靠性和稳定性。

    3. 使用高可用Zookeeper集群:可以使用高可用Zookeeper集群,以提高Zookeeper的可用性和容错性。具体来说,可以使用Zookeeper的集群模式,将Zookeeper部署在多台服务器上,以实现主从备份和故障切换等功能。

    4. 使用其他调度框架:可以考虑使用其他调度框架,例如Apache Mesos、Kubernetes等,以减少对Zookeeper的依赖,提高任务的可靠性和稳定性。

    需要注意的是,调整Zookeeper参数和使用更可靠的网络等方法可以缓解Zookeeper心跳超时的问题,但并不能完全解决问题。建议您在使用YARN-per-job模式提交任务时,注意监控Zookeeper的状态和性能,及时发现并解决可能的问题,以提高任务的可靠性和稳定性。

    2023-07-23 13:03:07
    赞同 展开评论 打赏

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

相关电子书

更多
可编程网络视角的网络创新研究 立即下载
可编程网络和SDN3.0 立即下载
开放促进创新:构建开放网络生态 立即下载