有哪位大佬碰到过这种问题么 yarn-per-job模式提交的任务 可能因为网络波动导致zk心跳超时

有哪位大佬碰到过这种问题么 yarn-per-job模式提交的任务 可能因为网络波动导致zk心跳超时 导致任务失败 有啥好的方式可以解决么 请求大佬指点1081问.png

展开
收起
游客3oewgrzrf6o5c 2022-07-07 14:41:24 426 分享 版权
1 条回答
写回答
取消 提交回答
  • 十分耕耘,一定会有一分收获!

    楼主你好,在使用YARN-per-job模式提交任务时,由于网络波动等原因可能导致Zookeeper心跳超时,从而导致任务失败。为了解决这个问题,可以尝试以下方法:

    1. 调整Zookeeper参数:可以尝试调整Zookeeper的心跳间隔和超时时间,使其能够适应网络波动和负载变化。具体来说,可以使用Zookeeper的tickTimeinitLimitsyncLimit参数,调整心跳间隔、启动超时和同步超时等参数,以提高Zookeeper的可靠性和稳定性。

    2. 使用更可靠的网络:可以使用更可靠的网络,例如专线或VPN等,以减少网络波动和丢包率,提高数据传输的可靠性和稳定性。

    3. 使用高可用Zookeeper集群:可以使用高可用Zookeeper集群,以提高Zookeeper的可用性和容错性。具体来说,可以使用Zookeeper的集群模式,将Zookeeper部署在多台服务器上,以实现主从备份和故障切换等功能。

    4. 使用其他调度框架:可以考虑使用其他调度框架,例如Apache Mesos、Kubernetes等,以减少对Zookeeper的依赖,提高任务的可靠性和稳定性。

    需要注意的是,调整Zookeeper参数和使用更可靠的网络等方法可以缓解Zookeeper心跳超时的问题,但并不能完全解决问题。建议您在使用YARN-per-job模式提交任务时,注意监控Zookeeper的状态和性能,及时发现并解决可能的问题,以提高任务的可靠性和稳定性。

    2023-07-23 13:03:07
    赞同 展开评论

实时计算Flink版是阿里云提供的全托管Serverless Flink云服务,基于 Apache Flink 构建的企业级、高性能实时大数据处理系统。提供全托管版 Flink 集群和引擎,提高作业开发运维效率。

收录在圈子:
实时计算 Flink 版(Alibaba Cloud Realtime Compute for Apache Flink,Powered by Ververica)是阿里云基于 Apache Flink 构建的企业级、高性能实时大数据处理系统,由 Apache Flink 创始团队官方出品,拥有全球统一商业化品牌,完全兼容开源 Flink API,提供丰富的企业级增值功能。
还有其他疑问?
咨询AI助理