开发者社区> 问答> 正文

Flink实例报错Job leader for job id xxx lost leadership

Caused by: java.lang.Exception: Job leader for job id 00245259f6646acab992d28789b17184 lost leadership。

展开
收起
1992188272862832 2021-10-21 16:48:14 8449 0
1 条回答
写回答
取消 提交回答
  • 一句话

    集群网络不稳定,导致和zookeeper失联,暂时断开无法连接leadership。 如果 ZK 在一段时间内没有收到 Flink RM 的心跳 ,它会撤销领导权并通知。 查看TaskManager日志可能会获得这样的警告:WARN org.apache.flink.shaded.zookeeper3.org.apache.zookeeper.ClientCnxn - Client session timed out, have not heard from server in 40020ms for sessionid 0x404f9ca531a5d6f zk在切换leader或者网络抖动、机器繁忙、zk集群短暂无响应,都会导致curator将状态置为suspended.,会触发SUSPENDED状态,这个状态,会导致lost the leadership错误,而遇到这个错误,k8s直接就重启程序。 解决办法参考:flink 关于 zk 引起的重启https://my.oschina.net/u/2274874/blog/4718955

    2022-06-10 18:04:32
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Flink CDC Meetup PPT - 龚中强 立即下载
Flink CDC Meetup PPT - 王赫 立即下载
Flink CDC Meetup PPT - 覃立辉 立即下载