开发者社区 问答 正文

集群中节点通信失败后,系统是如何处理这种情况以避免立即执行删除节点的流程的?

集群中节点通信失败后,系统是如何处理这种情况以避免立即执行删除节点的流程的?

展开
收起
萝卜丝丸子 2024-08-28 11:28:44 60 分享 版权
2 条回答
写回答
取消 提交回答
  • 当集群中一个节点通信失败后,系统会等待一定时间,称为超时间隔。在这个超时间隔内,如果节点能够恢复通信,则不会执行删除节点的流程。只有超过该超时间隔后,节点仍无法正常通信,系统才会认为该节点已经失效,并执行删除节点的流程。

    2024-08-28 15:19:00
    赞同 56 展开评论
  • 当阿里云容器服务Kubernetes版(ACK)中的节点通信失败时,系统会先尝试进行故障诊断和恢复。这包括监测节点状态,如condition字段,判断是否符合自动恢复的条件。如果满足条件,如Kubelet或containerd等关键服务异常,ACK会执行相应的恢复任务,如重启服务或实例。如果恢复失败,节点会进入恢复失败状态,此时不会立即执行删除操作。系统会记录相关事件,您可以在事件中心查看。请确保已安装NPD和事件中心组件以支持节点自愈功能。可参考文档

    2024-08-28 11:31:29
    赞同 64 展开评论
问答地址: