开发者社区> 问答> 正文

集群中节点通信失败后,系统是如何处理这种情况以避免立即执行删除节点的流程的?

集群中节点通信失败后,系统是如何处理这种情况以避免立即执行删除节点的流程的?

展开
收起
萝卜丝丸子 2024-08-28 11:28:44 9 0
2 条回答
写回答
取消 提交回答
  • 当集群中一个节点通信失败后,系统会等待一定时间,称为超时间隔。在这个超时间隔内,如果节点能够恢复通信,则不会执行删除节点的流程。只有超过该超时间隔后,节点仍无法正常通信,系统才会认为该节点已经失效,并执行删除节点的流程。

    2024-08-28 15:19:00
    赞同 19 展开评论 打赏
  • 当阿里云容器服务Kubernetes版(ACK)中的节点通信失败时,系统会先尝试进行故障诊断和恢复。这包括监测节点状态,如condition字段,判断是否符合自动恢复的条件。如果满足条件,如Kubelet或containerd等关键服务异常,ACK会执行相应的恢复任务,如重启服务或实例。如果恢复失败,节点会进入恢复失败状态,此时不会立即执行删除操作。系统会记录相关事件,您可以在事件中心查看。请确保已安装NPD和事件中心组件以支持节点自愈功能。可参考文档

    2024-08-28 11:31:29
    赞同 25 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
低代码开发师(初级)实战教程 立即下载
冬季实战营第三期:MySQL数据库进阶实战 立即下载
阿里巴巴DevOps 最佳实践手册 立即下载