文档备案控制台

开发者社区问答正文

Kubernetes 集群节点故障自愈系统怎么设计？

Kubernetes 集群节点故障自愈系统怎么设计？

展开

收起

问问小秘 2019-11-14 13:22:34 3409 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

问问小秘

我们都知道物理机硬件存在一定的故障概率，随着集群节点规模的增加，集群中会常态出现故障节点，如果不及时修复上线，这部分物理机的资源将会被闲置。

为解决这一问题，我们设计了一套故障发现、隔离、修复的闭环自愈系统。

如下图所示，故障发现方面，采取 Agent 上报和监控系统主动探测相结合的方式，保证了故障发现的实时性和可靠性（Agent 上报实时性比较好，监控系统主动探测可以覆盖 Agent 异常未上报场景）。故障信息统一存储于事件中心，关注集群故障的组件或系统都可以订阅事件中心事件拿到这些故障信息。

节点故障自愈系统会根据故障类型创建不同的维修流程，例如：硬件维系流程、系统重装流程等。

维修流程中优先会隔离故障节点（暂停节点调度），然后将节点上 Pod 打上待迁移标签来通知 PaaS 或 MigrateController 进行 Pod 迁移，完成这些前置操作后，会尝试恢复节点（硬件维修、重装操作系统等），修复成功的节点会重新开启调度，长期未自动修复的节点由人工介入排查处理。

2019-11-14 13:23:39

赞同展开评论

问答分类：

Kubernetes 容器容器服务Kubernetes版

问答标签：

容器服务Kubernetes版集群容器服务Kubernetes版节点容器服务Kubernetes版系统容器服务Kubernetes版集群系统容器服务Kubernetes版节点系统

问答地址：

开发者社区 > 云原生 > 问答

相关问答

ChaosBlade在box上成功对k8s注入过故障吗？

207

1

0

ChaosBlade通过daemonset方式，对k8s节点执行节点网络丢包故障注入怎么办？

281

1

0

ChaosBlade对k8s注入内存占用故障，执行成功，这个有没有排查的方向？

175

1

0

Nacos是个类似与K8S的容器编排系统吗？

589

3

0

ChaosBlade中请问下k8s集群模式下，故障演练-应用管理部分pod机器显示0台是什么原因呢？

264

1

0

现在有个系统想要上云， k8s到云上容器服务ACK涉及代码部分改动吗？有没有文档参考？

209

1

0

Chaosblade中server模式禁用后有什么推荐的对多台节点、多个k8s集群故障注入方式吗？

188

1

0

chaosblade k8s场景对pod网络注入故障

337

0

0

咨询下各位：我们目前需要将业务系统迁移上容器服务ACK，不知道用哪种比较合适，求帮忙指导看看？

173

1

0

容器服务ACK哪些系统支持加入集群

173

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

QoderWork的Credit是如何计算的？固定Token量吗？如何查看我消耗了多少Token？

我用qoder 和 codex+deepseek 及claude + qwen 3.7同时解题目

阿里云服务器多少钱一年？支持40个连接的配置

阿里云服务器多少钱一年企业用？公司用什么配置？

阿里云服务器多少钱一年？企业用的配置费用价格

相关文章

Elasticsearch 入门教程：核心原理、Docker 部署与中文搜索实战

阿里云国际版Tair UnknownHostException解决：当你的缓存突然“查无此人”

【Azure Container Apps】Readiness Probe 配置了 15 秒，为什么日志里仍显示 1 秒超时？

让README “活”起来：Readme Typing SVG 介绍与本地化改造实践

Docker项目教程：使用Docker部署myspeed测速工具

相关解决方案

更多

构建视频直播系统

MetaGPT 构建多智能体协作系统

极速构建实时全文检索系统

LightRAG：轻量级知识图谱RAG系统

使用kubectl-ai助力ACK集群运维提效

还有其他疑问?