备案控制台

开发者社区云原生正文

OpenKruise 中异常Pod会导致升级任务无法进行，有什么优化经验吗？

OpenKruise 中使用SidecarSet时maxUnavailable设置的太小，异常Pod会导致升级任务无法进行，有什么优化经验吗？比如怎么判断设置多少合适，有什么办法检测出哪些pod异常导致任务卡住了？

展开

收起

十一0204 2023-07-19 21:28:50 143 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

Star时光
在使用 OpenKruise 的 SidecarSet 进行升级任务时，确实可以遇到由于异常 Pod 导致升级任务无法进行的情况。以下是一些优化经验和建议：
1. 调整 maxUnavailable 值：maxUnavailable 参数指定了在进行升级过程中允许的最大不可用 Pod 数量。如果设置得太小，可能会导致升级任务无法进行。您可以根据应用的特性和资源需求来调整该值。一般建议将其设置为足够大，以容忍一定数量的异常 Pod。
2. 监控和日志记录：通过监控工具（如Prometheus）或集群日志记录（如ELK Stack），可以检测到发生故障或异常的 Pod。这样，您可以及时发现异常 Pod，并采取相应的措施。
3. 使用 Readiness Probe 和 Liveness Probe：合理配置 Pod 的 Readiness Probe 和 Liveness Probe 可以帮助检测并处理异常 Pod。Liveness Probe 用于确定 Pod 是否处于健康状态，Readiness Probe 用于确定 Pod 是否准备好接收流量。如果一个 Pod 处于非健康或不可用状态，OpenKruise 将自动替换它。
4. 回滚策略：配置适当的回滚策略可以帮助您应对升级失败的情况。OpenKruise 提供了多种回滚策略，例如暂停、回滚到指定版本等。根据您的需求，选择合适的回滚策略以确保应用的稳定性。
5. 备份和恢复：在进行升级之前，定期备份关键数据和配置，并建立可靠的恢复机制。这样，即使升级任务受阻，您可以通过快速恢复到先前的稳定状态来避免业务中断。
2023-07-28 11:37:48

赞同展开评论
意中人jswy

意中人就是我呀！

其实通过 status 那几个字段也能判断出来。可以assgin 给你自己。https://github.com/openkruise/kruise/issues/1331 也可以有一些condition 之类的。。估计这样，你的上层paas 更好对接了。此回答整理至钉群“OpenKruise 社区交流群”。

2023-07-20 08:06:28

赞同展开评论

问答分类：

调度 Perl

问答地址：

开发者社区 > 云原生 > 问答

相关问答

购买阿里国外的云服务器是否可以访问谷歌？

83978

47

0

请问下我访问接口不通什么原因 Provisional headers are shown

3886

1

0

this xml file does not appear to have any style in

52024

10

0

重启Docker后报错：Error response from daemon

2413

0

0

sql server的用户名和密码怎么查啊？

37602

21

0

LoRa的网络覆盖能力范围是怎么样的？

3238

1

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

61010

32

0

OSS的endpoint如何查看

37576

6

0

域名在阿里买的，服务器在百度买的，域名备案在百度云也通过备案了，现在怎么将阿里云的域名解析到百度

3728

1

0

阿里云服务器如何重置系统？

24791

4

0

云原生

阿里云拥有国内全面的云原生产品技术以及大规模的云原生应用实践，通过全面容器化、核心技术互联网化、应用 Serverless 化三大范式，助力制造业企业高效上云，实现系统稳定、应用敏捷智能。拥抱云原生，让创新无处不在。

我要提问

相关文章

工厂人员定位卡从技术原理、功能与技术实现、选型指南详解（一）

《运行时管线切换与自定义后效的落地实操手册》

Java作业调度中的分支限界算法详解（从零开始掌握任务调度优化）

酒店递送机器人深度技术解析与解决方案选型指南

Chiplet 技术：芯片终于不再“憋大招”，而是开始像搭积木一样干活了

热门讨论

热门文章

请教下 mqtt连接成功了，能收到消息，后面又自动断开了连接，是什么情况？

Nacos Namespace 未授权访问漏洞为什么？

nacos 客户端SDK可以灰度发布配置吗？

请问主域名备案了，子域名还要备案吗？

Nacos客户端升级后获取不到配置，这个问题怎么解决？

Nacos高可用方案中，需要使用nginx做负载均衡吗？

ots是啥我了解一下？

Java 中我用一个类实现你们的handler 接口中 handle request 的方法然后

怎么查看registry.aliyuncs.com/google_containers都有哪些镜像

阿里云的VPN软件sase部署在客户内网终端时候，需要在防火墙放通哪些域名和IP地址

展开全部

Docker CE 镜像源站

Minikube - Kubernetes本地实验环境

重塑云上的 Java 语言

微服务架构的理论基础 - 康威定律

微服务（Microservice）那点事

Docker的Windows容器初体验

3分钟，了解阿里云热门开发者工具 Cloud Toolkit

Docker学习路线图 (持续更新中)

当 Kubernetes 遇到阿里云

基于Docker容器的，Jenkins、GitLab构建持续集成CI

展开全部

还有其他疑问?