问题1:OpenKruise 中maxUnavailable参数设置调优的话,逻辑其实是看异常的实例数,在这个基础上增加数值?
问题2:异常pod恢复的机制,我们在考虑怎么监控到自动恢复立衡?基于Kubevela,把SidecarSet抽象成KubeVela的component,多个集群对应vela里的多个workflow。
问题1:在 OpenKruise 中,maxUnavailable 参数的调优是基于异常实例数的逻辑。maxUnavailable 指定了在进行升级或扩容操作时允许的最大不可用 Pod 数量。通过增加该值,可以容忍更多的异常实例,并提高系统的可用性。
一般来说,您可以根据应用的特性和资源需求来决定合适的 maxUnavailable 值。如果您预计在升级或扩容期间会有更多的异常实例出现,可以适当增加 maxUnavailable 的值。这样可以确保在操作期间仍然有足够数量的正常实例可供使用。
请注意,maxUnavailable 参数的设置需要综合考虑系统的资源情况、业务需求和 SLA(Service Level Agreement)。建议通过测试和监控来评估和调整合适的 maxUnavailable 值,以达到最佳的平衡。
问题2:对于异常 Pod 的恢复机制,在 OpenKruise 中有内建的自动恢复功能。当 Pod 处于非健康或不可用状态时,OpenKruise 会自动替换它们,以确保应用的稳定性和可用性。这种替换过程将在 Cloneset 或 StatefulSet 控制器的管理下进行。
要监控异常 Pod 的恢复情况,您可以使用集群监控工具(如Prometheus)或日志记录服务来监测和记录 Pod 的健康状态。通过收集和分析这些数据,您可以了解异常 Pod 的恢复时间,并触发相应的报警或通知机制。
回答1:是的。也可以考虑将那些异常的Pod 恢复了。此回答整理至钉群“OpenKruise 社区交流群”。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
阿里云拥有国内全面的云原生产品技术以及大规模的云原生应用实践,通过全面容器化、核心技术互联网化、应用 Serverless 化三大范式,助力制造业企业高效上云,实现系统稳定、应用敏捷智能。拥抱云原生,让创新无处不在。