如何增强Guest OS的可服务性RAS - Supportability?
Guest OS 可服务性的主要目的是提升 Guest OS 维护的效率,降低 Guest OS 维护 的成本。无论用户使用的是 Scale Up 架构,还是 Scale Out 架构,在操作系统发生故 障时,都可能产生故障修复或者至少是根本原因分析的诉求,这方面的能力甚至会直 接影响到用户和服务商根据 SLA 定责的公平性和效率。 如前所述,当系统不可用时,不论是宕机、夯机、关键任务夯都可能会触发 kernel panic 来辅助故障修复和诊断分析,而在这个过程中,如何比较可靠地产生 kernel core dump(内核核心转储)文件,成为焦点问题。这里主要的问题有以下几种。 • 需要人工干预。夯机自动检测设置较复杂且有很多原因会导致失败,因此需要人工干预。例如,AWS 通过支持用户主动触发 kernel core dump 帮助诊断系统问题。
• 需要避免内存浪费。Linux 内核 kernel dump 机制可能造成预留内存浪费问题,因此需要支持其他 kernel dump 机制。例如,允许将 kernel core 直接保存到用户指定的对象存储空间中。
• 需要提升 kernel dump 性能。kernel dump 会导致系统冻结,造成短时间内系统 不可用,需要提升 dump 性能,缩短系统不可用的时间。 除可用性故障外,还有很多 Guest OS 故障与服务质量相关。比较常见的性能抖动问题、系统资源竞争问题都需要更高效率的故障诊断和界定工具来帮助确定原因。例如,当应用对文件的 buffer I/O 的写出现抖动时,究竟是 Guest OS 的内存压力问题,还是文件 I/O 系统的锁问题,抑或是底层云盘块存储的问题呢? 现代内核支持动态追踪技术的 Linux 发行版,可以方便安全地使用 eBPF 追踪技术快速定位上述问题。例如,Aliyun Linux 2 的发行版集成了基于 eBPF 的诊断工具包,这些工具包也是阿里云内部规模化运维诊断系统问题多年的经验积累。
《弹性计算:无处不在的算力》电子书可以通过以下链接下载:https://developer.aliyun.com/topic/download?id=7996"
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。