开发者社区> 问答> 正文

如何增强Guest OS的可服务性? RAS - Supportability

已解决

如何增强Guest OS的可服务性RAS - Supportability?

展开
收起
阿阿里云 2022-04-05 09:35:03 601 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    Guest OS 可服务性的主要目的是提升 Guest OS 维护的效率,降低 Guest OS 维护 的成本。无论用户使用的是 Scale Up 架构,还是 Scale Out 架构,在操作系统发生故 障时,都可能产生故障修复或者至少是根本原因分析的诉求,这方面的能力甚至会直 接影响到用户和服务商根据 SLA 定责的公平性和效率。 如前所述,当系统不可用时,不论是宕机、夯机、关键任务夯都可能会触发 kernel panic 来辅助故障修复和诊断分析,而在这个过程中,如何比较可靠地产生 kernel core dump(内核核心转储)文件,成为焦点问题。这里主要的问题有以下几种。 • 需要人工干预。夯机自动检测设置较复杂且有很多原因会导致失败,因此需要人工干预。例如,AWS 通过支持用户主动触发 kernel core dump 帮助诊断系统问题。

    • 需要避免内存浪费。Linux 内核 kernel dump 机制可能造成预留内存浪费问题,因此需要支持其他 kernel dump 机制。例如,允许将 kernel core 直接保存到用户指定的对象存储空间中。

    • 需要提升 kernel dump 性能。kernel dump 会导致系统冻结,造成短时间内系统 不可用,需要提升 dump 性能,缩短系统不可用的时间。 除可用性故障外,还有很多 Guest OS 故障与服务质量相关。比较常见的性能抖动问题、系统资源竞争问题都需要更高效率的故障诊断和界定工具来帮助确定原因。例如,当应用对文件的 buffer I/O 的写出现抖动时,究竟是 Guest OS 的内存压力问题,还是文件 I/O 系统的锁问题,抑或是底层云盘块存储的问题呢? 现代内核支持动态追踪技术的 Linux 发行版,可以方便安全地使用 eBPF 追踪技术快速定位上述问题。例如,Aliyun Linux 2 的发行版集成了基于 eBPF 的诊断工具包,这些工具包也是阿里云内部规模化运维诊断系统问题多年的经验积累。

    《弹性计算:无处不在的算力》电子书可以通过以下链接下载:https://developer.aliyun.com/topic/download?id=7996"

    2022-04-05 10:47:26
    赞同 展开评论 打赏
来源圈子
更多
收录在圈子:
阿里云开发者社区官方技术圈,用户产品功能发布、用户反馈收集等。
问答排行榜
最热
最新

相关电子书

更多
国产服务器操作系统发展报告(2023年) 立即下载
开放算力·云启未来 立即下载
2022龙蜥操作系统生态用户实践精选 立即下载