开发者社区> 问答> 正文

如何增强Guest OS的可用性? RAS - Availability

已解决

如何增强Guest OS的可用性RAS - Availability?

展开
收起
阿阿里云 2022-04-05 09:35:03 575 0
1 条回答
写回答
取消 提交回答
  • 推荐回答

    Guest OS 可用性的核心是减少系统的非计划停机时间(Unplanned Down Time)。 系统可以在操作系统的软件层之上,使用高可用方案保障业务的连续性,减少系统不可用时间对业务可用性的影响。然而,Guest OS 对故障检测和 Failover 过程更友好的支持,可以大大提升云上 Scale Out 系统的运维效率。 系统不可用可能有很多原因,从错误现象上分为以下三类。

    • 宕机(Panic):内核检测到软件或硬件错误,进入 kernel panic 流程,然后重 启恢复服务。这时,系统的恢复时间和 panic 流程里 crashdump 的性能、启动性能都有关系。

    • 夯机(Hang):内核全局夯死。这时软件可以通过网络心跳,或者设置内核看门狗(Hard/Soft Lockup Watchdog)等手段检测到夯机。此时可以触发应用层的 failover,并触发 kernel panic 来保障夯机原因得到诊断。

    • 任务夯(Task Hang):关键进程在内核卡死或者卡顿超时。这时软件可以通过内核看门狗(Hang Task Detector)检测到任务夯,此时可以触发应用层的 failover,并触发 kernel panic 来保障任务夯原因得到诊断。

    《弹性计算:无处不在的算力》电子书可以通过以下链接下载:https://developer.aliyun.com/topic/download?id=7996"

    2022-04-05 10:47:26
    赞同 展开评论 打赏
来源圈子
更多
收录在圈子:
阿里云开发者社区官方技术圈,用户产品功能发布、用户反馈收集等。
问答排行榜
最热
最新

相关电子书

更多
国产服务器操作系统发展报告(2023年) 立即下载
开放算力·云启未来 立即下载
2022龙蜥操作系统生态用户实践精选 立即下载