主流 Linux 操作系统都提供了错误报告机制,以确保在软硬件故障发生时可以正确地被检测到,并且及时报告,操作系统的错误处理程序会正确地处理错误,以防止出现数据损坏(Data Corruption)。 Linux 发行版在软件层面的错误处理能力大同小异,目前还存在以下问题。
• 用户往往会忽视通过升级内核提升系统的可靠性。例如,软件缺陷没有及时被修复导致故障,或者对新硬件支持不够,内核不能很好地处理新的硬件型号的 RAS 特性。
• 云服务提供商的服务器或者虚拟化层不支持 RAS 特性,导致 Guest OS 的 RAS 特性无法发挥作用。 在物理服务器内存容量越来越大,大规格虚拟机内存容量越来越大的情况下,Guest OS 的 RAS 能力将会逐渐成为企业级应用的一大痛点。在物理服务器 RAS 特性使能的前提下,通过虚拟化能力的透传,让 Guest OS 可以端到端地处理硬件错误,必然是一个技术趋势。
《弹性计算:无处不在的算力》电子书可以通过以下链接下载:https://developer.aliyun.com/topic/download?id=7996"
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。