通过ECS诊断服务自助解决实例启动的问题(二)

简介: 之前的文章《通过ECS诊断服务自助解决实例启动的问题(一)》介绍了通过诊断服务对ECS的启动问题进行诊断的方法。在2022年11月,ECS发布了新一版的实例启动诊断功能,扩充了原有的诊断能力,并增加了新的实例截屏诊断功能,可以更全方面的进行诊断。

介绍

ECS实例启动是实例使用的第一步也是关键的一步,这点的重要性已经很明显。在本系列第一篇文章中,已经介绍了我们的一些初期工作,在之前版本的实例启动诊断功能中,我们可以诊断云系统、用户操作系统中:fstab文件/磁盘使用率/磁盘innode的问题。因为绝大多数实例启动的问题都是出现在用户操作系统内,因此在最近的一段时间,阿里云弹性计算团队又扩充了更多的操作系统方面的诊断能力,并将原有的“实例启动异常”功能升级为“实例状态为已停止,无法正常启动”功能,扩展了更多的能力,同时推出“实例状态为运行中,操作系统启动异常”功能,两者相辅相成,共同为实例启动问题进行全面诊断。

使用方式

针对不同状态的实例,我们推出了两种诊断工具,他们的诊断能力有很多不同之处,对于问题的覆盖度形成了互补。

1、针对停止运行的实例

如下图所示,进入阿里云ECS控制台,在功能列表中选择“自助问题排查”,然后选择实例问题排查 > 实例无法连接或启动异常 > 实例状态为已停止,无法正常启动诊断项,然后选择一个需要诊断的停止状态的实例,选择一个诊断时间段,对该ECS实例进行诊断排查。诊断主要诊断实例操作系统和云系统来进行,诊断时间段主要用来选择诊断特定时间范围内云系统的问题,而操作系统问题则是诊断当前时刻的操作系统,与选择的时间段无关。诊断的实例操作系统版本需满足诊断系统支持的版本范围。

需要注意的是,因为实例排查会对实例的操作系统进行诊断,需要对操作系统挂载修复盘(PE盘),在诊断或修复实例之后,需要用户手动将修复盘卸载掉,诊断报告的结果页或实例列表页会提供一键卸载的方法,否则实例会一直以修复模式启动,无法进入用户的操作系统里。

image.png

2、针对运行中的实例

如下图所示,进入阿里云ECS控制台,在功能列表中选择“自助问题排查”,然后选择实例问题排查 > 实例无法连接或启动异常 > 实例状态为运行中,操作系统启动异常诊断项,然后选择一个需要诊断的运行中状态的实例,对该ECS实例进行诊断排查。诊断主要针对实例操作系统进行诊断,可以诊断主流版本的Linux和windows操作系统。

image.png

我们建议用户在停止状态的实例诊断完成之后,若没有诊断出问题,可以卸载修复盘后,重新启动实例,让实例处于运行中,再次发起对于运行中状态实例的诊断。如果最开始使用的是对运行中状态实例的诊断,没有诊断出问题,则可以将实例以普通模式停机,并发起停止状态实例的诊断。这样两种诊断能力结合,可以最大程度的帮助用户发现问题。

诊断报告

1、针对停止运行的实例

经过几分钟的等待后,即可看到实例的诊断结果报告。

和上一篇文章介绍的类似,如下图所示,报告主要分为3部分:

image.png

第一部分是修复盘说明、临时挂载的修复盘对应的root用户以及密码信息。用户可以用该用户和密码信息通过VNC登录挂载了修复盘的ECS实例进行修复。在修复完成后需要手动卸载修复盘。

第二部分是报告的核心内容展示部分,主要是展示诊断出的问题、问题详情解读以及给出解决办法。点击解决方法链接,按照文档说明操作即可修复问题,如果还有问题也可以继续发起人工工单寻求技术支持。以图中例子来看,该实例操作系统的fstab文件第12行出现了格式错误,导致操作系统在启动中无法识别该挂载设备,进而导致启动失败。点击参考链接,即可看到修复方法,按照步骤进行修复后即可去尝试再次启动实例。

第三部分是整体诊断的指标概览。诊断会对云系统问题和实例操作系统问题进行诊断,对于出现问题的诊断项,报告会进行标红。

如果没有发现问题,建议重新启动实例,当实例处于运行中的状态时,发起“实例状态为运行中,操作系统启动异常”的诊断,以便排查其他可能存在的问题。

2、针对运行中的实例

经过几分钟的等待后,即可看到实例的诊断结果报告。

如下图所示,报告主要分为2部分:

image.png

第一部分是报告的核心内容展示部分,主要是展示诊断出的问题描述、对应的错误码,以及对应的修复方案链接。点击文档链接,根据错误码即可在文档中找到对应的修复方案。如果还有问题也可以继续发起人工工单寻求技术支持。以图中例子来看,该实例操作系统的Grub引导文件出现了问题,导致实例启动失败。点击参考链接,根据错误码“1662001143”即可找到修复方法,按照步骤进行修复后即可尝试再次启动实例。

第二部分是整体诊断的指标概览。目前主要是针对实例操作系统的截屏诊断。

如果没有发现问题,建议以普通模式停止实例,当实例处于已停止的状态时,发起“实例状态为已停止,无法正常启动”的诊断,以便排查其他可能存在的问题。

第二版诊断系统的诊断项介绍

1、针对停止运行的实例

本次诊断服务新增支持以下的诊断项:

  • 实例Linux操作系统
  • 缺失系统启动release文件
  • 缺失系统启动需要的内核文件
  • GRUB配置中内核参数root=配置错误  
  • 实例在/etc/fstab文件中配置的设备文件系统与设备实际的文件系统不一致
  • 实例存在相同UUID的文件系统
  • /etc/fstab 中配置了同一个文件系统挂载到不同挂载点
  • /etc/fstab 中配置了多个文件系统挂载到同一个挂载点
  • 磁盘文件系统未启用project quota特性
  • 实例的/etc/fstab文件中配置的某个设备不存在
  • 实例中有文件系统的数据布局被破坏
  • Linux实例中关键的系统用户不存在
  • 系统关键文件属性错误
  • SELinux 开启且规则配置不当

2、针对运行中的实例

诊断服务覆盖了以下的诊断项:

  • 实例Linux操作系统
  • 系统GRUB引导失败
  • GRUB 配置文件root UUID 不正确
  • GRUB文件配置缺失
  • 内核运行崩溃
  • fstab 内配置的挂载点不存在
  • 文件系统fsck异常
  • 系统关键文件缺失
  • 实例Windows操作系统
  • 引导扇区丢失或者破坏或者驱动文件丢失或者损坏
  • BCD配置文件丢失或者损坏
  • Bootmgr丢失或者破坏
  • Sysprep 未完成
  • 驱动出现问题
  • 系统文件损坏或丢失
  • BCD 损坏
  • 用户注册表损坏
  • 系统注册表丢失或者破坏
  • 磁盘问题
  • 操作系统文件丢失或者破坏
  • 非正常关机导致问题


每类诊断能力后续都还有其他的诊断项会陆续发布。如果您有比较急迫的其他诊断需求,也可以联系我们

工作原理

针对停止状态实例的诊断原理可参见第一篇文章的介绍。

针对运行中的实例的诊断原理如下图所示,用户可以发起诊断,诊断系统收到请求后会对实例操作系统进行截图,在拿到截图结果后对图片进行分析,根据分析得到的文本等信息在诊断系统中进行进一步的结果分析处理,完成场景分类和诊断项诊断等工作,最终得到诊断结果,将诊断报告返回给用户。

image.png


已开放地域

目前实例启动异常诊断的能力已经通过ECS控制台在阿里云全球所有地域向所有用户开放。

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
3天前
|
弹性计算 数据挖掘 测试技术
ECS e实例测评
ECS e实例是阿里云推出的经济型云服务器,适合中小规模应用。性能上能满足基本需求,但在高并发场景下表现一般。性价比高,价格亲民,适合预算有限的开发者。用户体验良好,配有丰富的技术文档,但部分高级功能操作说明有待优化。
30 18
|
1天前
|
弹性计算 运维 Serverless
产品测评 | ECS的健康保障新助手——云服务诊断
本文评测了阿里云的云服务诊断工具,该工具旨在帮助运维工程师和开发者快速定位和解决云资源问题。工具提供了“健康状态”和“诊断”两大核心功能,能够实时监控云资源状态,排查如网站无法访问、ECS故障等多种问题,并给出修复建议。该工具显著提升了排障效率,但在文档清晰度、功能描述准确性及部分功能实现上仍有改进空间。总体而言,该工具值得推荐给其他用户或团队使用。
|
1天前
|
弹性计算 运维 开发者
关于ECS 健康状态 诊断功能评测
这是一位开发兼运维工程师的观点,认为云资源的健康状态和诊断功能作用有限,因为大多数问题根源在于代码质量,而这些工具无法改善低下的代码质量导致的资源异常。
|
9天前
|
存储 分布式计算 安全
阿里云服务器经济型e、通用算力型u1、计算型c8i、通用型g8i、内存型r8i实例介绍与选择参考
在阿里云现在的活动中,可选的云服务器实例规格主要有经济型e、通用算力型u1、计算型c8i、通用型g8i、内存型r8i实例,虽然阿里云在活动中提供了多种不同规格的云服务器实例,以满足不同用户和应用场景的需求。但是有的用户并不清楚他们的性能如何,应该如何选择。本文将详细介绍阿里云服务器中的经济型e、通用算力型u1、计算型c8i、通用型g8i、内存型r8i实例的性能、适用场景及选择参考,帮助用户根据自身需求做出合适的选择。
|
14天前
|
存储 人工智能 编解码
阿里云服务器计算型c8i、通用型g8i和计算型c8a、通用型g8a实例区别及选择参考
在选择阿里云服务器计算型和通用型实例规格的时候,有的用户不清楚计算型c8i、通用型g8i与计算型c8a、通用型g8a实例的区别,他们都是采用阿里云全新CIPU架构,可提供稳定的算力输出、更强劲的I/O引擎以及芯片级的安全加固。但是计算型c8i和通用型g8i实例用的是Intel处理器,计算型c8a和通用型g8a实例用的是AMD处理器。本文将详细介绍阿里云服务器计算型c8i、通用型g8i与计算型c8a、通用型g8a实例各自的性能和区别,以及适合的用户群体,帮助用户更好地选择适合自己的云服务器实例。
|
16天前
|
弹性计算 监控 数据库
制造企业ERP系统迁移至阿里云ECS的实例,详细介绍了从需求分析、数据迁移、应用部署、网络配置到性能优化的全过程
本文通过一个制造企业ERP系统迁移至阿里云ECS的实例,详细介绍了从需求分析、数据迁移、应用部署、网络配置到性能优化的全过程,展示了企业级应用上云的实践方法与显著优势,包括弹性计算资源、高可靠性、数据安全及降低维护成本等,为企业数字化转型提供参考。
41 5
|
16天前
|
弹性计算 监控 容灾
阿里云ECS提供强大的云上灾备解决方案,通过高可用基础设施、多样的数据备份方式及异地灾备服务,帮助企业实现业务的持续稳定运行
在数字化时代,企业对信息技术的依赖加深,确保业务连续性至关重要。阿里云ECS提供强大的云上灾备解决方案,通过高可用基础设施、多样的数据备份方式及异地灾备服务,帮助企业实现业务的持续稳定运行。无论是小型企业还是大型企业,都能从中受益,确保在面对各种风险时保持业务稳定。
34 4
|
17天前
|
存储 机器学习/深度学习 编解码
阿里云服务器计算型c8i实例解析:实例规格性能及使用场景和最新价格参考
计算型c8i实例作为阿里云服务器家族中的重要成员,以其卓越的计算性能、稳定的算力输出、强劲的I/O引擎以及芯片级的安全加固,广泛适用于机器学习推理、数据分析、批量计算、视频编码、游戏服务器前端、高性能科学和工程应用以及Web前端服务器等多种场景。本文将全面介绍阿里云服务器计算型c8i实例,从规格族特性、适用场景、详细规格指标、性能优势、实际应用案例,到最新的活动价格,以供大家参考。
|
弹性计算 网络协议 安全
阿里云ECS7天训练营-Day1 搭建FTP服务
阿里云ECS7天训练营-Day1 搭建FTP服务
1161 0
阿里云ECS7天训练营-Day1 搭建FTP服务
|
16天前
|
存储 人工智能 弹性计算
阿里云弹性计算(ECS)提供强大的AI工作负载平台,支持灵活的资源配置与高性能计算,适用于AI训练与推理
阿里云弹性计算(ECS)提供强大的AI工作负载平台,支持灵活的资源配置与高性能计算,适用于AI训练与推理。通过合理优化资源分配、利用自动伸缩及高效数据管理,ECS能显著提升AI系统的性能与效率,降低运营成本,助力科研与企业用户在AI领域取得突破。
35 6