通过ECS诊断服务自助解决实例启动的问题(一)

简介: 购买实例然后启动实例是客户对新购ECS资源操作的第一步,对已经停机的实例进行启动也是客户对已有ECS资源操作的第一步。而对于阿里云系统来说,放眼全局,启动实例也是一个非常高频的、核心的操作。所以对于无论是客户还是阿里云系统都是关键的这一步,偶尔也会发生一些意外,导致实例启动失败,这里面的原因是非常复杂的。想要排查清楚实例为什么启动失败对于无论是有专业知识的客户还是非专业人员,都不是那么的容易,因为实例启动往往背后几乎牵扯了所有的实例组件,每个组件又各有各的复杂。一种专业、快速又高效的实例启动失败排查方法对于任何人都是重要的。

简介

购买实例然后启动实例是客户对新购ECS资源操作的第一步,对已经停机的实例进行启动也是客户对已有ECS资源操作的第一步。而对于阿里云系统来说,放眼全局,启动实例也是一个非常高频的、核心的操作。所以对于无论是客户还是阿里云系统都是关键的这一步,偶尔也会发生一些意外,导致实例启动失败,这里面的原因是非常复杂的。想要排查清楚实例为什么启动失败对于无论是有专业知识的客户还是非专业人员,都不是那么的容易,因为实例启动往往背后几乎牵扯了所有的实例组件,每个组件又各有各的复杂。一种专业、快速又高效的实例启动失败排查方法对于任何人都是重要的。通过“实例启动异常”的诊断,客户可以在系统诊断能力范围内尽快的搞清楚出问题的原因、问题的解决方案等信息,无疑是一大利好。


介绍

启动实例,是客户对新购ECS实例、已有停机ECS实例进行使用不可绕过的第一步,也是阿里云系统的一个高频、关键的操作。其使用方式决定了这一步是非常关键的,但这步偶尔也会发生失败,这里的失败原因是很复杂的,因为一个实例的启动,往往涉及实例操作系统、云系统的各个组件,这每个组件和系统都会有很多原因导致实例无法启动,在这样的背景下,无论是具有专业知识的客户还是不太熟悉云计算的新手面对启动失败的问题都很容易变得一筹莫展。

阿里云ECS团队推出了“实例启动异常”的诊断功能,通过这个功能,在诊断系统已有的能力范围内,可以快速诊断出实例无法启动的原因以及得到对应的解决办法。力争让问题变得容易定位且可更快速的解决。


使用方式

如下图所示,进入阿里云ECS控制台,在功能列表中选择“自助问题排查”,然后选择实例问题排查 > 实例无法连接或启动异常 > 实例启动异常诊断项,然后选择一个需要诊断的非运行中状态的实例,选择一个诊断时间段,对该ECS实例进行诊断排查。诊断主要诊断实例操作系统和云系统来进行,诊断时间段主要用来选择诊断特定时间范围内云系统的问题,而操作系统问题则是诊断当前时刻的操作系统,与选择的时间段无关。诊断的实例操作系统版本需满足诊断系统支持的版本范围。

需要注意的是,因为实例排查会对实例的操作系统进行诊断,需要对操作系统挂载修复盘(PE盘),在诊断或修复实例之后,需要用户手动将修复盘卸载掉,诊断报告的结果中会提供一键卸载的方法,否则实例会一直以修复模式启动,无法进入用户的操作系统里。

诊断报告

经过几分钟的等待后,即可看到实例的诊断结果报告。

如下图所示,报告主要分为4部分:

第一部分是修复盘说明、临时挂载的修复盘对应的root用户以及密码信息。用户可以通过该信息登录挂载了修复盘的ECS实例。还有VNC远程连接入口,ECS实例挂载修复盘的状态下,用户只能通过该入口登录ECS实例进行问题修复,Workbench、第三方远程连接工具等方式均无法直接登录该实例。卸载修复盘入口,用户在诊断完成判断不需要进行进一步修复或已经修复完成后,需要手动卸载修复盘。

第二、三部分是报告的核心内容展示部分,主要是对于诊断出的问题的描述、问题详情解读以及给出解决办法。点击解决方法链接,按照文档说明操作即可修复问题,如果还有问题也可以继续发起人工工单寻求技术支持。以图中例子来看,该实例操作系统的fstab文件配置了一个不存在的设备,导致操作系统在启动中无法识别,进而导致启动失败。点击第三部分中的参考链接,即可看到修复方法,按照步骤进行修复后即可去尝试再次启动实例。

第四部分是整体诊断的指标概览。诊断会对云系统问题和实例操作系统问题进行诊断,对于出现问题的诊断项,报告会进行标红。


在发起实例诊断的页面,也可以查看账号下过往的诊断报告历史。


诊断项介绍

目前诊断服务支持以下的诊断项:

  • 云系统
  • 库存资源不足
  • 系统问题
  • 快照镜像问题
  • 私网IP资源问题
  • 磁盘问题
  • 虚拟化问题
  • 实例操作系统
  • 磁盘使用率和Innode检查
  • fstab中的设备检查
  • fstab中的设备挂载状态检查
  • fstab文件的格式检查


后续还有更多的诊断项会陆续发布:

  • grub.cfg丢失;
  • 根目录软链丢失;
  • 分区无文件系统等等

如果您有比较急迫的其他诊断需求,也可以联系我们

工作原理

用户发起实例启动诊断后,诊断服务会分别检查云系统的各个诊断项以及实例操作系统的各个诊断项,其中实例操作系统诊断项运行之前,必须先挂载修复盘,用修复盘启动操作系统。在云系统和操作系统的各个诊断项完成后,返回整体的报告、问题详情以及问题修复建议。


已开放地域

目前实例启动异常诊断的能力已经通过ECS控制台在阿里云全球所有地域向所有用户开放。


相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
1天前
|
存储 缓存 运维
阿里云服务器经济型e与通用算力型u1实例各自性能、适用场景区别及选择参考
在选择阿里云服务器实例规格时,经济型e实例和通用算力型u1实例因其高性价比和广泛适用性,备受个人开发者、中小企业的青睐。在同地域、相同配置的情况下,经济型e和通用算力型u1实例的价格相对于其他实例规格要低一些,很多个人和初创企业用户都会优先考虑选择这两个实例规格的云服务器,那么它们之间有什么区别?各自的性能、适用场景上有何区别?我们应该如何选择呢?本文将详细解析这两款实例的性能特点、适用场景、价格优势及购买建议,帮助用户更好地理解并选择合适的云服务器实例。
|
4天前
|
弹性计算 数据挖掘 测试技术
ECS e实例测评
ECS e实例是阿里云推出的经济型云服务器,适合中小规模应用。性能上能满足基本需求,但在高并发场景下表现一般。性价比高,价格亲民,适合预算有限的开发者。用户体验良好,配有丰富的技术文档,但部分高级功能操作说明有待优化。
31 18
|
2天前
|
弹性计算 运维 Serverless
产品测评 | ECS的健康保障新助手——云服务诊断
本文评测了阿里云的云服务诊断工具,该工具旨在帮助运维工程师和开发者快速定位和解决云资源问题。工具提供了“健康状态”和“诊断”两大核心功能,能够实时监控云资源状态,排查如网站无法访问、ECS故障等多种问题,并给出修复建议。该工具显著提升了排障效率,但在文档清晰度、功能描述准确性及部分功能实现上仍有改进空间。总体而言,该工具值得推荐给其他用户或团队使用。
|
2天前
|
弹性计算 运维 开发者
关于ECS 健康状态 诊断功能评测
这是一位开发兼运维工程师的观点,认为云资源的健康状态和诊断功能作用有限,因为大多数问题根源在于代码质量,而这些工具无法改善低下的代码质量导致的资源异常。
|
10天前
|
存储 分布式计算 安全
阿里云服务器经济型e、通用算力型u1、计算型c8i、通用型g8i、内存型r8i实例介绍与选择参考
在阿里云现在的活动中,可选的云服务器实例规格主要有经济型e、通用算力型u1、计算型c8i、通用型g8i、内存型r8i实例,虽然阿里云在活动中提供了多种不同规格的云服务器实例,以满足不同用户和应用场景的需求。但是有的用户并不清楚他们的性能如何,应该如何选择。本文将详细介绍阿里云服务器中的经济型e、通用算力型u1、计算型c8i、通用型g8i、内存型r8i实例的性能、适用场景及选择参考,帮助用户根据自身需求做出合适的选择。
|
15天前
|
存储 人工智能 编解码
阿里云服务器计算型c8i、通用型g8i和计算型c8a、通用型g8a实例区别及选择参考
在选择阿里云服务器计算型和通用型实例规格的时候,有的用户不清楚计算型c8i、通用型g8i与计算型c8a、通用型g8a实例的区别,他们都是采用阿里云全新CIPU架构,可提供稳定的算力输出、更强劲的I/O引擎以及芯片级的安全加固。但是计算型c8i和通用型g8i实例用的是Intel处理器,计算型c8a和通用型g8a实例用的是AMD处理器。本文将详细介绍阿里云服务器计算型c8i、通用型g8i与计算型c8a、通用型g8a实例各自的性能和区别,以及适合的用户群体,帮助用户更好地选择适合自己的云服务器实例。
|
17天前
|
弹性计算 监控 数据库
制造企业ERP系统迁移至阿里云ECS的实例,详细介绍了从需求分析、数据迁移、应用部署、网络配置到性能优化的全过程
本文通过一个制造企业ERP系统迁移至阿里云ECS的实例,详细介绍了从需求分析、数据迁移、应用部署、网络配置到性能优化的全过程,展示了企业级应用上云的实践方法与显著优势,包括弹性计算资源、高可靠性、数据安全及降低维护成本等,为企业数字化转型提供参考。
42 5
|
17天前
|
弹性计算 监控 容灾
阿里云ECS提供强大的云上灾备解决方案,通过高可用基础设施、多样的数据备份方式及异地灾备服务,帮助企业实现业务的持续稳定运行
在数字化时代,企业对信息技术的依赖加深,确保业务连续性至关重要。阿里云ECS提供强大的云上灾备解决方案,通过高可用基础设施、多样的数据备份方式及异地灾备服务,帮助企业实现业务的持续稳定运行。无论是小型企业还是大型企业,都能从中受益,确保在面对各种风险时保持业务稳定。
34 4
|
17天前
|
存储 人工智能 弹性计算
阿里云弹性计算(ECS)提供强大的AI工作负载平台,支持灵活的资源配置与高性能计算,适用于AI训练与推理
阿里云弹性计算(ECS)提供强大的AI工作负载平台,支持灵活的资源配置与高性能计算,适用于AI训练与推理。通过合理优化资源分配、利用自动伸缩及高效数据管理,ECS能显著提升AI系统的性能与效率,降低运营成本,助力科研与企业用户在AI领域取得突破。
35 6
|
22天前
|
人工智能 弹性计算 编解码
阿里云GPU云服务器性能、应用场景及收费标准和活动价格参考
GPU云服务器作为阿里云提供的一种高性能计算服务,通过结合GPU与CPU的计算能力,为用户在人工智能、高性能计算等领域提供了强大的支持。其具备覆盖范围广、超强计算能力、网络性能出色等优势,且计费方式灵活多样,能够满足不同用户的需求。目前用户购买阿里云gpu云服务器gn5 规格族(P100-16G)、gn6i 规格族(T4-16G)、gn6v 规格族(V100-16G)有优惠,本文为大家详细介绍阿里云gpu云服务器的相关性能及收费标准与最新活动价格情况,以供参考和选择。