带你读《云上自动化运维宝典》——提升云上资源稳定性的两大利器:事件驱动体系构建&自诊断工具(3)

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 带你读《云上自动化运维宝典》——提升云上资源稳定性的两大利器:事件驱动体系构建&自诊断工具(3)

更多精彩内容,欢迎观看:

带你读《云上自动化运维宝典》——提升云上资源稳定性的两大利器:事件驱动体系构建&自诊断工具(2):https://developer.aliyun.com/article/1405330


7. 一键定位 – ECS 健康诊断

image.png

第一部分,一键定位 ECS 健康诊断。首先,我们先举一个例子,利用健康诊断定位 ssh 无法连接问题,当用户通过 SSH 连接 0.129 这台 ECS时发现无法通过 ssh 登录。SSh 命令报错。

 

于是第二步,用户通过 ECS 控制台的实例问题排查页面对 ECS 实例发起了远程无法连接问题的健康诊断。

 

第三步,用户通过健康诊断得到了健康诊断报告,在健康诊断报告中,它可以明确的看到健康诊断对实例的 SSH 服务状态进行了诊断,该诊断结果表明,想登录的 ECS ssh 服务没有启动,并且在详细说明中有诊断修复方案的超链接。

 

第四步,用户通过该超链接获取了如何解决该问题的解决方案。通过该方案,用户可以主动的人工去修复该问题,从而解决问题。在这个 case 中,我们演示了一个用户从发现问题到发起,诊断,获取诊断报告。最后通过诊断报告中的解决方案,人工修复了该问题的完整过程。

 

使用健康诊断,快速定位 ECS 具体问题实例。

 

image.png

 

健康诊断功能可以对实例的系统状态,网络状态,磁盘状态等进行全方位的诊断,可以帮助用户了解实例的运行状态,及时发现并解决常见问题。这个图就是一个用户在进行实例健康诊断之后的诊断报告。我们可以看出,该实例通过诊断并没有发现任何问题。而且通过该图,可以看见该诊断对实例的多个方面进行了全方位的诊断结果。

 

实例健康诊断能够诊断很多常见的实例健康问题。

image.png

 

这些问题包括实例性能问题,诊断 ECS 实例, CPU 负载高,内存负载高,带宽负载高,磁盘 bps iops 高或者实例性能受损等。实例无法连接或启动异常,诊断 VNC 无法远程连接、SSH 无法连接、实例处于运行状态,实例操作系统无法启动等问题。网络问题诊断,诊断ECS 实例的网络性能受损,或者 ping 不通等问题。实例操作未生效,诊断 ECS 实例的变更操作未生效问题,例如云盘扩容实际未生效。资源配额不足的问题,能够诊断ECS 实例的各种配额是否达到了上限。有哪些达到了上限。

 

费用类问题,诊断 ECS 实例购买、退款、续费、升降配、转换计费方式等问题。安全风险检测,诊断 ECS 实例是否存在安全风险。例如系统漏洞,安全告警,恶意进程等。实例费用及安全行为审计,对 ECS 实例状态,实例费用,安全组等相关的操作进行审计追溯。用户可以拿到该实例的历史行为记录,从而对该实例的历史操作进行审计和问题追查。

 

介绍一下诊断报告的详细组成部分。

 

image.png

 

诊断报告由三个部分组成。

 

第一个是诊断指标。诊断指标是健康诊断的核心功能,一个诊断指标指明了该实例的一个具体的检查点,比如说 CPU 利用率,诊断结果条目,对诊断指标进行检查,返回的是诊断结果条目,一个诊断指标对应着多个诊断结果条目,诊断结构条目按照严重等级分为 InfoWarnCriticalCritical 类型的诊断结果条目是已经影响到实例的正常运行,强烈建议用户进行修复。

 

强调一个特殊点,因为一个诊断指标对应的实际故障问题多种多样,有一些可能我们还没有覆盖的实际问题,所以当诊断结果条目没有异常时并不意味着该诊断指标在实际中不存在问题。诊断指标集合,一组诊断指标的集合,可以一次性对诊断指标里的所有指标进行诊断。

 

也就是说,诊断指标集合是发起健康诊断的起点,用户可以自定义诊断指标集合,比如说只关心网络的用户,可以把网络相关的诊断指标自定义为一个诊断集合,在发起健康诊断时只对该网络相关的诊断指标集合进行诊断,只诊断这些指定的诊断指标。又比如说一些用户可能只关心费用类问题,他可以把费用类的诊断指标组成一个诊断指标集合。每次诊断只发起该诊断指标集合的诊断,从而只得到关于费用的诊断结果,右图是各个诊断按指标概念所对应的内容。

 

诊断指标分类,在诊断报告里,为了方便用户查看和排查问题,我们先预定义的将诊断指标进行了分类。

 

image.png

 

这些分类只显示在诊断报告中与诊断指标集合无关。现在我们支持 8 大类诊断指标,集合,包括计算服务健康诊断,网络服务健康诊断,存储服务健康诊断,实例配置管理诊断,安全控制诊断,费用类诊断以及 Linux windows 的实例操作系统内的相关本配置诊断,以及用户的行为回复。

 

重点介绍一下 Linux windows 的实例操作系统内相关诊断。我们不仅能够诊断云操作系统的底座问题,我们还能帮助用户进行用户 guest os 内相关配置和行为的检查。当用户授权以后,我们可以帮用户进行windows Linux 操作系统内各种配置状态和服务的检查,从而帮助用户定位内部的问题。

 

健康诊断入口。

 

image.png

 

第一个入口是在 e cs 控制台自主问题排查页面。用户可以在自主排查中通过预定义好的问题,选择合适的场景,发起健康诊断,从而获取诊断报告。第二个入口是 ECS 控制台工单在线服务,在线,入口在用户发起在线诊断后,机器人和可以根据用户的问题也建议用户是否走健康诊断。

 

用户点击健康诊断,入口就可以发起健康诊断,从而获取详细的 e cs 诊断结果。第三个入口是 ECS 控制台提交工单入口。在提交工单中,用户选择了云服务器,ECS 产品就会给用户提供很多的 ECS 排查工具。而这些排查工具底层使用的就是实例健康诊断工具。它这里只是帮用户根据场景做了预定义的诊断集。每一个具体的工具问题对应了不同的诊断集。以上我们介绍了两种自助排查的工具。

 

介绍一下 ECS 故障自主排查的最佳流程。

 

image.png

 

当业务用户的业务报警,用户怀疑 ECS 出了问题时可以首先检查健康状态。如果健康状态当前是 impaired 的状态。那么说明 ECS 的实例有问题,那么它可以进一步发起健康诊断定位 ECS 的具体问题。通过诊断报告中的异常诊断结果条目,它可以看到 ECS 的问题是什么,并通过健康诊断结果条目中的修复建议进行 ECS 的恢复。

 

另外一个场景是当用户想知道历史的业务故障时,它可以对 ECS 发起历史的健康诊断,健康诊断本身支持 30 天内的 ECS 历史故障排查。通过历史健康诊断,用户可以检查在某个指定的时间段内 ECS 事例是否发生过故障。

8. 总结

通过以上我们介绍了当用户遇到各种各样的故障,例如实例无法连接实例性能问题,实例操作问题,实例配额不足时,可以通过一眼排障健康状态来一眼确定 ECS 当前是否受损,当确定 ECS 是否受损过后,它可以通过一键定位健康诊断来直接对实例发起健康诊断。按根据指定的诊断及指标集合,进行 ECS 诊断,来明确 ECS 是否有相关的问题,诊断报告确定了该问题时,可以根据诊断报告中的修复文档进行人工修复,从而恢复 ECS

 

image.png

 

最后,欢迎各位用户和对该问题感兴趣的同学通过官网 ECS 实例健康状态,ECS 实例健康诊断进行进一步的了解。最后,谢谢大家观看收听云上运维系列公开课。

 

image.png

 

相关文章
|
1天前
|
运维 监控 安全
构建高效自动化运维体系的五大策略
【4月更文挑战第27天】在数字化转型的浪潮中,企业对于IT系统的稳定性和敏捷性要求日益增高。自动化运维作为提升效率、降低错误率、实现快速响应的关键技术手段,已经成为现代IT管理的重要组成部分。本文将探讨构建一个高效自动化运维体系的五大策略,包括基础设施即代码(IaC)的应用、监控与告警系统的集成、持续集成和持续部署(CI/CD)的实践、日志管理和分析以及灾难恢复计划的自动化,旨在为运维团队提供一条清晰的道路图,以支持他们在不断变化的技术环境中保持竞争力。
|
3天前
|
运维 监控 安全
构建高效自动化运维体系:策略与实践
【4月更文挑战第25天】在数字化转型的浪潮中,企业IT基础设施日趋复杂多变,传统的手动运维模式已难以满足快速响应和高效管理的需求。本文探讨了构建一个高效自动化运维体系的关键环节,并结合实际案例分析,提出了一系列切实可行的策略与实践方法。文章着重分析了自动化工具选择、流程设计优化以及持续监控的重要性,并讨论了如何通过这些手段降低运维成本,提升系统稳定性和安全性。
|
3天前
|
人工智能 运维 监控
构建高效自动化运维体系的五大关键步骤
【4月更文挑战第25天】 在现代IT架构的复杂多变环境中,传统的手动运维方式已无法满足快速迭代与稳定性的双重要求。本文将深入探讨构建一个高效自动化运维体系的关键步骤,涵盖从工具选型到流程优化的全方位考量。通过引入自动化工具、实施标准化流程、建立监控预警机制、持续集成与部署以及文档化管理,组织能够实现运维效率的显著提升,确保系统的稳定性和可靠性。
7 0
|
3天前
|
存储 运维 Kubernetes
构建高效自动化运维体系:Ansible与Kubernetes的协同策略
【4月更文挑战第25天】 在当今快速迭代的软件开发过程中,自动化运维已成为提升效率、保证一致性和降低人为错误的关键。本文将探讨如何利用Ansible作为配置管理工具,以及Kubernetes作为容器编排系统,共同构建一个高效、可靠的自动化运维体系。文章首先概述了自动化运维的基本概念及其重要性,随后详细分析了Ansible与Kubernetes在自动化流程中的作用与优势,并通过一系列实践案例,展示了两者如何协同工作以优化部署、扩缩容和灾难恢复等关键运维任务。最后,文中还讨论了在实际应用中可能遇到的挑战及相应的解决策略,为读者提供了一套完整的自动化运维解决方案参考。
|
13天前
|
运维 Kubernetes Devops
构建高效自动化运维体系:DevOps与容器技术融合实践
【4月更文挑战第15天】 在当今快速发展的信息技术时代,传统的IT运维模式已难以满足业务敏捷性的需求。本文旨在探讨如何通过整合DevOps理念和容器技术来构建一个高效的自动化运维体系。文章将详细阐述DevOps的核心原则、容器技术的基础知识,以及两者结合的优势。此外,文中还将分享一系列实践经验,包括持续集成/持续部署(CI/CD)流程的搭建、微服务架构的应用,以及监控和日志管理策略的优化,以期帮助企业实现快速、可靠且安全的软件交付过程。
|
14天前
|
人工智能 运维 监控
构建高效自动化运维体系的实践与思考
【4月更文挑战第14天】在数字化转型的浪潮中,自动化运维作为提升系统稳定性和效率的关键手段,受到了企业的广泛关注。本文将深入探讨如何构建一个高效的自动化运维体系,涵盖从基础设施的搭建到流程的优化等多个方面。通过分析当前自动化运维的挑战及解决方案,文章旨在为读者提供一套实用的策略框架,帮助企业实现运维工作的高效化、标准化和智能化。
|
18天前
|
机器学习/深度学习 存储 运维
构建高效自动化运维体系的五大策略
【4月更文挑战第10天】在数字化转型的浪潮中,企业IT基础设施的复杂性与日俱增,传统的手动运维模式已难以满足快速响应和高效率的需求。本文将探讨构建一个高效自动化运维体系的五大策略,包括监控与告警的智能化、配置管理自动化、故障自愈能力的提升、日志管理的优化以及持续集成和部署(CI/CD)的实践。这些策略将帮助企业减轻运维负担,提高系统稳定性和业务敏捷性。
|
7月前
|
缓存 运维 Linux
Linux(CentOS)运维脚本工具集合
Linux(CentOS)运维脚本工具集合
148 2
|
25天前
|
运维 Linux Shell
linux运维常用命令
linux运维常用命令
|
1月前
|
监控 网络协议 Linux
Linux 命令大全 & CentOS常用运维命令
Linux 命令大全 & CentOS常用运维命令
161 0