在日常运维中,你是否遇到过这样的场景:
- ECS远程无法访问或者突然出现宕机?
- 网站无法访问 、访问异常或是被封禁等情况?
- 想了解最近几天资源的整体运行状态,但是看不出自己的实例到底有没有问题?
云服务诊断能够帮助你解决这样的难题。
一、什么是云服务诊断
云服务诊断是面向开发者、系统运维人员、企业IT管理员等用户(以下简称为“用户”)提供的一款阿里云资源免费运维工具,包含「资源健康状态」和「问题诊断」两大核心功能。
在云服务诊断控制台可以看到所有资源的健康状态(每个实例)、识别云底座异常,并一键发起全量资源诊断。选择“一键诊断”或典型问题如“网站无法访问”后,系统自动识别涉及的ECS、SLB、EIP等资源进行全量诊断,给出问题原因及修复建议。无需深厚的技术背景,即可快速定位问题根因,提升问题排查效率。
二、产品优势
产品以用户为中心,提供细粒度健康可视、智能快速诊断和便捷运维支持,全面提升云上问题排查与恢复效率。
- 用户视角的健康监控
不同于传统仅展示可用区级别的健康状态,该产品从用户实际使用的云资源出发,提供细化到每个实例、每个时段的健康状态展示,并支持近7天的历史状态查看,帮助用户更精准、高效地定位问题。 - 简单高效的智能诊断
系统内置多种常见问题场景的诊断能力(如“网站无法访问”),用户只需简单选择场景和资源,1-2分钟内即可获得包含诊断结果、异常详情与修复建议的完整报告。具备智能拓扑识别和自动化诊断能力,提升排查效率。 - 便捷实用的运维助手
在业务出现问题时,用户可通过健康状态快速判断影响范围,结合诊断功能迅速定位并修复云资源问题,实现业务的快速恢复,显著降低运维复杂度。
三、核心功能
1. 资源健康状态
1.1 资源健康状态的定义
健康状态显示因云服务底座影响导致云资源实例的可用性状态:可用标记为正常,不可用标记为异常。
云资源:
- 云产品每一个可独立管理及运行的实例或服务统称为一个云资源,如ECS的每一个实例、OSS的每一个bucket。
健康状态异常:
- 情况一:因阿里云原因(如故障、计划内维护变更等),导致某个云资源在某个时段内无法响应正常请求。标记为健康状态异常。
- 情况二:因阿里云原因(如故障、计划内维护变更等),导致云资源可用性低于正常波动范围。标记为健康状态异常。
- 备注:不同云产品有不同的判断标准。详情请参见健康状态支持产品及说明
1.2 资源健康状态的意义
云资源健康状态异常,表示该云资源因阿里云服务底座异常而出现了故障无法正常工作,且该故障往往只能由阿里云工程师进行修复(部分情况可通过重启实例进行修复)。一般情况下阿里云工程师会监测故障并主动修复,若未及时修复或影响到用户正常业务,请及时联系阿里云客服进行处理。
云资源健康状态正常,则可先排除阿里云云服务底座异常,转而及时排查其它问题原因。此时,您也可通过“一键诊断”快速排查网络、配置、性能、安全等常见问题。
1.3 资源健康状态的使用
资源健康状态概览:
登录控制台,在控制台首页-概览页面可快速查看云资源健康状态整体情况。
资源健康状态详情:
点击上图中「查看详情」,或在控制台首页-运维管理页面,可查看近7天的资源健康状态详情,可查询到正常资源、异常资源、异常原因和修复建议。
2. 问题诊断
2.1 诊断的定义
问题诊断指对一个或多个云资源某种工作状态(配置/功能/性能/连接/安全等)的检测分析,排查是否存在异常,并提供修复建议。
2.2 诊断的意义
通过诊断工具,用户无需掌握复杂的云产品知识,根据问题现象选择对应的诊断场景即可实时发起诊断,只需1-2分钟就能完成问题排查。诊断报告会给出详细的异常描述以及修复建议,用户根据修复建议即可解决问题,快速恢复业务。
相比逐个摸排所有云产品、分析大量的日志、等待客服等排查方式,用户通过诊断工具可更快定位问题和解决问题,缩短问题解决周期。一键诊断更是降低了用户的使用门槛,提升了问题排查效率。
2.3 诊断的使用
首次使用需开通服务,根据页面提示可一键开通,详见开通与关闭章节。
说明
- 诊断操作需要在用户的云资源上执行数据采集程序并收集检查结果,采集的信息主要包含云资源运行状态以及运行日志中关键错误信息等,不会采集任何与用户相关的业务信息以及敏感数据,请放心使用。
2.3.1 多种方式发起诊断
登录控制台,在控制台首页侧边栏可快速发起诊断,在控制台首页-概览运维监控也可快速发起诊断。
登录控制台,在控制台首页-运维监控可快速发起诊断,同时可查看最近的诊断任务、大家常用诊断工具。
2.3.2 一键诊断
用户可以一键发起本账号下所有云资源的快速诊断,获取问题根因和修复建议。
2.3.3 场景诊断
用户如果已经明确了具体是哪些云产品导致资源异常,可以在场景诊断中选择针对性的诊断工具,快速诊断并获取修复建议。了解已支持的全部诊断场景,请参见诊断支持场景及说明。
发起诊断并获取修复建议
说明
RAM子账号发起诊断需要AliyunHealthFullAccess权限,仅查看诊断记录需要AliyunHealthReadOnlyAccess权限,请向管理员申请所需权限后使用。
现在就访问云服务诊断,开启您的诊断之旅!