云服务诊断:一键定位异常,快速恢复业务

简介: 云服务诊断是阿里云推出的免费运维工具,提供“资源健康状态”和“问题诊断”两大功能。可精准监控每个实例的健康状况,支持一键全量诊断与常见问题场景快速排查,帮助用户迅速定位并修复ECS、SLB、EIP等资源异常,提升运维效率,保障业务稳定运行。

在日常运维中,你是否遇到过这样的场景:

  • ECS远程无法访问或者突然出现宕机?
  • 网站无法访问 、访问异常或是被封禁等情况?
  • 想了解最近几天资源的整体运行状态,但是看不出自己的实例到底有没有问题?


     云服务诊断能够帮助你解决这样的难题。


一、什么是云服务诊断

     云服务诊断是面向开发者、系统运维人员、企业IT管理员等用户(以下简称为“用户”)提供的一款阿里云资源免费运维工具,包含「资源健康状态」和「问题诊断」两大核心功能。

     在云服务诊断控制台可以看到所有资源的健康状态(每个实例)、识别云底座异常,并一键发起全量资源诊断。选择“一键诊断”或典型问题如“网站无法访问”后,系统自动识别涉及的ECS、SLB、EIP等资源进行全量诊断,给出问题原因及修复建议。无需深厚的技术背景,即可快速定位问题根因,提升问题排查效率。


二、产品优势

     产品以用户为中心,提供细粒度健康可视、智能快速诊断和便捷运维支持,全面提升云上问题排查与恢复效率。

  1. 用户视角的健康监控
    不同于传统仅展示可用区级别的健康状态,该产品从用户实际使用的云资源出发,提供细化到每个实例、每个时段的健康状态展示,并支持近7天的历史状态查看,帮助用户更精准、高效地定位问题。
  2. 简单高效的智能诊断
    系统内置多种常见问题场景的诊断能力(如“网站无法访问”),用户只需简单选择场景和资源,1-2分钟内即可获得包含诊断结果、异常详情与修复建议的完整报告。具备智能拓扑识别和自动化诊断能力,提升排查效率。
  3. 便捷实用的运维助手

     在业务出现问题时,用户可通过健康状态快速判断影响范围,结合诊断功能迅速定位并修复云资源问题,实现业务的快速恢复,显著降低运维复杂度。


三、核心功能

1. 资源健康状态

1.1 资源健康状态的定义

      健康状态显示因云服务底座影响导致云资源实例的可用性状态:可用标记为正常,不可用标记为异常。

云资源:

  • 云产品每一个可独立管理及运行的实例或服务统称为一个云资源,如ECS的每一个实例、OSS的每一个bucket。

健康状态异常:

  • 情况一:因阿里云原因(如故障、计划内维护变更等),导致某个云资源在某个时段内无法响应正常请求。标记为健康状态异常。
  • 情况二:因阿里云原因(如故障、计划内维护变更等),导致云资源可用性低于正常波动范围。标记为健康状态异常。
  • 备注:不同云产品有不同的判断标准。详情请参见健康状态支持产品及说明

1.2 资源健康状态的意义

     云资源健康状态异常,表示该云资源因阿里云服务底座异常而出现了故障无法正常工作,且该故障往往只能由阿里云工程师进行修复(部分情况可通过重启实例进行修复)。一般情况下阿里云工程师会监测故障并主动修复,若未及时修复或影响到用户正常业务,请及时联系阿里云客服进行处理。

     云资源健康状态正常,则可先排除阿里云云服务底座异常,转而及时排查其它问题原因。此时,您也可通过“一键诊断”快速排查网络、配置、性能、安全等常见问题。

1.3 资源健康状态的使用

资源健康状态概览:

登录控制台,在控制台首页-概览页面可快速查看云资源健康状态整体情况。

资源健康状态详情:

点击上图中「查看详情」,或在控制台首页-运维管理页面,可查看近7天的资源健康状态详情,可查询到正常资源、异常资源、异常原因和修复建议。

2. 问题诊断

2.1 诊断的定义

     问题诊断指对一个或多个云资源某种工作状态(配置/功能/性能/连接/安全等)的检测分析,排查是否存在异常,并提供修复建议。

2.2 诊断的意义

      通过诊断工具,用户无需掌握复杂的云产品知识,根据问题现象选择对应的诊断场景即可实时发起诊断,只需1-2分钟就能完成问题排查。诊断报告会给出详细的异常描述以及修复建议,用户根据修复建议即可解决问题,快速恢复业务。

相比逐个摸排所有云产品、分析大量的日志、等待客服等排查方式,用户通过诊断工具可更快定位问题和解决问题,缩短问题解决周期。一键诊断更是降低了用户的使用门槛,提升了问题排查效率。

2.3 诊断的使用

    首次使用需开通服务,根据页面提示可一键开通,详见开通与关闭章节。

说明

  • 诊断操作需要在用户的云资源上执行数据采集程序并收集检查结果,采集的信息主要包含云资源运行状态以及运行日志中关键错误信息等,不会采集任何与用户相关的业务信息以及敏感数据,请放心使用。

2.3.1 多种方式发起诊断

登录控制台,在控制台首页侧边栏可快速发起诊断,在控制台首页-概览运维监控也可快速发起诊断。

登录控制台,在控制台首页-运维监控可快速发起诊断,同时可查看最近的诊断任务、大家常用诊断工具。

2.3.2 一键诊断

用户可以一键发起本账号下所有云资源的快速诊断,获取问题根因和修复建议。

2.3.3 场景诊断

用户如果已经明确了具体是哪些云产品导致资源异常,可以在场景诊断中选择针对性的诊断工具,快速诊断并获取修复建议。了解已支持的全部诊断场景,请参见诊断支持场景及说明

发起诊断并获取修复建议

说明

RAM子账号发起诊断需要AliyunHealthFullAccess权限,仅查看诊断记录需要AliyunHealthReadOnlyAccess权限,请向管理员申请所需权限后使用。


     现在就访问云服务诊断,开启您的诊断之旅!

相关文章
|
5天前
|
云安全 人工智能 安全
AI被攻击怎么办?
阿里云提供 AI 全栈安全能力,其中对网络攻击的主动识别、智能阻断与快速响应构成其核心防线,依托原生安全防护为客户筑牢免疫屏障。
|
14天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
8天前
|
安全 Java Android开发
深度解析 Android 崩溃捕获原理及从崩溃到归因的闭环实践
崩溃堆栈全是 a.b.c?Native 错误查不到行号?本文详解 Android 崩溃采集全链路原理,教你如何把“天书”变“说明书”。RUM SDK 已支持一键接入。
572 211
|
4天前
|
编解码 Linux 数据安全/隐私保护
教程分享免费视频压缩软件,免费视频压缩,视频压缩免费,附压缩方法及学习教程
教程分享免费视频压缩软件,免费视频压缩,视频压缩免费,附压缩方法及学习教程
229 138
|
存储 人工智能 监控
从代码生成到自主决策:打造一个Coding驱动的“自我编程”Agent
本文介绍了一种基于LLM的“自我编程”Agent系统,通过代码驱动实现复杂逻辑。该Agent以Python为执行引擎,结合Py4j实现Java与Python交互,支持多工具调用、记忆分层与上下文工程,具备感知、认知、表达、自我评估等能力模块,目标是打造可进化的“1.5线”智能助手。
811 59
|
6天前
|
人工智能 移动开发 自然语言处理
2025最新HTML静态网页制作工具推荐:10款免费在线生成器小白也能5分钟上手
晓猛团队精选2025年10款真正免费、无需编程的在线HTML建站工具,涵盖AI生成、拖拽编辑、设计稿转代码等多种类型,均支持浏览器直接使用、快速出图与文件导出,特别适合零基础用户快速搭建个人网站、落地页或企业官网。
1139 157
|
6天前
|
存储 安全 固态存储
四款WIN PE工具,都可以实现U盘安装教程
Windows PE是基于NT内核的轻量系统,用于系统安装、分区管理及故障修复。本文推荐多款PE制作工具,支持U盘启动,兼容UEFI/Legacy模式,具备备份还原、驱动识别等功能,操作简便,适合新旧电脑维护使用。
484 109