【阿里云云服务诊断】调研报告

简介: 作为一名资深后端工程师,我调研了阿里云的【云服务诊断】工具。该工具主要提供两大核心功能:健康状态检查和实时诊断。1. **健康状态检查**:可查看云资源的可用性状态,快速排除云服务异常,帮助用户聚焦其他潜在问题。2. **实时诊断**:针对网站无法访问、ECS故障、配置错误等常见问题进行检测,并提供修复建议,极大提升问题排查效率。使用体验良好,建议增加自定义检查项以提升运维基本功。总体而言,这是个高效实用的工具,值得推荐给开发者和企业用户。

0 前言

作为一名数据中心的资深后端工程师,我平时工作也涉及对云资源的运维保障。正好看到阿里云的【云服务诊断】工具,特此调研评测一番。

核心功能:

  • 业务系统异常时,可查看每个实例的【健康状态】。若正常,则可快速排除阿里云云服务的异常,转而及时排查其它方面
  • 通过【诊断】实时排查网站无法访问、ECS无法访问、错误配置、安全风险、高负载、宕机、超限、欠费等问题,并根据修复建议及时解决

1 核心功能

1.1 健康状态

1.1.1 这是啥?

即云资源的可用性状态:【不可用】为异常,可用为正常。

啥叫不可用?

因阿里云平台原因导致的客户云资源在某时段完全不响应用户正常请求,如:

  • 宕机
  • 完全无法连通
  • 全部返回5xx或不返回等
  • 或服务可用性低于正常波动范围(根据服务特点而定)

1.1.2 意义

  • 云资源健康状态异常,说明无法正常工作,且该故障只能由阿里云修复
  • 云资源健康状态正常,表示该云资源可用,即未发生必须由阿里云修复的故障。那就可继续检查配置是否正确、是否存在安全风险、是否高负载、是否超限、是否欠费等。就可通过1.2 小节的【诊断】工具快速排查

1.1.3 服务开通

多处开通入口:

image.png

点击【确认】:

image.png

初始化中:

image.png

初始化完成:

1.1.4 常用操作

① 实时健康状态

[控制台首页-概览],快速查看:

image.png

② 历史健康状态

在[控制台首页-运维监控]页,查看健康状态概览,支持查看最新状态、今天状态及15d内历史状态。

image.png

点击云服务器 ECS 的【查看详情】,跳转至健康状态详情页面,查看各资源每小时的健康状态。点击资源ID可跳转至该资源控制台。

image.png

看到这个结果,我觉得健康状态检查的功能很有用 ,能让我快速知晓云资源的当前和历史可用状态,避免在正确的资源上排查浪费过多时间。

1.2 诊断

1.2.1 定义

对云资源的某种工作状态(配置/功能/性能/连接/安全等)检测分析,并对异常进行详细描述并提供修复建议。

1.2.2 意义

无需掌握过多云产品知识,根据问题现象选择对应诊断场景实时发起诊断,只需1-2min完成诊断。诊断到异常,报告会给出详细描述及修复建议。

相比逐个摸排系统、分析大量日志、等客服,用户通过诊断工具可:

  • 更快定位问题和解决问题,缩短问题解决周期
  • 降低使用门槛

1.2.3 使用

① 发起诊断

[控制台首页]侧边栏

侧边栏收起时,可点击右下角展开:

[控制台首页-运维监控]-创建诊断

② 选择诊断场景

按问题现象选择诊断场景:

③ 配置诊断参数

不同诊断场景所需参数不同,我这里是直接选择我的 ECS 实例:

④ 查看诊断报告

诊断完成查看全部诊断项及诊断结果,若存在异常,可查看异常详情和修复建议:

看到这个结果,我觉得诊断的功能很有用 ,能让我知晓了网络性能关注的指标,不需要遇到问题时还得一个个指标排查,极大提升效率,快速排除怀疑的异常资源对象。

2 建议

比如在诊断项详情列表,希望能够开放每个检查项,用户自己可以如何执行命令检查,给想提升运维基本功的同学一个契机。

3 总结

总体使用下来,畅通无阻,体验良好,也是目前各大云平台特有的功能,期待更多更好用的功能,方便更多个人开发者和企业上云。

参考:

目录
相关文章
|
Kubernetes Cloud Native Java
Activiti 简介以及最新activiti依赖 pom.xml文件(使用时注意对应版本号)
Activiti 简介以及最新activiti依赖 pom.xml文件(使用时注意对应版本号)
1158 2
|
7月前
|
数据采集 人工智能 运维
Dataphin功能Tips系列(85)告别“人肉排障”:AI驱动数据质量根因诊断,让治理效率跃升
传统数据治理中,数据质量问题依赖人工排查,效率低且难定位根因。Dataphin 5.4推出X-数据质量根因诊断功能,基于AI大模型分析数据血缘与采样,智能定位问题源头,自动生成整改建议与影响评估,实现从发现问题到闭环治理的自动化,大幅提升治理效率与准确性。
338 0
|
7月前
|
存储 编解码 安全
视频直播云架构最佳实践
本文深入解析支撑千万级并发的视频直播云架构最佳实践,涵盖推流、转码、分发、播放全链路技术栈,结合CDN加速、互动功能实现与内容安全防护,通过云原生弹性伸缩与成本优化策略,构建高可用、低延迟、强互动的直播系统,助力企业高效应对高并发挑战。
871 0
|
9月前
|
监控 关系型数据库 BI
Veeam ONE 13 Patch 1 发布 - IT 环境监控和分析
Veeam ONE 13 Patch 1 发布 - IT 环境监控和分析
246 1
Veeam ONE 13 Patch 1 发布 - IT 环境监控和分析
|
机器学习/深度学习 JSON JavaScript
在linux系统上看全世界新闻 -- Clinews的使用详解
这篇文章介绍了如何在Linux系统上使用Clinews命令行工具阅读全世界的新闻,包括安装、配置API密钥、使用命令获取新闻源和搜索新闻的步骤。
558 3
在linux系统上看全世界新闻 -- Clinews的使用详解
|
11月前
|
设计模式 人工智能 前端开发
现代 Java 实现数字华容道与石头迷阵游戏的项目实战及项目开发指南
本项目基于Java 17+,采用JavaFX与MVC架构,实战开发数字华容道/石头迷阵游戏。内容涵盖技术选型、核心逻辑、现代GUI设计、动画实现及项目打包发布,结合sealed class、record等新特性,打造简洁可维护的游戏代码结构。
384 0
|
12月前
|
人工智能 JavaScript 前端开发
Godot-创建一个3D棋盘
本教程介绍使用C#在Godot引擎中创建3D棋盘游戏。内容包括:下载Godot .NET版本、创建主场景和单元格场景、设置相机与碰撞检测、添加3D模型及材质,并通过C#脚本实现8x8黑白棋盘。附带完整代码示例和运行效果展示,适合初学者入门Godot 3D开发。
456 0
|
机器学习/深度学习 Java PyTorch
Java工程师如何理解张量?
刚接触AI和PyTorch,理解“张量(Tensor)”是入门关键。张量可类比为Java中的多维数组,但更强大,尤其在AI领域支持GPU加速、自动求导等特性。它不仅能高效存储数据,还能进行复杂运算,是深度学习的核心数据结构。掌握张量的维度、数据类型及GPU加速特性,对学习PyTorch至关重要。
467 3
|
消息中间件 设计模式 Java
Java技术栈梳理
Java技术栈梳理
|
安全
猿大师办公助手在线编辑微软Office/金山wps网页组件COM加载项启用说明
猿大师办公助手是一款独特的在线编辑Office插件,不同于其他厂商的弹窗模式,它真正实现了网页内嵌本机Office。其COM加载项可在Office主菜单栏增加PageHi子菜单,提供文件保存、打印等功能,并能控制文档操作权限。安装后,默认自动启动COM加载项,但需注意可能被禁用或拦截,必要时需手动启用。对于WPS和微软Office,均有详细的启用步骤。
775 5
猿大师办公助手在线编辑微软Office/金山wps网页组件COM加载项启用说明

热门文章

最新文章