【阿里云云服务诊断】调研报告

简介: 作为一名资深后端工程师,我调研了阿里云的【云服务诊断】工具。该工具主要提供两大核心功能:健康状态检查和实时诊断。1. **健康状态检查**:可查看云资源的可用性状态,快速排除云服务异常,帮助用户聚焦其他潜在问题。2. **实时诊断**:针对网站无法访问、ECS故障、配置错误等常见问题进行检测,并提供修复建议,极大提升问题排查效率。使用体验良好,建议增加自定义检查项以提升运维基本功。总体而言,这是个高效实用的工具,值得推荐给开发者和企业用户。

0 前言

作为一名数据中心的资深后端工程师,我平时工作也涉及对云资源的运维保障。正好看到阿里云的【云服务诊断】工具,特此调研评测一番。

核心功能:

  • 业务系统异常时,可查看每个实例的【健康状态】。若正常,则可快速排除阿里云云服务的异常,转而及时排查其它方面
  • 通过【诊断】实时排查网站无法访问、ECS无法访问、错误配置、安全风险、高负载、宕机、超限、欠费等问题,并根据修复建议及时解决

1 核心功能

1.1 健康状态

1.1.1 这是啥?

即云资源的可用性状态:【不可用】为异常,可用为正常。

啥叫不可用?

因阿里云平台原因导致的客户云资源在某时段完全不响应用户正常请求,如:

  • 宕机
  • 完全无法连通
  • 全部返回5xx或不返回等
  • 或服务可用性低于正常波动范围(根据服务特点而定)

1.1.2 意义

  • 云资源健康状态异常,说明无法正常工作,且该故障只能由阿里云修复
  • 云资源健康状态正常,表示该云资源可用,即未发生必须由阿里云修复的故障。那就可继续检查配置是否正确、是否存在安全风险、是否高负载、是否超限、是否欠费等。就可通过1.2 小节的【诊断】工具快速排查

1.1.3 服务开通

多处开通入口:

image.png

点击【确认】:

image.png

初始化中:

image.png

初始化完成:

1.1.4 常用操作

① 实时健康状态

[控制台首页-概览],快速查看:

image.png

② 历史健康状态

在[控制台首页-运维监控]页,查看健康状态概览,支持查看最新状态、今天状态及15d内历史状态。

image.png

点击云服务器 ECS 的【查看详情】,跳转至健康状态详情页面,查看各资源每小时的健康状态。点击资源ID可跳转至该资源控制台。

image.png

看到这个结果,我觉得健康状态检查的功能很有用 ,能让我快速知晓云资源的当前和历史可用状态,避免在正确的资源上排查浪费过多时间。

1.2 诊断

1.2.1 定义

对云资源的某种工作状态(配置/功能/性能/连接/安全等)检测分析,并对异常进行详细描述并提供修复建议。

1.2.2 意义

无需掌握过多云产品知识,根据问题现象选择对应诊断场景实时发起诊断,只需1-2min完成诊断。诊断到异常,报告会给出详细描述及修复建议。

相比逐个摸排系统、分析大量日志、等客服,用户通过诊断工具可:

  • 更快定位问题和解决问题,缩短问题解决周期
  • 降低使用门槛

1.2.3 使用

① 发起诊断

[控制台首页]侧边栏

侧边栏收起时,可点击右下角展开:

[控制台首页-运维监控]-创建诊断

② 选择诊断场景

按问题现象选择诊断场景:

③ 配置诊断参数

不同诊断场景所需参数不同,我这里是直接选择我的 ECS 实例:

④ 查看诊断报告

诊断完成查看全部诊断项及诊断结果,若存在异常,可查看异常详情和修复建议:

看到这个结果,我觉得诊断的功能很有用 ,能让我知晓了网络性能关注的指标,不需要遇到问题时还得一个个指标排查,极大提升效率,快速排除怀疑的异常资源对象。

2 建议

比如在诊断项详情列表,希望能够开放每个检查项,用户自己可以如何执行命令检查,给想提升运维基本功的同学一个契机。

3 总结

总体使用下来,畅通无阻,体验良好,也是目前各大云平台特有的功能,期待更多更好用的功能,方便更多个人开发者和企业上云。

参考:

目录
相关文章
|
存储 缓存 监控
美团面试:说说OOM三大场景和解决方案? (绝对史上最全)
小伙伴们,有没有遇到过程序突然崩溃,然后抛出一个OutOfMemoryError的异常?这就是我们俗称的OOM,也就是内存溢出 本文来带大家学习Java OOM的三大经典场景以及解决方案,保证让你有所收获!
6751 2
美团面试:说说OOM三大场景和解决方案? (绝对史上最全)
|
Oracle 关系型数据库 数据库
OceanBase数据库常见问题之租户创建后想要改字符集如何解决
OceanBase 是一款由阿里巴巴集团研发的企业级分布式关系型数据库,它具有高可用、高性能、可水平扩展等特点。以下是OceanBase 数据库使用过程中可能遇到的一些常见问题及其解答的汇总,以帮助用户更好地理解和使用这款数据库产品。
|
安全 Java Android开发
构建高效安卓应用:探究Kotlin与Java的性能对比
【2月更文挑战第22天】 在移动开发的世界中,性能优化一直是开发者们追求的关键目标。随着Kotlin在安卓开发中的普及,许多团队面临是否采用Kotlin替代Java的决策。本文将深入探讨Kotlin和Java在安卓平台上的性能差异,通过实证分析和基准测试,揭示两种语言在编译效率、运行时性能以及内存占用方面的表现。我们还将讨论Kotlin的一些高级特性如何为性能优化提供新的可能性。
978 0
|
9月前
|
弹性计算 运维 Kubernetes
看阿里云操作系统控制台如何一招擒拿网络丢包
如何结合操作系统控制台快速定位问题?
|
机器学习/深度学习 人工智能 自然语言处理
耳朵没错,是声音太真了,字节豆包语音合成成果Seed-TTS技术揭秘
【7月更文挑战第5天】字节跳动的Seed-TTS技术在语音合成领域实现重大突破,生成的语音与真人难辨真假。基于深度学习的模型能模拟多种情感、口音,适用于智能客服、有声读物等场景。尽管面临计算资源需求大、个别情况合成质量不稳及潜在伦理问题,该技术仍标志着语音合成的新高度。[论文链接](https://arxiv.org/abs/2406.02430)**
1008 1
|
9月前
|
存储 人工智能 自然语言处理
DeepSeek R1+Ollama+Cherry Studio实现本地知识库的搭建
本文介绍了如何使用Ollama和CherryStudio搭建本地知识库,涵盖核心组件介绍、硬件与软件准备、模型部署流程及知识库构建方法。通过配置DeepSeek R1模型、嵌入模型和Cherry Studio平台,实现本地化自然语言处理与知识检索功能。
3050 0
|
人工智能 Cloud Native 安全
从云原生到 AI 原生,谈谈我经历的网关发展历程和趋势
本文整理自阿里云智能集团资深技术专家,云原生产品线中间件负责人谢吉宝(唐三)在云栖大会的精彩分享。讲师深入浅出的分享了软件架构演进过程中,网关所扮演的各类角色,AI 应用的流量新特征对软件架构和网关所提出的新诉求,以及基于阿里自身实践所带来的开源贡献和商业能力。
764 115
|
敏捷开发 运维 Devops
如何构建高效的价值交付系统?详解项目管理中的核心要素
3分钟了解价值交付系统的组成和使用方法。
469 0
如何构建高效的价值交付系统?详解项目管理中的核心要素
|
缓存 监控 安全
Spring AOP 详细深入讲解+代码示例
Spring AOP(Aspect-Oriented Programming)是Spring框架提供的一种面向切面编程的技术。它通过将横切关注点(例如日志记录、事务管理、安全性检查等)从主业务逻辑代码中分离出来,以模块化的方式实现对这些关注点的管理和重用。 在Spring AOP中,切面(Aspect)是一个模块化的关注点,它可以跨越多个对象,例如日志记录、事务管理等。切面通过定义切点(Pointcut)和增强(Advice)来介入目标对象的方法执行过程。 切点是一个表达式,用于匹配目标对象的一组方法,在这些方法执行时切面会被触发。增强则定义了切面在目标对象方法执行前、执行后或抛出异常时所
17909 4
|
搜索推荐 JavaScript 数据可视化
uniapp/vue个性化单选、复选组件
uniapp/vue个性化单选、复选组件
569 5

热门文章

最新文章