0 前言
作为一名数据中心的资深后端工程师,我平时工作也涉及对云资源的运维保障。正好看到阿里云的【云服务诊断】工具,特此调研评测一番。
核心功能:
- 业务系统异常时,可查看每个实例的【健康状态】。若正常,则可快速排除阿里云云服务的异常,转而及时排查其它方面
- 通过【诊断】实时排查网站无法访问、ECS无法访问、错误配置、安全风险、高负载、宕机、超限、欠费等问题,并根据修复建议及时解决
1 核心功能
1.1 健康状态
1.1.1 这是啥?
即云资源的可用性状态:【不可用】为异常,可用为正常。
啥叫不可用?
因阿里云平台原因导致的客户云资源在某时段完全不响应用户正常请求,如:
- 宕机
- 完全无法连通
- 全部返回5xx或不返回等
- 或服务可用性低于正常波动范围(根据服务特点而定)
1.1.2 意义
- 云资源健康状态异常,说明无法正常工作,且该故障只能由阿里云修复
- 云资源健康状态正常,表示该云资源可用,即未发生必须由阿里云修复的故障。那就可继续检查配置是否正确、是否存在安全风险、是否高负载、是否超限、是否欠费等。就可通过1.2 小节的【诊断】工具快速排查
1.1.3 服务开通
多处开通入口:
点击【确认】:
初始化中:
初始化完成:
1.1.4 常用操作
① 实时健康状态
[控制台首页-概览],快速查看:
② 历史健康状态
在[控制台首页-运维监控]页,查看健康状态概览,支持查看最新状态、今天状态及15d内历史状态。
点击云服务器 ECS 的【查看详情】,跳转至健康状态详情页面,查看各资源每小时的健康状态。点击资源ID可跳转至该资源控制台。
看到这个结果,我觉得健康状态检查的功能很有用 ,能让我快速知晓云资源的当前和历史可用状态,避免在正确的资源上排查浪费过多时间。
1.2 诊断
1.2.1 定义
对云资源的某种工作状态(配置/功能/性能/连接/安全等)检测分析,并对异常进行详细描述并提供修复建议。
1.2.2 意义
无需掌握过多云产品知识,根据问题现象选择对应诊断场景实时发起诊断,只需1-2min完成诊断。诊断到异常,报告会给出详细描述及修复建议。
相比逐个摸排系统、分析大量日志、等客服,用户通过诊断工具可:
- 更快定位问题和解决问题,缩短问题解决周期
- 降低使用门槛
1.2.3 使用
① 发起诊断
[控制台首页]侧边栏:
侧边栏收起时,可点击右下角展开:
[控制台首页-运维监控]-创建诊断:
② 选择诊断场景
按问题现象选择诊断场景:
③ 配置诊断参数
不同诊断场景所需参数不同,我这里是直接选择我的 ECS 实例:
④ 查看诊断报告
诊断完成查看全部诊断项及诊断结果,若存在异常,可查看异常详情和修复建议:
看到这个结果,我觉得诊断的功能很有用 ,能让我知晓了网络性能关注的指标,不需要遇到问题时还得一个个指标排查,极大提升效率,快速排除怀疑的异常资源对象。
2 建议
比如在诊断项详情列表,希望能够开放每个检查项,用户自己可以如何执行命令检查,给想提升运维基本功的同学一个契机。
3 总结
总体使用下来,畅通无阻,体验良好,也是目前各大云平台特有的功能,期待更多更好用的功能,方便更多个人开发者和企业上云。
参考: