ECS 自助服务之智能诊断和自动化修复|学习笔记

本文涉及的产品
云服务器 ECS,u1 4核8GB 1个月
云服务器 ECS,每月免费额度200元 3个月
云服务器 ECS,u1 4核16GB 1个月
简介: 快速学习 ECS 自助服务之智能诊断和自动化修复

开发者学堂课程【玩转云上智能运维:ECS 自助服务之智能诊断和自动化修复】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/118/detail/1971


ECS 自助服务之智能诊断和自动化修复


内容介绍:

1. ECS 自助服务概要

2. 智能诊断

3. 自动化修复

4. 自助服务背后的 AI 与数据能力


一. ECS自助服务概要

自助服务诞生之前,人工客服的流程:

首先假设我们的用户遇到了一个问题,他在阿里云的控制台上会有一个智能在线,就是我们的客服机器人,他会向客服机器人来诉说自己的诉求

如果克服机器人判断这是一个问题,会自动的开工单,其实用户的话也可以在线提交阿里云的工单,描述自己的问题,所有的这些工单都会到我们的一线电话客服,一线客服会跟我们的用户进行一个反复的沟通和确认,沟通清楚之后,一线客服如果能自己确认,就直接指导客户去修复问题

如果一线客服觉得这个问题比较困难 或者可能是产品测本身的问题会上升到我们的二线技术支持,如果二线技术支持依然不能解决客户的问题,会继续上升到我们的三线工程师或者是我们的产品专家,我们的三线工程师和产品专家实际上是我们研发团队内部的最后台的我们的技术人员,以及我们的产品人员,所有的问题都会在三线这边得到一个解决

但是只有真正需要三线去修代码的问题或者需要加特权的问题,这是我们目前对于人工客服的一个流程。

人工客服的三大痛点:

1、为什么我的实例出问题了?

-背景沟通成本高

2.为什么这个问题这么久了还没解决?

-问题复杂、数据量大、人

工处理需要较长时间

问题看起来是修复了,你刚才做了什么?

-客服操作不透明自助服务

 

自助服务的理念是由用户自己去借助 AI 的能力和自动化的能力去检测问题并修复问题,在这个链条里,除了刚才的工单之外,还添加了一个更快的通路,就是提供了自助工具给用户,用户可以直接在控制台做资源的诊断,我们会告知用户根因是什么,用户可以进而用我们的自动修复工具一键的把问题修复,我们认为,自助服务水平的高低是云厂商的核心竞争力。

在我们的诊断工具和修复工具中,都是通过我们的AI和程序去分析问题的修复问题的,没有人去记录用户的这些隐私数据,所有的操作记录都在用户册的操作审计里面可见这也就保证了安全合规 同时借助我们阿里云海量的用户以及海量的日志,在未来诊断的准确率也会继续的提升。

 

二、智能诊断

图片5.png

我们举一个例子,ECS 最常见的几类问题是什么?

最常见的问题,列了四类,第一类是实例无法远程访问,这的远程访问包含 ssh 或者是 vnc 或者是 windows 的 rdp,这样的远程访问无法连接所造成的原因也是千差万别的。

这就决定了我们对根因的分析也是不能简单的写出来,这个诊断本身是一个很复杂的过程。另外几类常见的客户侧问题包括实例,启动和停止失败,实例的性能达不到客户的预期,磁盘的扩容没有生效等等。

—键开启 ECS 健康诊断:

为了达到我们百分之八十的目标,需要提供全面的体检,这里的全面体检从内到外,包括 ECS 服务,自身的健康诊断。

我们后台的硬件服务,同时我们还会做磁盘测的健康诊断,磁盘的健康诊断就包括我们的这个存储空间,我们的 IO 的读写速率,磁盘本身的数据一致性会做这些诊断,同时还会做网络侧的健康诊断,另外就是最上层的 Guest OS 本身的健康检查。

具体诊断能力:

从用户场景上,对于无法远程连接的访问,我们会诊断他的 ECS 系统服务。包括虚拟化异常,物理机异常资源争抢受限,所谓的资源争抢是指在某些入门及实例里面在一台服务器上存在着资源争抢的可能性,在这种问题下,我们会把这种现象透露给我们的用户。另外就是服务管控测的异常,这些我们都会通过我们的诊断能力把这些现象和根因透露给用户。

再比如说实例无法启动,带宽或者 CPU 跑满,对于这类的场景,我们会着重去诊断他的磁盘健康服务。另外就是磁盘读写受限,扩缩容易长等等。网络健康服务,网络其实分为几类不同的表象,最常见的表象是网络的延迟,网络的丢包以及网络的彻底不同,对这类网络的健康服务,其实会将会做他的网卡的加载异常。


三、自动化修复

诊断本身其实是第一步,就是当我诊断出来我的根因之后,用户一定是需要修复,做了自动化的修复才能提供最好的客户体验,可以看到我们的整个修复逻辑

首先,问题定位一分钟,找到根因之后,用户可以选择手动修复,手动修复就是会给出详细的修复文档和修复步骤,用户也可以自动修复。阿里云 OOS 为我们的修复场景提供了一系列的公共模板,这些修复相关的公共模板针对我们最常见的根因提供了修复场景,在具体的修复场景里面,会再次做检查,判断用户的根因,同时根据具体的根因采用不同的修复逻辑,因为不同用户场景下的修复逻辑也未必相同,跟用户的配置相关。

修复本身是一个高危操作,因为尤其是 AI 的修复不能保证百分百的修复成功率,这也是AI目前的限制,为此,我们就必须要支持回滚,如果修复不成功,在这种情况下,要提供回滚的能力。在修复之后,我们会重新诊断,确认修复是否成功,并且要求用户确认,如果用户确认修复成功 那么整个修复逻辑完成,如果用户认为修复不成功,我们会帮助用户恢复到修复之前的状态

ECS 修复能力一览表:

对修复能力来讲,我们着重建设的修复能力,也是针对我们的诊断能力来做的。

比如说 ECS 系统服务侧的修复和磁盘的修复,我们首先会尝试重启,重启之外还有一个重新部署,所谓的重新部署是指针对本地盘实例,我们会进行重新部署,重新部署可能就会丢掉本地盘实力原有的数据,同时,我们还会进行自动的故障上报和隔离。同时,我们还会做故障的网络设备的隔离。

我们会让诊断能力覆盖我们尽可能多目标百分十九十五这样的工单,也就是说,未来我们希望分之 95 的工单都是可以自动诊断的,那在可自动诊断的工单里,我们希望进一步有 80 %的工单是可自助修复的,当我们诊断发现了根因没有办法自动修复的时候,用户可以尝试手动自己修复,或者继续开工单让我们的人来修复。

修复能力的透明合规:

1,运维编排服务 OOS 提供自动化引擎,云助手命令提供 GuestOS 内的执行能力。

2,一切修复逻辑可见:OOS 公共模板和云助手公共命令,代码开源 3,一切修复操作可回滚:镜像、快照,数据备份。

4,一切权限可控:阿里云 RAM 角色控制。

5,一切记录可审计:阿里云操作审计 ActionTrail


4、自助服务背后的 AI 与数据能力

刚才的异常诊断,自动修复,以及我们正在做的优化推荐,都只是冰山之上的用户体验

在冰山之下其实是我们的 AI 算法和数据中台。在这块 AI 算法针对异常诊断最重要的有两个,一个是根因分析,一个是特征分类,态势感知是什么?态势感知其实是我们对于风险和安全的一个预测,这是一个安全相关的一个感知算法,因为安全本身也是一场诊断要做的一个重要的方向,还有预测和推荐算法,预测是这里面非常重要的事情,很多诊断都是在用户还没有感知的时候,我们就可以给到一场诊断。

数据中台的建设很重要,这里面就涉及到了采集,清洗,分析,还有我们的数据模型。

分为三类:数据,实时数据,准实时数据,离线数据。

什么叫做实时数据?

我们认为用户当前的性能数据,当前的网络数据,以及当前的这个健康数据都是属于实时数据。

准实时数据是说用户的操作记录。离线数据是我们指的我们有另外一个 T+1 的一个时间,就比如说我们今天可以获得昨天的数据,我们每一天都会把所有的数据打一个快照,这个离线数据是我们进行数据化,用户画像,进行行为分析,进行数据训练所必须的一些数据。

同时,对数据的划分有两个不同的维度了实时数据,整实时数据和离线数据是我们的一个维度。

网络数据其实就是我们的单独的这个网络组件所采集的数据包括在网络的交换机上,虚拟交换机上,防火墙上等等所采集的网络侧的数据。

特征和分类本身也是基于数据来做的,事件通知是指客户侧的事件通知,这个事件通知是我们通过我们的数据和我们的规则产生了一些事件推送,产生了一些订阅,就是事件和订阅是相对应的。

相关实践学习
ECS云服务器新手上路
本实验会自动创建一台ECS实例。首先,远程登陆ECS实例,并部署应用。然后,登陆管理控制台,并对这台ECS实例进行管理操作。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
5天前
|
人工智能 网络安全 开发工具
视觉智能开放平台操作报错合集之服务部署在pdd的服务器,调用报错:The SSL connection could not be established,该如何解决
在使用视觉智能开放平台时,可能会遇到各种错误和问题。虽然具体的错误代码和消息会因平台而异,但以下是一些常见错误类型及其可能的原因和解决策略的概述,包括但不限于:1. 认证错误、2. 请求参数错误、3. 资源超限、4. 图像质量问题、5. 服务不可用、6. 模型不支持的场景、7. 网络连接问题,这有助于快速定位和解决问题。
|
2月前
|
弹性计算 运维 Java
最佳实践:阿里云倚天ECS在千寻位置时空智能服务的规模化应用
阿里云、平头哥及安谋科技联合举办的飞天技术沙龙探讨了倚天Arm架构在业务创新中的应用。活动中,千寻位置运维专家分享了将核心业务迁移到倚天处理器ECS实例的成功案例,强调了倚天处理器的高能效比和降本增效优势。迁移过程涉及操作系统、CICD系统和监控系统的适配,以及业务系统的性能测试。目前,千寻已迁移了上千台ECS实例到倚天处理器,实现了成本和效率的显著提升。未来计划继续扩展倚天处理器在核心业务和K8S中的应用。
|
2天前
|
Prometheus 监控 Cloud Native
Java 服务挂掉,服务器异常宕机问题排查
Java 服务挂掉,服务器异常宕机问题排查
10 1
|
26天前
|
监控 安全 网络安全
如何选择合适的服务器托管服务?
【6月更文挑战第7天】如何选择合适的服务器托管服务?
28 3
|
2月前
|
弹性计算 运维 监控
【阿里云弹性计算】ECS实例的生命周期管理:阿里云自动化工具与策略介绍
【5月更文挑战第29天】阿里云提供自动化工具和策略管理ECS实例生命周期,如资源编排服务(ROS)实现一键部署,通过模板定义实例配置;自动化运维服务(OOS)执行自动化运维任务;弹性伸缩策略动态调整实例数量;定时启动/停止策略节省成本;监控告警策略确保业务连续性。通过这些工具和策略,企业可实现ECS实例的高效管理。
65 2
|
2月前
|
弹性计算 Java 关系型数据库
最佳实践:阿里云倚天ECS在千寻位置时空智能服务的规模化应用
当前,千寻已有上千台倚天ECS实例在支撑线上核心业务。
|
16天前
|
域名解析 存储 弹性计算
云服务器 ECS产品使用问题之快照服务如何设置定时备份以及定时删除
云服务器ECS(Elastic Compute Service)是各大云服务商阿里云提供的一种基础云计算服务,它允许用户租用云端计算资源来部署和运行各种应用程序。以下是一个关于如何使用ECS产品的综合指南。
|
2月前
|
弹性计算 关系型数据库 MySQL
【阿里云弹性计算】从零搭建:基于阿里云ECS的高性能Web服务部署实践
【5月更文挑战第21天】本文介绍了如何使用阿里云ECS搭建高性能Web服务。首先,注册阿里云账号购买ECS实例,选择合适配置。接着,通过SSH连接实例,更新系统并安装Apache、PHP和MySQL。创建网站目录,上传代码,配置数据库和PHP。然后,启用Gzip压缩和KeepAlive,调整Apache并发连接数以优化性能。此教程为在阿里云上构建高效Web服务提供了基础指南。
135 5
|
2月前
|
弹性计算 监控 安全
【阿里云弹性计算】ECS实例监控与告警系统构建:利用阿里云监控服务保障稳定性
【5月更文挑战第23天】在数字化时代,阿里云弹性计算服务(ECS)为业务连续性提供保障。通过阿里云监控服务,用户可实时监控ECS实例的CPU、内存、磁盘I/O和网络流量等指标。启用监控,创建自定义视图集中显示关键指标,并设置告警规则(如CPU使用率超80%),结合多种通知方式确保及时响应。定期维护和优化告警策略,利用健康诊断工具,能提升服务高可用性和稳定性,确保云服务的卓越性能。
75 1
|
2月前
|
弹性计算 运维 监控
【阿里云弹性计算】云上自动化运维实践:基于阿里云ECS的自动化部署与管理
【5月更文挑战第27天】阿里云ECS自动化运维实践:借助ECS API和SDK实现自动化部署,通过Python示例展示实例创建。利用Ansible、Docker等工具进行配置管理和容器化,结合CloudMonitor和Auto Scaling实现监控告警及资源动态调整,提升运维效率和系统稳定性。
178 0