ECS 自助服务之智能诊断和自动化修复|学习笔记

简介: 快速学习 ECS 自助服务之智能诊断和自动化修复

开发者学堂课程【玩转云上智能运维:ECS 自助服务之智能诊断和自动化修复】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/118/detail/1971


ECS 自助服务之智能诊断和自动化修复


内容介绍:

1. ECS 自助服务概要

2. 智能诊断

3. 自动化修复

4. 自助服务背后的 AI 与数据能力


一. ECS自助服务概要

自助服务诞生之前,人工客服的流程:

首先假设我们的用户遇到了一个问题,他在阿里云的控制台上会有一个智能在线,就是我们的客服机器人,他会向客服机器人来诉说自己的诉求

如果克服机器人判断这是一个问题,会自动的开工单,其实用户的话也可以在线提交阿里云的工单,描述自己的问题,所有的这些工单都会到我们的一线电话客服,一线客服会跟我们的用户进行一个反复的沟通和确认,沟通清楚之后,一线客服如果能自己确认,就直接指导客户去修复问题

如果一线客服觉得这个问题比较困难 或者可能是产品测本身的问题会上升到我们的二线技术支持,如果二线技术支持依然不能解决客户的问题,会继续上升到我们的三线工程师或者是我们的产品专家,我们的三线工程师和产品专家实际上是我们研发团队内部的最后台的我们的技术人员,以及我们的产品人员,所有的问题都会在三线这边得到一个解决

但是只有真正需要三线去修代码的问题或者需要加特权的问题,这是我们目前对于人工客服的一个流程。

人工客服的三大痛点:

1、为什么我的实例出问题了?

-背景沟通成本高

2.为什么这个问题这么久了还没解决?

-问题复杂、数据量大、人

工处理需要较长时间

问题看起来是修复了,你刚才做了什么?

-客服操作不透明自助服务

 

自助服务的理念是由用户自己去借助 AI 的能力和自动化的能力去检测问题并修复问题,在这个链条里,除了刚才的工单之外,还添加了一个更快的通路,就是提供了自助工具给用户,用户可以直接在控制台做资源的诊断,我们会告知用户根因是什么,用户可以进而用我们的自动修复工具一键的把问题修复,我们认为,自助服务水平的高低是云厂商的核心竞争力。

在我们的诊断工具和修复工具中,都是通过我们的AI和程序去分析问题的修复问题的,没有人去记录用户的这些隐私数据,所有的操作记录都在用户册的操作审计里面可见这也就保证了安全合规 同时借助我们阿里云海量的用户以及海量的日志,在未来诊断的准确率也会继续的提升。

 

二、智能诊断

图片5.png

我们举一个例子,ECS 最常见的几类问题是什么?

最常见的问题,列了四类,第一类是实例无法远程访问,这的远程访问包含 ssh 或者是 vnc 或者是 windows 的 rdp,这样的远程访问无法连接所造成的原因也是千差万别的。

这就决定了我们对根因的分析也是不能简单的写出来,这个诊断本身是一个很复杂的过程。另外几类常见的客户侧问题包括实例,启动和停止失败,实例的性能达不到客户的预期,磁盘的扩容没有生效等等。

—键开启 ECS 健康诊断:

为了达到我们百分之八十的目标,需要提供全面的体检,这里的全面体检从内到外,包括 ECS 服务,自身的健康诊断。

我们后台的硬件服务,同时我们还会做磁盘测的健康诊断,磁盘的健康诊断就包括我们的这个存储空间,我们的 IO 的读写速率,磁盘本身的数据一致性会做这些诊断,同时还会做网络侧的健康诊断,另外就是最上层的 Guest OS 本身的健康检查。

具体诊断能力:

从用户场景上,对于无法远程连接的访问,我们会诊断他的 ECS 系统服务。包括虚拟化异常,物理机异常资源争抢受限,所谓的资源争抢是指在某些入门及实例里面在一台服务器上存在着资源争抢的可能性,在这种问题下,我们会把这种现象透露给我们的用户。另外就是服务管控测的异常,这些我们都会通过我们的诊断能力把这些现象和根因透露给用户。

再比如说实例无法启动,带宽或者 CPU 跑满,对于这类的场景,我们会着重去诊断他的磁盘健康服务。另外就是磁盘读写受限,扩缩容易长等等。网络健康服务,网络其实分为几类不同的表象,最常见的表象是网络的延迟,网络的丢包以及网络的彻底不同,对这类网络的健康服务,其实会将会做他的网卡的加载异常。


三、自动化修复

诊断本身其实是第一步,就是当我诊断出来我的根因之后,用户一定是需要修复,做了自动化的修复才能提供最好的客户体验,可以看到我们的整个修复逻辑

首先,问题定位一分钟,找到根因之后,用户可以选择手动修复,手动修复就是会给出详细的修复文档和修复步骤,用户也可以自动修复。阿里云 OOS 为我们的修复场景提供了一系列的公共模板,这些修复相关的公共模板针对我们最常见的根因提供了修复场景,在具体的修复场景里面,会再次做检查,判断用户的根因,同时根据具体的根因采用不同的修复逻辑,因为不同用户场景下的修复逻辑也未必相同,跟用户的配置相关。

修复本身是一个高危操作,因为尤其是 AI 的修复不能保证百分百的修复成功率,这也是AI目前的限制,为此,我们就必须要支持回滚,如果修复不成功,在这种情况下,要提供回滚的能力。在修复之后,我们会重新诊断,确认修复是否成功,并且要求用户确认,如果用户确认修复成功 那么整个修复逻辑完成,如果用户认为修复不成功,我们会帮助用户恢复到修复之前的状态

ECS 修复能力一览表:

对修复能力来讲,我们着重建设的修复能力,也是针对我们的诊断能力来做的。

比如说 ECS 系统服务侧的修复和磁盘的修复,我们首先会尝试重启,重启之外还有一个重新部署,所谓的重新部署是指针对本地盘实例,我们会进行重新部署,重新部署可能就会丢掉本地盘实力原有的数据,同时,我们还会进行自动的故障上报和隔离。同时,我们还会做故障的网络设备的隔离。

我们会让诊断能力覆盖我们尽可能多目标百分十九十五这样的工单,也就是说,未来我们希望分之 95 的工单都是可以自动诊断的,那在可自动诊断的工单里,我们希望进一步有 80 %的工单是可自助修复的,当我们诊断发现了根因没有办法自动修复的时候,用户可以尝试手动自己修复,或者继续开工单让我们的人来修复。

修复能力的透明合规:

1,运维编排服务 OOS 提供自动化引擎,云助手命令提供 GuestOS 内的执行能力。

2,一切修复逻辑可见:OOS 公共模板和云助手公共命令,代码开源 3,一切修复操作可回滚:镜像、快照,数据备份。

4,一切权限可控:阿里云 RAM 角色控制。

5,一切记录可审计:阿里云操作审计 ActionTrail


4、自助服务背后的 AI 与数据能力

刚才的异常诊断,自动修复,以及我们正在做的优化推荐,都只是冰山之上的用户体验

在冰山之下其实是我们的 AI 算法和数据中台。在这块 AI 算法针对异常诊断最重要的有两个,一个是根因分析,一个是特征分类,态势感知是什么?态势感知其实是我们对于风险和安全的一个预测,这是一个安全相关的一个感知算法,因为安全本身也是一场诊断要做的一个重要的方向,还有预测和推荐算法,预测是这里面非常重要的事情,很多诊断都是在用户还没有感知的时候,我们就可以给到一场诊断。

数据中台的建设很重要,这里面就涉及到了采集,清洗,分析,还有我们的数据模型。

分为三类:数据,实时数据,准实时数据,离线数据。

什么叫做实时数据?

我们认为用户当前的性能数据,当前的网络数据,以及当前的这个健康数据都是属于实时数据。

准实时数据是说用户的操作记录。离线数据是我们指的我们有另外一个 T+1 的一个时间,就比如说我们今天可以获得昨天的数据,我们每一天都会把所有的数据打一个快照,这个离线数据是我们进行数据化,用户画像,进行行为分析,进行数据训练所必须的一些数据。

同时,对数据的划分有两个不同的维度了实时数据,整实时数据和离线数据是我们的一个维度。

网络数据其实就是我们的单独的这个网络组件所采集的数据包括在网络的交换机上,虚拟交换机上,防火墙上等等所采集的网络侧的数据。

特征和分类本身也是基于数据来做的,事件通知是指客户侧的事件通知,这个事件通知是我们通过我们的数据和我们的规则产生了一些事件推送,产生了一些订阅,就是事件和订阅是相对应的。

相关实践学习
使用操作系统智能助手OS Copilot解锁操作系统运维与编程
在本实验场景中,将在阿里云ECS上体验OS Copilot产品。OS Copilot是阿里云操作系统团队基于大模型构建的OS智能助手。它具有自然语言问答、辅助命令执行、系统运维调优等功能,帮助用户更好地使用Linux,提升阿里云的使用体验。
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
6月前
|
人工智能 运维 调度
机房服务器快喘不过气?智能负载管理才是救命稻草
机房服务器快喘不过气?智能负载管理才是救命稻草
182 1
|
9月前
|
缓存 安全 网络协议
如何使用Bluetown Cloud服务器及其CDN服务来掩护VPS的真实IP地址。
最终,通过Bluetown Cloud的CDN服务,你的VPS不仅仅是隐藏在一层又一层的保护之下,同时也因为CDN的全球节点而享受到加速访问的优势,无所不在又不被发现,像是一位能在互联网世界中自由穿梭的幽灵特工。
172 14
|
9月前
|
应用服务中间件 网络安全 数据安全/隐私保护
网关服务器配置指南:实现自动DHCP地址分配、HTTP服务和SSH无密码登录。
哇哈哈,道具都准备好了,咱们的魔术秀就要开始了。现在,你的网关服务器已经魔法满满,自动分配IP,提供网页服务,SSH登录如入无人之境。而整个世界,只会知道效果,不会知道是你在幕后操控一切。这就是真正的数字世界魔法师,随手拈来,手到擒来。
456 14
|
8月前
|
运维 Prometheus 监控
“服务器又宕了?”别急,智能运维教你如何未卜先知!
“服务器又宕了?”别急,智能运维教你如何未卜先知!
199 0
|
9月前
|
物联网
云服务器搭建rttys服务
RTTYS是一款基于Web的串口调试工具,分为服务端(rttys)和客户端(rtty)。服务端负责连接串口设备并提供接口,客户端通过浏览器访问实现远程串口调试。它具有跨平台、易部署的特点,适用于物联网、嵌入式开发等场景,极大提升调试效率。
|
12月前
|
弹性计算 运维 监控
【阿里云】控制台使用指南:从创建ECS到系统诊断测评
本文介绍了如何通过阿里云获取ECS云服务器并进行操作系统配置与组件安装,以实现高效的资源管理和系统监控。阿里云凭借强大的基础设施和丰富的服务成为用户首选。文中详细描述了获取ECS、RAM授权、开通操作系统控制台及组件安装的步骤,并展示了如何利用控制台实时监控性能指标、诊断系统问题及优化性能。特别针对idle进程进行了深入分析,提出了优化建议。最后,建议定期进行系统健康检查,并希望阿里云能推出更友好的低成本套餐,满足学生等群体的需求。
578 17
【阿里云】控制台使用指南:从创建ECS到系统诊断测评
|
11月前
|
人工智能 API 开发工具
GitHub官方开源MCP服务!GitHub MCP Server:无缝集成GitHub API,实现Git流程完全自动化
GitHub MCP Server是基于Model Context Protocol的服务器工具,提供与GitHub API的无缝集成,支持自动化处理问题、Pull Request和仓库管理等功能。
2152 2
GitHub官方开源MCP服务!GitHub MCP Server:无缝集成GitHub API,实现Git流程完全自动化
|
9月前
|
人工智能 算法 程序员
AiPy自动化数学题生成实战,修复表弟暑假“太闲.bug”
这段内容介绍了一款名为AiPy的开源工具如何解决“熊孩子”假期无事可做的问题。通过融合LLM与Python生态,AiPy生成大量不重复、难度适中的数学题,并支持整除保障和智能去重。项目实现从题目生成到Word文档输出的一站式功能,界面简洁且高效。核心技术包括利用AiPy编排任务流程、py-docx生成格式化文档以及算法确保题目质量。
357 0
|
9月前
|
测试技术 Python
Python接口自动化测试中Mock服务的实施。
总结一下,Mock服务在接口自动化测试中的应用,可以让我们拥有更高的灵活度。而Python的 `unittest.mock`库为我们提供强大的支持。只要我们正确使用Mock服务,那么在任何情况下,无论是接口是否可用,都可以进行准确有效的测试。这样,就大大提高了自动化测试的稳定性和可靠性。
346 0
|
12月前
|
存储 人工智能 安全
做网站如何选择云服务器?(二)服务篇
在现代互联网时代,云服务器成为企业与个人满足业务需求的首选。选择云服务商时需关注多个方面:稳定性与数据保护(如99.95%高可用性、99.999%数据可靠性)、安全防护体系(DDoS防护、入侵检测等)、弹性扩展功能、技术支持体系(24/7支持)、高性价比与灵活付费模式、快速供应与部署能力、多区域覆盖与线路选择、不限流量与IP更换、垂直场景方案(如游戏云、AI训练)及用户评价与案例分析。特别关注不同行业需求,如初创团队的成本控制、大型企业的合规性审查、金融医疗的安全合规等。综合考虑这些因素,才能确保网站高效运行和持续发展。
273 1

热门文章

最新文章