运维大杀器来了,未来云上服务器或将实现无人值守

简介: 9月26日,阿里巴巴高级技术专家滕圣波在《GOPS全球运维大会》上发表了题为《云上服务器无人值守与自助服务实战》的主题演讲,本文根据滕圣波的演讲整理。

云原生时代下,企业的IT运维面临架构复杂化、业务需求多样化和运维数据海量化等挑战,如何能够实现精准告警、异常智能诊断、根因定位、异常预测和异常自动修复,已成为企业数字化转型的急迫需求。

9月26日,阿里巴巴高级技术专家滕圣波在《GOPS全球运维大会》上发表了题为《云上服务器无人值守与自助服务实战》的主题演讲,分享了阿里云弹性计算团队如何利用人工智能技术赋能运维自动化,实现云上服务器无人值守,帮助用户降低云服务器实例管理的复杂性,来保障实例服务的稳定和高效运行。本文根据滕圣波的演讲整理。

image.png

图:阿里巴巴高级技术专家滕圣波

本文内容架构:
1、云上服务器为什么需要无人值守?
2、阿里云无人值守的自服务实战
3、无人值守背后的数据和AI

1、云上服务器为什么需要无人值守?

运维是一种服务,既包含基础设施软件服务、也包含人力服务,服务的对象是企业中使用基础设施的业务团队,而云计算IaaS是一种运维服务,服务的对象已发展为使用云服务的开发人员和运维团队。随着云计算的广泛落地,大部分企业已经上云,当前就有100万多家用户的业务运行在阿里云平台上,阿里云平台服务的用户也越来越多。

随着平台用户规模的扩大,我们发现平台用户在ECS实例运维时普遍面临三个痛点:

(1)背景沟通成本高,为什么我的实例出问题了?
(2)人工处理需要较长的时间,为什么这个问题这么久还没有解决?
(3)客户操作不透明,问题看起来修复了,可是刚刚你做了什么?

为此,我们需要重人力投入在客服人员上让用户的问题得以高效解决。为了避免用户规模扩大带来的客户侧运维成本的线性上升,我们开始利用人工智能技术赋能用户运维管理。在无人零售、无人驾驶成为趋势的时候,我们认为未来云上服务器也将实现无人值守

事实上,阿里云弹性计算产品推出十年了,沉淀了众多ECS实例运维管理经验和异常“行为”规律。所以依托机器学习的数据驱动,我们通过异常“行为”数据的分析,构建了一套云上服务器的无人值守架构,并推出了一系列自助服务,实现了ECS实例的自诊断、自修复、自优化、自运维,帮助用户降低ECS实例管理的复杂性,从而来保障实例服务的稳定和高效运行。

2、无人值守的自服务实战

image.png

云计算IaaS的运维工作可以拆分为服务侧运维和客户侧运维,服务侧运维是云平台的运维工作,通常对用户不可见的,主要涉及基础设施、基础产品和上层管控三个层面,包括机房、物理设备的运维工作、资源虚拟化、资源调度、热迁移等工作。随着用户规模的扩大,这些运维工作会越来越复杂。而用户侧运维工作,是对用户自己可见的,主要是用户对ECS实例的修改操作和自动化工作,包括扩容、重启、监控、客服服务、工单反应、资源编排和运维编排等。

我们构建的云上服务器的无人值守架构,为阿里云平台用户提供了一系列的自助服务。广义上看,阿里云的自助服务囊括了ECS实例本身、实例生命周期管理、系统管理和自动化、市场和生态四个维度,如下图。

image.png

图:广义上的自助服务


狭义上来说,阿里云自助服务为用户实现了ECS实例的诊断、修复和推荐的功能。当天,阿里云自助服务已提供实例诊断工具、实例优化推荐、自动修复工具、最佳模板推荐和ECS事件自动化等一系列自助服务工具, 覆盖了80% ECS常见问题,将问题解决的平均周期从几小时缩短至分钟级,整个过程无需客服人工参与,无隐私泄漏风险,做到了云上服务器的无人值守。未来随着AI+数据的不断驱动,ECS实例的诊断和修复将会越来越精准。

ECS实例的智能诊断

根据平台的数据统计,用户在使用ECS实例时主要面临四大类问题:
(1)实例无法远程访问
(2)实例无法启动/停止
(3)实例性能异常
(4)磁盘扩容未生效

所以,在智能诊断的能力上,我们覆盖了ECS系统服务、磁盘健康服务、网络健康服务和Guest OS系统配置等维度,用户一键即可完成实例的智能健康诊断。

ECS实例的自动化修复

在智能诊断完成后,我们还会为用户提供ECS实例自动化修复方案,在前者定位问题所在之后,自动化修复能够在1-3分钟内解决问题,主要完成ECS系统服务修复、网络问题修复和磁盘修复。

仅仅实现自动化修复是不够的,我们认为自动化修复还应该是透明合规的。我们通过运维编排服务OOS提供自动化引擎,通过云助手命令提供GuestOS内的执行能力,运维编排服务OOS+云助手命令共同帮助用户完成自动化修复;同时,我们开源了运维编排服务OOS+云助手命令的代码,做到一切修复逻辑对用户可见;一切修复操作还可以通过ECS实例的镜像、快照和数据备份实现回滚;通过阿里云RAM角色控制实现一切权限可控,通过阿里云操作审计ActionTrail实现一切记录可审计,做到了真正的透明合规。

3、无人值守背后的AI与数据能力

让我们实现智能诊断和自动化修复的,是冰山下强大的技术支撑——AI+数据。依托底层的数据中台,我们完成了包括物理机数据、虚拟化数据、网络数据、控制面数据和GuestOS内数据等数据的采集、清洗、分析和模型的构建;加上AI算法的不断调优,我们搭建了用户画像、决策树、预测和推荐模型等,从而保证异常诊断和自动修复越加的精准和高效。

image.png

当前,在整体的ECS自助服务架构中,主要依靠管控监控中心实时监测日志服务、中间件监控、API请求监控以及控制台监控和自助诊断的数据,通过机器学习引擎实现问题预警和处理,进而驱动运维编排服务OOS实现自动化修复问题。

image.png

通过这套AI驱动的自服务架构,当前阿里云ECS实时内存异常感知准确率在70%以上,实施预测链路延时则控制在100s以内;另外融合专家经验、案例库和知识库,我们构建了一个强大的诊断决策树,为加快问题的定位和修复提供了强有力的依据。

近两年,阿里云弹性计算团队持续不断地投入构建异常行为数据集,未来计划将其演进成为阿里巴巴集团在异常预测上的“ImageNet 数据集”并进行开源,希望能为异常预测在业内的发展贡献更大的价值。


关注百晓生,笑谈云计算

二维码-三分之一.gif

相关文章
|
5天前
|
并行计算 前端开发 异构计算
告别服务器繁忙,云上部署DeepSeek
本文以 DeepSeek-R1-Distill-Qwen-32B-FP8 为例,向您介绍如何在GPU实例上使用容器来部署量化的 DeepSeek-R1 蒸馏模型。
|
1月前
|
安全 大数据 Linux
云上体验最佳的服务器操作系统 - Alibaba Cloud Linux | 飞天技术沙龙-CentOS 迁移替换专场
本次方案的主题是云上体验最佳的服务器操作系统 - Alibaba Cloud Linux ,从 Alibaba Cloud Linux 的产生背景、产品优势以及云上用户使用它享受的技术红利等方面详细进行了介绍。同时,通过国内某社交平台、某快递企业、某手机客户大数据业务 3 大案例,成功助力客户实现弹性扩容能力提升、性能提升、降本增效。 1. 背景介绍 2. 产品介绍 3. 案例分享
|
1月前
|
运维
阿里云服务器批量执行命令(系统运维管理oos)
阿里云【系统运维管理oos】批量执行详情
52 5
|
1月前
|
弹性计算 运维 Ubuntu
使用阿里云服务器自动搭建WordPress网站流程,超简单by系统运维管理OOS
本教程介绍如何使用阿里云服务器(ECS)和系统运维管理OOS自动搭建WordPress网站,支持Ubuntu、CentOS及Alibaba Cloud Linux等操作系统。前提条件包括ECS实例处于运行中、有公网IP且安全组已开启80端口。安装步骤简单:进入ECS快速购买控制台选择预装WordPress,确认下单后通过管理控制台查看实例详情并开放安全组端口。最后,通过实例公网IP访问,出现WordPress登录页即表示安装成功。
|
1月前
|
弹性计算 Ubuntu Linux
阿里云服务器一键安装Docker社区版教程,基于系统运维管理OOS
阿里云服务器一键安装Docker社区版教程,基于系统运维管理OOS自动化部署。支持Ubuntu 22.04/20.04、CentOS 7.7-7.9及Alibaba Cloud Linux 3.2104 LTS。前提条件:ECS实例需运行中且有公网。步骤:选择Docker扩展并安装,验证成功通过命令`docker -v`查看版本号。
300 79
|
2月前
|
存储 弹性计算 运维
端到端的ECS可观测性方案,助力云上业务安全稳定
本文介绍了云原生时代保障业务系统可靠性的方法和挑战,重点探讨了阿里云ECS在提升业务稳定性、性能监控及自动化恢复方面的能力。文章分为以下几个部分:首先,阐述了业务可靠性的三个阶段(事前预防、事中处理、事后跟进);其次,分析了云上业务系统面临的困难与挑战,并提出了通过更实时的监测和自动化工具有效规避风险;接着,详细描述了ECS实例稳定性和性能问题的解决方案;然后,介绍了即将发布的ECS Lens产品,它将全面提升云上业务的洞察能力和异常感知能力;最后,通过具体案例展示了如何利用OS自动重启和公网带宽自适应调节等功能确保业务连续性。总结部分强调了ECS致力于增强性能和稳定性的目标。
|
2月前
|
运维 网络安全 Python
自动化运维:使用Ansible实现批量服务器配置
在快速迭代的IT环境中,高效、可靠的服务器管理变得至关重要。本文将介绍如何使用Ansible这一强大的自动化工具,来简化和加速批量服务器配置过程。我们将从基础开始,逐步深入到更复杂的应用场景,确保即使是新手也能跟上节奏。文章将不包含代码示例,而是通过清晰的步骤和逻辑结构,引导读者理解自动化运维的核心概念及其在实际操作中的应用。
|
2月前
|
运维 Ubuntu 网络协议
自动化运维:使用Ansible进行服务器配置管理
在现代IT架构中,自动化运维已成为提升效率、减少人为错误的关键。本文将介绍如何使用Ansible这一强大的自动化工具来简化和标准化服务器的配置管理过程。通过具体的代码示例和操作步骤,我们将展示如何快速部署应用、管理配置以及自动化日常任务,从而确保环境的一致性和可靠性。
|
26天前
|
Linux 持续交付 调度
HTTPS 证书自动化运维:https证书管理系统-自动化部署
本指南介绍如何部署Linux服务器节点。首先复制生成的Linux脚本命令,然后将其粘贴到目标服务器上运行。接着刷新页面查看节点记录,并点击“配置证书”选择证书以自动部署。最后,节点部署完成,后续将自动调度,无需人工干预。
HTTPS 证书自动化运维:https证书管理系统-自动化部署
|
26天前
|
监控 运维
HTTPS 证书自动化运维:https证书管理系统- 自动化监控
本文介绍如何设置和查看域名或证书监控。步骤1:根据证书状态选择新增域名或证书监控,线上部署推荐域名监控,未部署选择证书监控。步骤2:查询监控记录详情。步骤3:在详情页查看每日定时检测结果或手动测试。
HTTPS 证书自动化运维:https证书管理系统- 自动化监控

相关产品

  • 云服务器 ECS