从人肉到智能,阿里运维体系经历了哪些变迁?

简介:

机器智能的前提是需要有数据,AIOps的数据从哪里来?如何利用数据代替机器决策、分析?如何利用机器学习算法与基于大数据的业务运维管理平台整合,在告警过滤、异常监测、自动修复等环节发挥效用,真正能把运维同学解放出来提高整体运维效率,降低运维成本。我们认为AIOps是一个长期演进的过程,这也是我们区别于业界,在通往AIOps征途上增加DataOps阶段建设及沉淀的重要原因,而我们接下来聊一聊DataOps时代——运维人才的能力要求。

a670215e1c8889aba6d73b4a19c90c66d033f259

人肉/脚本运维时代(Human/Scripts Ops)

运维工作本身其实是一个需要具备高度综合技能掌握的工种,需要涉及的广度相对别职业属性的要求会更高,以前很多时候大家对运维的认识都停留在发布、变更、接报警、搬机器……其实这个很好理解,所有的互联网大公司都是从小公司成长起来的,在还是小公司的时候,你需要面对的是不停地解决各种奇怪的问题,而由于有公司生存的压力,追求短平快的结果使得大家会沦为一个搬来主义者,从各类技术论坛,甚至是个人blog上去搜索各种各样的解决方案,以求快速workrun解决问题,但对于原理、系统全局上的东西,可能完全不会去深究。

工具化运维时代(Tools Ops)

做过运维的人都知道,运维同学比较喜欢编写各种各样的脚本,比如一键批量发布软件,一键清理、交互式向导执行等等,他们很喜欢通过黑屏上操作刷屏带来成就感。每当我们的运维同学交接工作的时候,新来的运维同学基本上会照着自己的理解重新实现一套。人肉/脚本时代的运维存在大量的效率低下,以及各种各样重复的脚本工具,同时也会带来很多安全风险,回顾互联网的发展史,几乎每隔一段时间就有一些严重事故发生,而每次事故的背后却是一些低级错误,甚至是手误敲错字符带来的巨大代价。这时候大家都意识到,不能再任由运维同学随意发挥了,需要将各式各样的功能脚本收敛到工具里来,通过集成的运维工具迭代来实现复用和能力交接,这体现在DevOps的初级阶段,此时还没有延伸到Dev阶段。

平台型运维时代(DevOps)

随着公司商业上的成功,随之带来的规模的发展,这个时候量变引起质变,今天对大厂的运维来说已经远远不仅仅是上述这些工作,同时这些工作也不仅仅是靠加人手能解决得了的,例如说应用从原来的一个应用变成了几千个、上万个、几十万个,平台规模从原来的几百台扩充到上万&几十万台,硬件由简单的CPU,mem,机械硬盘增加到Gpu,Fpga,Asic,Optan等各类异构硬件平台,软件架构变化,大数据分布式等等,当面对海量的各类汇总数据,需要快速判断业务止损,全局资源优化运营等工作时,人工将会面临非常大的挑战,甚至是不可能完成的任务。这个时期运维的工作职能更多转变为:

●  全局架构规划
●  资源运营与成本优化
●  自动化平台开发
●  稳定性保障
●  海量数据分析
●  …….

数据化运维时代(DataOps):

对我们来说由于业务的需求对目前运维能力的要求越来越高,技能的要求上来说不光除了面上的广度还需要一定方向的精度,甚至某些点的深度要非常专深。同时需要通过软件工程化,数据化的运维的思路,围绕数据链建设起整体运维智能化工具链,来解决超大规模分布式集群运维管理问题,提升整体产品的稳定性,效率,成本。这样对现在整个运维人员的综合技能要求会有很大的挑战。

业内随着运维的发展逐步从Ops发展到今天大家业内都比较火热的AIOps,现在运维界现放眼望去大家都太大谈特谈AIOps,认为只要有强大的算法,就能够轻松实现不需要人为干预的智能化,当然这是个理想化,终局化的情况,最终的目标是要做到完全智能化,但这个难度不低于完全自动无人驾驶。在我们看来如果算法是kernel,那么工程化的程度就决定了能否把kernel发挥到极致,能否做到易用和高可靠是我们要着力解决的问题,我们内部我们认为目前还处于DataOps阶段,数据化一切运维对象,以数据驱动运维,工程化落地。与自动化驾驶分级类比:

ca375897ba20a7ea7ed0ebdac8a8d6bc7ccf8eaf

随着大数据时代的逐步发展促进运维人员的技能转型需要具备更为复合性能力:

●  架构能力
●  研发能力
●  运维知识&业务理解
●  基本工程算法
●  TPM(技术项目管理能力)

AIOps发展最终本质上还是要落地在公司的各类运维平台&运维产品上,在完成初步构建后仍然需要持续的人力投入以及参与,而在目前的探索发展的投入阶段,有大量的工需要去做,仍然需要专家或者分析师,从不同的维度,从不同的业务口径,组合合适的可视化技术,机器学习技术,大数据分析技术,制定分析场景,平台落地才能够为运维产生持续的洞察,提供最终的业务价值。

58cebf7d6d698d695633759a4d27139d41cb955e

在不同阶段对于运维团队的技术能力要求及转型是必须历经的过程,同时也是一个痛苦的过程,能力要求的变化自然会带来组织变革,对原有人员的冲击也会比较大,整个部门从维护性部门转变为研发创新型部门,最先带来的冲击是思想上的,在研发思维先有原理,然后逐步工程实现落地,而传统运维是反过来很多东西都是已经存在去维护它的稳定。

这种阵痛也是团队转变需要去面对的,从被动救火式运维向主动精细化转型,从问题驱动向价值驱动转型,从操作运维向运维开发转型,从依靠经验向智能化驱动运维转型,这不仅是技术能力的转型而且是运维系统化思路的转型。时代在变化,唯一不变的只有拥抱变化!


原文发布时间为:2018-09-11

本文作者:大舞

本文来自云栖社区合作伙伴“阿里技术”,了解相关信息可以关注“阿里技术”。

相关文章
|
1天前
|
机器学习/深度学习 人工智能 运维
智能化运维:从被动响应到主动预防####
【10月更文挑战第29天】 本文探讨智能化运维(AIOps)如何通过融合大数据、机器学习与自动化技术,推动IT运维管理从传统的被动响应模式向主动预防机制转变。不同于传统摘要概述全文内容的方式,本文摘要旨在直接揭示智能化运维的核心价值——利用智能算法预测潜在故障,减少系统停机时间,提升运维效率与服务质量,同时强调其在现代企业IT架构中的关键作用。 ####
18 9
|
3天前
|
数据采集 机器学习/深度学习 运维
智能化运维在现代IT系统中的应用与挑战####
【10月更文挑战第29天】 本文探讨了智能化运维(AIOps)在现代IT系统中的重要作用及其面临的主要挑战。通过引入机器学习和大数据分析,智能化运维能显著提高系统稳定性、降低运营成本,并增强故障预测能力。然而,数据质量、技术整合及安全性等问题仍是其广泛应用的主要障碍。本文详细分析了这些挑战,并提出了相应的解决方案和未来发展趋势。 ####
16 5
|
2天前
|
机器学习/深度学习 人工智能 运维
智能化运维:从传统到AIOps的转型之路####
本文探讨了智能化运维(AIOps)的兴起背景、核心价值及其对现代IT运维模式的深刻影响。通过分析传统运维面临的挑战,阐述了AIOps如何利用大数据、机器学习技术实现故障预测、自动化处理与决策支持,进而提升运维效率和服务质量。文章还概述了实施AIOps的关键步骤与面临的主要挑战,为组织向智能化运维转型提供参考路径。 ####
|
5天前
|
机器学习/深度学习 数据采集 运维
智能化运维:机器学习在故障预测和自动化响应中的应用
智能化运维:机器学习在故障预测和自动化响应中的应用
21 4
|
6天前
|
机器学习/深度学习 人工智能 运维
智能运维:AIOps在大型系统运维中的实践与挑战
【10月更文挑战第28天】随着云计算、大数据和人工智能的发展,AIOps(人工智能运维)应运而生,旨在通过算法和机器学习提高运维效率和质量。本文探讨了AIOps在大型系统运维中的实践与挑战,包括数据质量、模型选择和团队协作等方面,并通过一个异常检测案例展示了其应用。尽管面临挑战,AIOps仍有望成为未来运维的重要方向。
31 5
|
6天前
|
机器学习/深度学习 人工智能 运维
智能化运维:提升IT服务效率的新引擎###
本文深入浅出地探讨了智能化运维(AIOps)如何革新传统IT运维模式,通过大数据、机器学习与自动化技术,实现故障预警、快速定位与处理,从而显著提升IT服务的稳定性和效率。不同于传统运维依赖人工响应,AIOps强调预测性维护与自动化流程,为企业数字化转型提供强有力的支撑。 ###
|
7天前
|
Prometheus 运维 监控
智能运维实战:Prometheus与Grafana的监控与告警体系
【10月更文挑战第27天】在智能运维中,Prometheus和Grafana的组合已成为监控和告警体系的事实标准。Prometheus负责数据收集和存储,支持灵活的查询语言PromQL;Grafana提供数据的可视化展示和告警功能。本文介绍如何配置Prometheus监控目标、Grafana数据源及告警规则,帮助运维团队实时监控系统状态,确保稳定性和可靠性。
37 0
|
27天前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
46 4
|
23天前
|
存储 运维 监控
高效运维:从基础架构到自动化管理的全面指南
【10月更文挑战第11天】 本文将深入探讨如何通过优化基础架构和引入自动化管理来提升企业IT运维效率。我们将从服务器的选择与配置、存储解决方案的评估,到网络的设计与监控,逐一解析每个环节的关键技术点。同时,重点讨论自动化工具在现代运维中的应用,包括配置管理、持续集成与部署(CI/CD)、自动化测试及故障排除等方面。通过实际案例分析,展示这些技术如何协同工作,实现高效的运维管理。无论是IT初学者还是经验丰富的专业人员,都能从中获得有价值的见解和实操经验。
43 1
|
25天前
|
运维 监控 测试技术
构建高效运维体系:从监控到自动化的实践之路
【10月更文挑战第9天】 在当今信息技术飞速发展的时代,运维作为保障系统稳定性与效率的关键角色,正面临前所未有的挑战。本文将探讨如何通过构建一个高效的运维体系来应对这些挑战,包括监控系统的搭建、自动化工具的应用以及故障应急处理机制的制定。我们将结合具体案例,分析这些措施如何帮助提升系统的可靠性和运维团队的工作效率。
38 1

热门文章

最新文章