实战:阿里巴巴 DevOps 转型后的运维平台建设

简介: 阿里巴巴DevOps转型之后,运维平台是如何建设的?阿里巴巴高级技术专家陈喻结合运维自身的理解,业务场景的分析和业界方法论的一些思考,得出来一些最佳实践分享给大家。
导读:阿里巴巴DevOps转型之后,运维平台是如何建设的?阿里巴巴高级技术专家陈喻结合运维自身的理解,业务场景的分析和业界方法论的一些思考,得出来一些最佳实践分享给大家。

前言

“我是这个应用的 Owner”是阿里巴巴DevOps转型的重要策略,运维有了这个策略以后,PE大量的日常工作就可以释放出来,会有更多的时间去思考沉淀,去做编码,去做以前不曾做的事情。

运维的三个阶段

95bb11cdf0e424fb1d15aef6c990e6f9b7631b7b

第一阶段:黑屏,三角形是代表整个运维给用户的一些体感或者给研发的体感,人工运维,目前很多企业可能还是这样。

第二阶段:白屏,自动化运维,以前把脚本做成工具去弄,有什么特征,人push机器去干活,自助运维。

第三阶段:用户对运维体感很少,但是运维这个领域是不变的。最重要的是人机交互变少了,无屏虽说是不可能的,非常极端,但是个趋势,少量的人机交互,它有自决策、自驱动。

自动化运维基础

做自动化运维,我认为有四大基础。

第一:运维标准与规范

我们的标准有什么好处,让研发 follow 这个标准,标准会在工具里固化。

第二:泛监控,运行时,静态,数据化,可视化

泛监控,不是说传统的监控,是把线上想知道的一切都数据化,最终数据不是给人看的,是给机器去消费的,数据是我们的生产资料,不是可视化,那不是我们的目标。

第三:CMDB

1.CMDB 应该放什么,一般放服务器相关的、网络相关的、应用相关的这三个维度的相关信息。

2.经常有人会说 CMDB 不准,数据不准是因为没有把数据生产和数据消费形成闭环,如果形成了闭环数据不准,那是因为你不用这个数据,所以不准。

第四:高效的CI/CD/CD

我们一定要具备快速的交付能力,主要体现这两个方面:第一,新开发的能力能不能快速上线,第二,想扩容一台机器能不能快速扩出来。这两个能力抽象出来是三块。
  • 持续集成(CI),很多人说持续集成工具不好用,效率低,其实持续集成的本质是要自动化测试。如果研发部不具备自动化测试的能力,持续集成怎么做都是失败的。
  • 持续集成里最重要的一点就是要推行单元测试、集成测试还有系统测试,单测是保证自己没问题,集成测试是保证跟上下游没问题,系统测试是保证整个系统没问题。
  • 持续交付(CD),有很多人说持续交付本质是一个 Pipeline,CI的目标是什么?快速正确打一个包出来。CD的目标是什么?能够快速把一个包在不同的环境验证它是ok的,可以放到线上去,这就是持续交付要干的事。持续交付里很关键的一点我们要解决,就是它的环境一致性、配置一致性。环境一致性可以用Docker解决,Docker 本身就是一种标准化的东西。所以说第一条用 Docker,肯定是标准化的,另外一个问题,配置是不是一致性,是不是动静分离。
  • 持续部署(CD),是一种能力,这种能力非常重要,就是把一个包快速部署在你想要的地方。
PS:持续部署的几个痛点。

1.对包的文件的分发,阿里有一个叫蜻蜓的产品,是做了 SP2P,在 P2P 的基础上加了一个 Super。

2.应用启动,很多应用启动的时候要两三分钟,这是很有问题的。

3.部署起来以后这个业务是不是正确的,大家一定要做一个 HealthCheck,不是运维做,是PE做,一定要把这个要求说出来,执行 HealthCheck 这个脚本。

运维系统的重要特性

中间件研发首先关注稳定性,其次是效率,然后是易扩展。运维研发里面的六个重要特征,每一个都非常重要,以下是我感触比较深的几个。

182c9c2daf3c7625f9298a18479704a8d3023a1a

1.高可用
在做同城容灾演练的时候,我把关一切,结果发现运维系统挂了,救命的东西没有了怎么办?所以说运维系统一定要是高可用,不一定是高并发。

2.幂等性
幂等性是分布式系统设计中十分重要的概念,这个也非常重要。

3.可回滚
这个是做运维最基本的一个 sense,你做的任何操作是不是可控的。如果真正做可回滚,其实事情没有这么复杂。

4.高效率
如果你的企业发展非常快速,你的规模性效应已经来了,你的运维系统一定要具备很高效率,快速扩容、快速部署这个效率我们要追求极致。

研发定义运维,配置驱动变更

4a7c4305fb3cd08cb13987c63f990899732bea5e
2015年11月4日设想的架构图

从最下面看,是我们的基础设施,提供三种能力,包括集散、存储、网络。从右下角的位置看,画的是一个泛监控,它会知道系统、应用等,在旁边标了一个字,现状,我要通过这个现状把线上的系统全部数据化,然后放到决策中心。

左上角有 CMDB,现在很多变更系统,很多强调流程。我本人是做研发出身,非常抵触流程,流程不是一个效率工具,它是阻碍效率的。

比如故障搞完以后就是一堆的流程,非常阻碍效率,是质量控制的一个工具。流程不是不要,是把流程做到系统里面去,让系统帮人做决策,而不是人在那里点。

CMDB 定义了我刚才说的目标,现状通过监控拿到了,目标也知道了,这个时候还觉得这个事情很复杂吗?我认为这看你怎么去做。想做成人工还是做成自动或者做成智能,都取决于这个地方。所以智能里一定要有数据。

举个例子,通过智能分析出目标状态是使这个应用有100个VM,但是现在状态只有80个,一看这两个不一样,要扩容20台,如果系统做得更智能一点,通过图上左边的事件中心提示我20台负载较轻的放在哪,可以调度过去,然后去做执行变更。

基于这些东西得出来两个结论, “研发定义运维”,“配置驱动变更”。

为什么是研发定义运维?

研发定义运维(DDO),研发最贴近业务,最应该清楚这个业务应该具备什么样的能力,只有研发才知道这个业务KPS是多少。

为什么是配置驱动变更?

配置就是把目标改变一下,你跟我说一个运维场景,我可以在这个图里面 run 起来,配置只需要改你的目标状态,比如把你的状态10VM 变成15个VM。

这就是“研发定义运维,配置驱动变更”前因后果的思考。

运维工具与方法论

9b22cb3c4fb11b78536d05cbec27c2a2f84824ff

精益发现价值

价值来源于用户的需求,而不是自己的YY,我们的价值来源于用户。

精益对我最大的感触就是要发现价值。精益思想,什么东西是有价值的,能够对用户带来物质上的或者身体上的愉悦的东西就是有价值的。

今天也有人问,DevOps 团队是该拆还是该合,我想他应该首先弄清楚面对的是什么样的问题,问题的优先级是什么?如果只解决一个问题,也许并不是DevOps 团队拆不拆的问题。

敏捷交付价值

敏捷也是对我影响很多的。很多人谈敏捷,我们团队里也搞敏捷,敏捷是要快速交付价值,它是一系列的方法论。但是在引入的时候千万注意,别人行的东西你不一定行,你需要的东西并不一定是敏捷,要因团队而异,形成一个环,持续反馈。

OODA环

OODA 环,就是形成闭环,让价值快速流动。

应用运维平台ATOM

应用运维平台的基础设施是一层,二层是运维中台,最上面一块是要做的 PaaS 平台,这个平台分几步。

8d282a050f3f83bd7f6f5734297ee8accf183c56

第一块,预算、容量、资源、弹性
这个是PaaS 平台上非常重要的一块,目的就是让资源快速流动起来,流向正确的方向来产生价值。资源如果常年不增不减,是有问题的。

第二块,应用管理
这是日常要做的操作,规模化,要快速对一个单元建站、扩容、缩容。

第三块,数据化运营
一定要讲数据,数据不是可视化出来一些报表,是要给结论,告诉用户这个数据完了以后应该是什么,规则中心是什么,是所有运维同学日常的运维经验沉淀。

批量腾挪工具

e428c6f90c24987ce0cda79671eff9cc6c48a6b9

这个工具不是所有人都需要,可以解决机房的搬迁,凑框迁移。

321b55aaed51907943b1e6f9b4571b6d72456728

单机闭环,这是腾挪工具的关键,如果企业有一定规模,这个是需要的。

847df862764dda730164b587426151b545565ff6

弹性伸缩工具

a6675761b7e3bc6f43d9c39cd9cac6c55b4f42f5

弹性伸缩是我们的决策中心。它决定你的资源往哪个地方流,非常关键。

b4b072b3233c63b7068dc79cd6afffb0929e8099

最后,这里是运维领域技术含量最深的一个地方,要搞机器学习、深度学习、强化学习、算法等。

165510e04ae758c5ea4f8f53deddce73312b74e7

弹性伸缩架构,这个平台不一定很多企业都需要,这里主要介绍在双11的时候是怎么用的。

7578df8feafd3538dcfedbbe70d5b3bd1005b3a4

建一个站点起来只有5000的交易能力,可以通过10分钟时间让它具有30000万的能力,快速决策,快速调动起来。弹性里面是一个 OODA 环,拿它的数据和应用极限做比较,得出来一个策略中心。

弹性一般有水平伸缩、垂直伸缩,对线上做管理,当然我们有额度,这是比较精细化的管理。弹性有观察者模式还有自动化执行,每次弹性完以后有一个控制台,双11做全年压测的时候一般情况下不看这个。

实施效果

dd7f0cf81437bf5e1e75125d2f9fb58e2ebce4cf

嘉宾介绍

陈喻(亚松),阿里巴巴高级技术专家。2014年入职阿里负责持续集成持续交付平台研发团队,2015年调入运维团队,负责交易运维、无线运维2个团队,带领团队保障日常运维及双11大促运维。2016年开始负责Sigma弹性&资源运营团队,主要领域为集群弹性,应用弹性,资源运营,规模化运维,支撑双11,在2016,2017连续2年获得双11卓越贡献奖。


PS:关注云效(ali_yunxiao)微信号,对话框回复 运维,获取 讲师PDF材料


相关文章
|
23天前
|
运维 应用服务中间件 持续交付
自动化运维的利器:Ansible实战应用
【9月更文挑战第33天】本文将带你深入理解Ansible,一个强大的自动化运维工具。我们将从基础概念开始,逐步探索其配置管理、任务调度等功能,并通过实际案例演示其在自动化部署和批量操作中的应用。文章旨在通过浅显易懂的语言和实例,为读者揭开Ansible的神秘面纱,展示其在简化运维工作中的强大能力。
134 64
|
1月前
|
运维 安全 应用服务中间件
自动化运维的利剑:Ansible实战应用
【9月更文挑战第24天】在现代IT基础设施的快速迭代与扩展中,自动化运维成为提升效率、保障稳定性的关键。本文将深入探讨Ansible这一流行的自动化工具,通过实际案例分析其如何简化日常运维任务,优化工作流程,并提高系统的可靠性和安全性。我们将从Ansible的基础概念入手,逐步深入到高级应用技巧,旨在为读者提供一套完整的Ansible应用解决方案。
|
10天前
|
人工智能 运维 Devops
自动化运维之路:从脚本到DevOps的转变
【10月更文挑战第7天】在这篇文章中,我们将一起探索自动化运维的演变历程,从最初的简单脚本到现代的DevOps实践。我们将深入理解自动化如何改变了运维工作的本质,并讨论实现这一转变的关键技术和策略。文章将不包含代码示例,而是聚焦于理念、工具和方法论的介绍,旨在为读者提供一个全面的自动化运维框架视图。
|
8天前
|
运维 关系型数据库 MySQL
自动化运维工具Ansible的实战应用
【10月更文挑战第9天】在现代IT运维领域,效率和可靠性是衡量一个系统是否健康的重要指标。自动化运维工具Ansible因其简洁、易用的特性,成为了众多企业和开发者的首选。本文将通过实际案例,展示如何利用Ansible进行日常的运维任务,包括配置管理、软件部署以及批量操作等,帮助读者深入理解Ansible的应用场景及其带来的效益。
|
11天前
|
运维 监控 Devops
自动化运维的魔法:打造高效DevOps流水线
【10月更文挑战第6天】 在现代软件开发的快节奏中,自动化运维成为提高效率、保障质量的重要手段。本文将带你了解如何构建高效的DevOps流水线,从持续集成到部署,再到监控和反馈,我们将一步步揭开自动化运维的神秘面纱。你将学习到如何通过代码和工具的结合,实现软件交付过程的自动化,以及如何通过这一流程提升团队的协作和响应速度。让我们开始探索自动化运维的奇妙之旅吧!
|
25天前
|
运维 Devops jenkins
自动化运维之路:从脚本到DevOps
【9月更文挑战第31天】在数字化时代的浪潮中,运维不再是单纯的系统维护,而是企业竞争力的加速器。本文将带你领略自动化运维的演变历程,从最初的脚本编写到现代DevOps实践的转变,揭示如何通过持续集成和持续交付(CI/CD)实现运维的高效与创新。我们将一起探索工具的选择、流程的优化以及文化的培养,让运维工作变得既简单又强大。
|
1月前
|
运维 Devops 大数据
自动化运维之路:从脚本到DevOps的转变
【9月更文挑战第24天】在数字化时代的浪潮中,企业对运维的要求越来越高。本文将探讨如何通过自动化工具和DevOps文化,提升运维效率,确保系统的稳定性和安全性。我们将一起走进自动化运维的世界,了解其背后的理念和技术实现,以及它如何改变我们的工作方式。
42 2
|
1月前
|
人工智能 弹性计算 运维
高效运维管理:从传统到现代化的转型之路
在当今信息技术飞速发展的时代,运维管理作为保障信息系统稳定运行的关键环节,正经历着前所未有的变革。本文将探讨从传统运维向现代化运维转型的必要性、挑战以及实施策略,旨在为运维人员提供一个清晰的转型蓝图,帮助企业顺利过渡到更加高效、自动化和智能化的运维管理体系。
|
1月前
|
运维 监控 Devops
自动化运维之路:从脚本到DevOps的演进
【9月更文挑战第10天】在数字化时代的浪潮中,IT运维不再是简单的硬件维护和软件安装。随着云计算、微服务等技术的发展,运维工作变得日益复杂。本文将探讨如何通过自动化工具和DevOps文化,提升运维效率,实现快速迭代与持续交付。我们将一起见证,从手工操作到自动化脚本,再到全面的DevOps实践,运维领域是如何一步步走向成熟的。
56 7
|
1月前
|
弹性计算 运维 Cloud Native
云原生时代的运维转型之路
在云计算飞速发展的今天,传统的运维模式已难以满足现代企业的需求。本文旨在探讨如何在云原生时代下进行有效的运维转型,从传统运维到云运维的转变不仅仅是技术的升级,更是思维和方法论的革新。通过实际案例分析,我们将深入了解这一转型过程中可能遇到的挑战与解决策略,以及如何利用云原生技术提高运维效率,保障系统稳定性和安全性,从而为企业带来持续的业务创新和价值增长。
40 6