云原生 DevOps 的 5 步升级路径

本文涉及的产品
应用实时监控服务-应用监控,每月50GB免费额度
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
简介: 魔鬼都在细节处。当然我们真正的落地的时候仍有很多的问题需要我们去解决,借助云效这样的工具平台和 ALPD 的专家咨询,可以让我们少走弯路,更快的实现目标。

头图.png

作者 | 张裕
编辑 | 雅纯
来源|阿里巴巴云原生公众号

什么是云原生 DevOps

点击查看视频:https://v.qq.com/x/page/u3220cutt7v.html

我们先通过上面一个简短视频和下面两张图,来了解什么是云原生 DevOps,它和 DevOps 有什么不同。

1.png

上图是一个大排档,图中的大厨在非常努力的去切、炒、制作各种美食,并将它卖出去。从原材料的采购到加工到销售到售后,都是一两个人完成。这是非常典型的 DevOps 场景,团队搞定端到端的所有的事情。这种情况,当厨师水平比较高、销售能力比较强的时候,可以做到高效率、低浪费。但存在的问题是,想要规模化会很难。因为它的流程都是非标准的,需要厨师有很强的个人能力。

2.png

我们再看上面这张南京大排档的图,虽然名字里有大排档,但它显然不是我们上面说的大排档。我们随便走进任何一家南京大排档,都可以发现,南京大排档的厨师,可以专注在为客户提供更好的菜品上,研发试验新菜品,并通过小批量的用户来尝试和推广。无论是用户量增加或减少,都能很快的去适应。店铺扩张也可以很快。这种我们可以理解为云原生 DevOps。

那究竟什么是云原生 DevOps 呢?我们认为:云原生 DevOps 是充分利用云原生基础设施,基于微服务/无服务架构体系和开源标准,语言和框架无关,具备持续交付和智能自运维能力,从而做到比传统 DevOps 更高的服务质量、更低的开发运维成本,让研发专注于业务的快速迭代

3.png

如上图所示,云原生 DevOps 基于 2 个原则:符合开放标准、语言和框架无关;有 2 个基础:微服务/无服务架构、Serverless 基础设施 BaaS/FaaS;提供 2 个能力:智能自运维、持续交付。 

  • 2 个原则:符合开放标准、语言和框架无关。相比于针对某个特定语言、特定框架,在技术升级或迭代时可以有更高的弹性、更好的发展和生命力,形成更好的生态。

  • 2 个基础:基于微服务和无服务架构,可以让 DevOps 成为可能;基于 Serverless 的基础设施,是面向资源和需求,以达到更好的弹性。

  • 在这 2 个原则和 2 个基础之上,做到 2 个能力:持续交付和智能自运维。

阿里巴巴云原生 DevOps 升级案例

我们先来看一个阿里某团队云原生 DevOps 转型的案例。 案例背景:阿里某海外电商团队面临海外市场站点多、建站成本高、需求变化快、交付慢、运维成本高等挑战,如何平滑地升级到云原生 DevOps 来解决这些问题,以提升业务交付效率呢?我们是这么做的。

1. 架构升级 - 服务治理 sidecar 和 mesh 化

4.png

第一步是架构升级,首先将服务治理的代码下沉到应用之外的 sidecar 部分,同时用服务网格来承载了如环境路由之类的能力。如上图所示,每个绿点代表一个服务应用代码,每一个橘点代表一个服务治理代码,这些代码以二方包的形式存在这个容器中。随着服务治理体系的建设,这里面就包含了非常多的东西,如日志采集、监控埋点、运维干预等等,我们把这种容器称之为富容器。它的问题很明显:即便是日志采集的升级或调整,我们都需要把应用重新升级、构建和部署一遍。然而这个其实与应用本身是没有任何关系的。同时,因为关注点不分离,日志采集的一个 bug,都会影响到应用本身。

5.png

本着让应用能更专注于应用本身的目的,我们做的第一件事就是把所有服务治理的代码从应用容器中剥离出来,放到了 sidecar 里面,这样服务治理和应用的代码就存在两个容器里了。同时我们又把原来服务治理的一些事情,比如测试路由、链路追踪等交给了 Mesh sidecar 。这样应用就瘦身了,应用只需要关心应用代码的本身。

这样做的好处是,业务可以专注于业务相关的应用代码,而无需依赖于服务治理了。

这是第一步,这一步是平滑的,因为我们可以逐步把服务治理迁移到 sidecar 里面,不用担心一次迁移成本过大。

2. 架构升级 - 从构建解耦、发布解耦到运维解耦

第二步,我们做了三个层面的解耦:构建解耦、发布解耦、运维解耦。

了解微服务和无服务架构的人应该清楚,只有当一个业务能够独立去开发、测试、发布、运维的时候,业务才能跑得更快、更好。因为这样跟其他人的耦合性降到最低。但是我们也知道,随着业务越来越复杂和应用的持续演进,应用里会包含越来越多的业务代码。比如下图中这个应用,它里面有一些代码是针对某个特定业务的,比如作为一个支付应用,有的是针对盒马的特定需求的,有的是针对天猫的特定需求的,还有一些是通用代码,或者叫平台代码,是针对所有业务场景的。

6.png

显然,从提高开发效率的角度讲,业务方改自己相关的业务代码,可以减少沟通成本,提高研发效率。但这带来了一个新的问题:如果某一个业务有需求改动,但并不涉及通用的业务逻辑时,也需要对整个应用的所有业务进行全面回归,如果这个时间段还有其他业务改动,他们需要一起集成并进行发布。如果改动的业务多,大家就需要排队集成。这种情况下,集成测试和沟通协调的成本非常高。

我们的目标是每个业务都能独立的开发、发布和运维。为了平滑地达到这个目标,我们首先要做的是让它们在构建阶段能够解耦。比如,对一个相对独立的业务,我们将其单独构建为一个容器镜像,并通过编排把它放到 Pod 的 init Container 中,Pod 启动的时候,再将其挂载到主应用容器的存储空间。

但是这时,应用的发布和运维还是在一起的,我们需要将它们分开。

我们知道,应用的亲密性粗略可以分为三类:

  • 超亲密,在同一个进程中,通过函数调用通信。

  • 位于同一个 Pod 的不同容器,通过 IPC 通信。

  • 位于同一个网络中,通过 RPC 通信。

我们可以根据业务的特点,逐步地把一些业务代码拆分成一个个 RPC 或者 IPC 服务,这样它们就可以独立的发布和运维了。

至此我们就完成了应用容器的构建解耦、发布解耦和运维解耦。

3. IaC & GitOps

7.png

第三步我们看一下开发和运维态。在很多研发场景中,一个棘手的问题是:不同的环境和业务会有非常多的自己特有的配置,在发布和运维时经常需要根据情况修改和选择正确的配置,而这个配置和应用代码本身其实就是发布的一部分,传统的通过控制台去维护的方式成本将会非常高。

在云原生背景下,我们认为 IaC(Infrastructure as Code)和 GitOps 是更好的选择。每个应用除了有一个代码库之外,我们还有一个 IaC 仓库。这个仓库里面会包含应用的镜像版本和所有相关的配置信息。当代码变更需要发布或配置有变化时,都通过代码 push 的形式推送到 IaC 仓库。GitOps 引擎能自动检测到 IaC 的变化,并自动将其翻译为符合 OAM 规范的配置,然后基于 OAM 模型把改动应用到对应的环境上。无论是开发还是运维,都可以通过 IaC 的代码版本了解到系统发生了哪些变化,而且每次发布都是完整的。

4. 资源的 BaaS 化

8.png

最后一步是资源的 BaaS 化。

我们想象一下在应用中是怎么去使用资源的。我们一般会先去对应的控制台提交资源申请,描述我们需要的资源规格和要求,然后通过审批后得到资源的连接串和认证信息。在应用的配置中加上资源配置,之后如果有改动,在到对应的控制台操作,并配合代码发布进行审批。当然,对于这类资源的运维和监控一般也是在独立的控制台进行的。

当我们的资源种类越来越多,操作和维护成本就非常高了,尤其是在新建站点的时候。

本着用声明式的方式去描述资源、按需使用的原则,我们通过在 IaC 里定义这些资源的方式,去简化所有应用对资源的使用。所有的资源都是声明式的描述,能够实现资源的智能管理和按需使用。同时我们所有的资源都采用的是云上通用资源、标准协议,极大降低了迁移成本。这样我们就逐步把业务团队迁移到云原生基础设施上。

所以,资源 BaaS 化的两大关键点是:

  • 声明式地描述资源需求,智能管理,按需使用。

  • 采用云上通用资源,对齐标准协议。

云效驱动云原生 DevOps 高效落地

上面我们分享的是阿里内部的实践,它依赖于阿里内部的研发协作平台 Aone。Aone 的公有云版本即阿里云云效。我们如何通过阿里云云效去落地云原生 DevOps 呢?

9.png

从前面的案例我们可以看到,云原生 DevOps 的落地是一个系统性的工程,包含方法、架构、协作和工程各个方面。其中,云原生 DevOps 的落地属于精益交付的范畴。

10.png

上图是云效云原生 DevOps 解决方案图。

这里,我们将用户分为 2 种角色:

  • 技术主管或架构师。

  • 工程师,包括开发、测试和运维等。

作为技术主管或架构师,他需要从整体上去定义和把控企业的研发行为。从大的角度讲,研发过程包含四个方面:可运行、可观测、可治理、可变更。

首先他会去定义企业的研发协作模式,例如是采用敏捷研发还是精益看板。其次他需要掌握整体的产品架构、如需要用到哪些云产品、这些云产品如何协调和管理等。然后他会去决定团队的研发模式:怎么做好研发协作,怎么把控研发质量等。第三步,他需要确定发布策略,采用灰度发布还是蓝绿部署,灰度策略是什么等等。最后,就是服务的监控策略,比如服务需要接入哪些监控平台,怎么探测服务状态,全局监控配置等等。

一线开发、测试、运维工程师,关注的是工作过程的顺畅和高效。在云效项目协作平台接收到一个需求或任务之后,可以通过云效去编码、提交、构建、集成、发布和测试,并部署到预发和生产环境上,将管理员配置的研发模式、发布策略真正落地。同时,各个环境都是自动触发和流转的,不需要人为地协调和拉动。

整个研发过程中产生的数据是一个有机的整体,可以产生大量的数据洞察,可以驱动团队进行持续改进。当团队在研发过程中遇到瓶颈或迷茫时,还可以从云效专家团队获得专业的诊断建议和研发指导。

总结一下,云效的云原生 DevOps 解决方案是在 ALPD 方法论指导下,基于专家建议的最佳实践,深度整合到完整的 DevOps 工具链中,帮助企业渐进式地迈入云原生 DevOps。

接下来,我们看一个具体的案例。

某互联网企业,研发团队在 30 人左右,没有专职的运维人员,产品包括 20 多个微服务以及几十个前端应用(web、小程序、APP 等)。其业务增长非常快,在面对快速增长的客户和越来越多的需求情况下,原先基于 Jenkins+ECS 的脚本为主的部署方式渐渐无法满足诉求,特别是无法解决零停机部署升级的问题。于是,开始需求云效的帮助,并最终全面迁移到云效云原生 DevOps。

这个研发团队主要面临三大痛点:

  • 客户量大、紧急需求多。

  • 无专职运维、云原生技术如 K8s 的学习门槛高。

  • IT 基础设施架构复杂、发布耗时耗力。

针对这些问题,云效从基础能力发布能力运维能力三个方面入手。

首先,引入阿里云 ACK 在已有 ECS 资源之上进行基础设施升级,应用进行容器化改造。在服务治理和应用架构上,从 Spring Cloud 全家桶简化为 SpringBoot,通过 K8s 标准能力支撑服务发现和治理。

其次,通过云效流水线实现自动化容器部署,配合灰度部署策略,做到灰度上线,自动扩容,出现故障自动重启,同时,基于云效流水线做到零停机快速回滚任意成本,节约机器成本的同时解决了企业无专职运维人员的问题。

第三,通过云效自动化流水线和分支保护规范研发模式,包括代码评审、代码检测、测试卡点等,提升反馈效率和发布质量。

下图为整体解决方案的架构图。

11.png

云原生 DevOps 升级路径

我们将云原生 DevOps 落地分为 5 个阶段。

12.png

第一个阶段:全手工交付和运维。它是我们最初始的阶段,应用架构还没有进行服务化改造,也没有使用云基础设施或仅使用 IaaS,没有持续集成、测试自动化,使用手工部署发布和手工运维。相信很少还有企业停留在这个阶段了。

第二个阶段:工具化的交付和运维。首先要做的是应用架构的服务化,采用微服务架构改善服务质量;其次是引入一些研发工具,如 gitlab、jenkins 这类孤岛式的工具解决部分问题。同时我们开始落地单模块的持续集成,但是一般还没有实现自动化的质量卡点,发布往往有自动化工具进行辅助。

第三个阶段:有限制的持续交付和自动化运维。我们进一步提升基础能力,将基础设施进行容器化改造,基于 CaaS 建设。另一方面,开始引入完整的工具链,打通研发数据,例如使用云效 DevOps 这样的工具平台,实现所有数据的完整互通。在发布能力上能做到持续部署,但是还需要一定的人工干预。这时,自动化测试已经成为主流了,服务整体可以观测,运维能够面向服务,并且是声明式的。

第四个阶段:持续交付和人工辅助自运维。我们进一步让开发同学专注于业务开发,首先在应用架构上开始大量采用无服务架构,并做到无人值守的持续部署;发布的灰度和回滚,能够在有干预的情况下尽量的自动化。观测能力从应用级别提升到业务级别,实现业务的可观测性,并且能够在人工辅助的情况下做到部分的自运维。

第五个阶段:全链路持续交付和自运维。这是我们追寻的终极目标。这个阶段我们所有的应用和基础设施采用的都是无服务架构,并做到端到端的无人值守持续交付,包括发布的回滚和灰度也是自动化的;技术设施和服务完全实现自运维。开发者真正只需要关心业务的开发和迭代。

但是,魔鬼都在细节处,当然我们真正的落地的时候仍有很多的问题需要我们去解决,借助云效这样的工具平台和 ALPD 的专家咨询,可以让我们少走弯路,更快的实现目标。

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
SVN版本控制系统
SVN是现在软件开发之中的主流软件版本控制工具,在工作之中利用SVN可以有效的解决多人开发的代码管理问题,本课程将为读者讲解SVN服务器的配置以及基于MyEclipse的SVN客户端插件的配置与使用,并且在讲解之中着重讲解了冲突的产生于解决。
相关文章
|
2月前
|
人工智能 安全 Cloud Native
阿里云云原生安全能力全线升级,护航百万客户云上安全
【重磅发布】9月20日,在杭州云栖大会上,阿里云宣布云原生安全能力全线升级,首次发布云原生网络检测与响应产品NDR(Network Detection Response,简称NDR)。同时,阿里云还宣布将持续增加免费的安全防护能力,帮助中小企业客户以极低投入完成基础的云上安全风险治理。
172 15
|
4月前
|
运维 监控 Devops
DevOps实践:持续集成与持续部署的黄金路径
在数字化时代,快速迭代和高质量软件交付成为企业竞争的核心。本文深入探讨了DevOps文化下,持续集成(CI)与持续部署(CD)的最佳实践,旨在为读者提供一套实现高效、自动化的软件发布流程的方法论。通过分析现代软件开发的挑战,结合具体案例,本文详细阐述了如何构建一个灵活、高效的CI/CD流水线,以及如何利用监控和反馈机制不断优化这一过程。文章不仅适合运维人员阅读,同时也为软件开发者和项目经理提供了宝贵的参考。
|
3月前
|
运维 Cloud Native Devops
一线实战:运维人少,我们从 0 到 1 实践 DevOps 和云原生
上海经证科技有限公司为有效推进软件项目管理和开发工作,选择了阿里云云效作为 DevOps 解决方案。通过云效,实现了从 0 开始,到现在近百个微服务、数百条流水线与应用交付的全面覆盖,有效支撑了敏捷开发流程。
19351 30
|
2月前
|
运维 Cloud Native Devops
云原生架构的崛起与实践云原生架构是一种通过容器化、微服务和DevOps等技术手段,帮助应用系统实现敏捷部署、弹性扩展和高效运维的技术理念。本文将探讨云原生的概念、核心技术以及其在企业中的应用实践,揭示云原生如何成为现代软件开发和运营的主流方式。##
云原生架构是现代IT领域的一场革命,它依托于容器化、微服务和DevOps等核心技术,旨在解决传统架构在应对复杂业务需求时的不足。通过采用云原生方法,企业可以实现敏捷部署、弹性扩展和高效运维,从而大幅提升开发效率和系统可靠性。本文详细阐述了云原生的核心概念、主要技术和实际应用案例,并探讨了企业在实施云原生过程中的挑战与解决方案。无论是正在转型的传统企业,还是寻求创新的互联网企业,云原生都提供了一条实现高效能、高灵活性和高可靠性的技术路径。 ##
196 3
|
2月前
|
运维 Cloud Native Devops
云原生时代的DevOps实践:自动化、持续集成与持续部署
【9月更文挑战第3天】未来,随着人工智能、大数据等技术的不断融入,DevOps实践将更加智能化和自动化。我们将看到更多创新的技术和工具涌现出来,为软件开发和运维带来更多便利和效益。同时,跨团队协作和集成也将得到进一步加强,推动软件开发向更加高效、可靠和灵活的方向发展。
|
3月前
|
运维 监控 Devops
|
3月前
|
运维 监控 安全
构建高效自动化运维系统:DevOps在企业级应用的实现路径
【7月更文挑战第54天】在当今IT领域,DevOps作为一种文化和实践,旨在弥合开发与运维之间的鸿沟,以实现更快速、更可靠的产品交付。本文将深入探讨在企业环境中如何构建一个高效的自动化运维系统,不仅涵盖理论框架,还包括具体实施步骤和最佳实践。通过持续集成(CI)、持续部署(CD)、基础设施即代码(IaC)等关键概念的融合运用,文章旨在为读者提供一个清晰的指导,以便在其组织中落实DevOps策略,并实现运维效率的显著提升。
|
3月前
|
敏捷开发 网络协议 测试技术
阿里云云效产品使用合集之在vpc网络里,如何升级agent
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
3月前
|
运维 前端开发 JavaScript
阿里云云效操作报错合集之构建镜像时报路径错误,是什么原因
本合集将整理呈现用户在使用过程中遇到的报错及其对应的解决办法,包括但不限于账户权限设置错误、项目配置不正确、代码提交冲突、构建任务执行失败、测试环境异常、需求流转阻塞等问题。阿里云云效是一站式企业级研发协同和DevOps平台,为企业提供从需求规划、开发、测试、发布到运维、运营的全流程端到端服务和工具支撑,致力于提升企业的研发效能和创新能力。
|
3月前
|
敏捷开发 测试技术 持续交付
阿里云云效产品使用合集之工作路径的存放位置是在哪里
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。