云原生计算重塑企业IT架构 - 分布式应用架构

本文涉及的产品
容器镜像服务 ACR,镜像仓库100个 不限时长
简介: 进入21世纪以来,我们见证了企业分布式应用架构从SOA(Service-oriented Architecture),到微服务架构,再到云原生应用架构的演化。在新技术迭起的今天,我们既要拥抱新技术带来的架构变化,更要加关注其背后的演进逻辑和核心价值,系统化地控制复杂性。

image.png

进入21世纪以来,我们见证了企业分布式应用架构从SOA(Service-oriented Architecture),到微服务架构,再到云原生应用架构的演化。

为了说明企业架构演化背后的思考,我们先谈一些玄学。

第一,企业IT系统的复杂性(熵)符合热力学第二定律。随着时间的推演,业务的变化,企业IT系统的复杂度会越来越高。

第二,在计算机交互设计中有一个著名的复杂性守恒定律。应用交互的复杂性不会消失,只会换一种方式存在。这个原理也同样适用于软件架构。引入新的软件架构,不会降低IT系统的整体复杂性。

听到这里,是否让生命不息、折腾不止的我们感到一丝凉凉?:-)

现代软件架构的核心任务之一就是定义基础设施与应用的边界,合理切分复杂性,减少应用开发者需要面对的复杂性。换句话说,就是让开发者专注在核心价值创新上,而把一些问题交给更合适的人和系统来解决。

我们就从下面这张图开始,探究企业分布式应用架构演进背后的逻辑。

image.png

本图来自 Bilgin Ibryam 的twitter

蜕变之痛 - SOA

2004年,IBM建立SOA全球设计中心,我作为研发TL和架构师参与了一系列全球客户的pilot项目,帮助Pepboys, Office Depot等国际企业利用SOA优化企业内部和企业间的业务流程,提升业务敏捷性。

当时的大背景是,随着经济全球化逐渐深入,企业面对的竞争加剧,商业变革也开始提速。在大型企业内部的IT系统已经经过了数十年的演化。整个的技术体系变得异常复杂,并存着诸如主机系统上的CISC/COBOL交易应用,小型机AS400中的RPG业务系统,和X86/Power等分布式系统的C/JEE/.Net应用。大量应用系统由3方供应商提供,一些系统甚至已经无人维护。而且随着业务迭代,一些新的业务系统被持续构建出来,由于缺乏合理的方法论指导,系统之间缺乏有机的链接,形成了若干的孤岛,持续加剧了IT架构的复杂性,无法支撑业务的发展的诉求。这就仿佛各派高手为了帮助受伤的令狐冲,把异种真气输入体中,虽然短时间可以缓解伤势。可是多道真气无法融合,互相激荡,长时间下来会伤上加伤。

因此,企业IT所面临的首要挑战就是整合企业中大量竖桶型(silo-ed)的IT系统,支撑日益复杂的业务流程,进行高效的业务决策和支撑业务快速变化。在这种背景下,IBM等公司提出了SOA(面向服务的架构)理念,将应用系统抽象成一个个粗粒度的服务,构建松耦合服务架构,可以通过业务流程对服务进行灵活组合,提升企业IT资产复用,提高了系统的适应性、灵活性和扩展性,解决“信息孤岛”问题。

SOA提出了一系列构建分布式系统的原则,这些思考直到今天也依然适用:

  1. 首先是,服务具备明确定义的标准化的接口,通过服务定义描述,将服务消费者(Service Consumer)和服务提供者(Service Provider)的实现进行解耦。并且服务应该采用contract-first而非code-first方式进行开发。服务间通信采用面向文档的消息而非特定语言RPC协议,一方面可以解决服务与实现语言的解耦,此外可以灵活选择同步或者异步的通信实现,提升系统可用性和可伸缩性。
  2. 服务应该是松耦合的,服务之间不应存在时间、空间、技术、团队上的依赖。
  3. 服务应该是无状态的,使得服务调用与会话上下文状态实现解耦。
  4. 服务应该是自治和自包含的,服务的实现是可以独立进行部署、版本控制、自我管理和恢复。
  5. 服务是可发现、可组合的。比如可以通过Service Registry进行服务发现,实现了服务消费者和服务提供者的动态绑定。业务流程中可以对来自不同系统的的业务服务进行编排组装。

在初始构建SOA系统的时候,大多采用点对点的通信连接,服务调用和集成逻辑被内嵌在应用实现中。这种方式在服务数量比较少的时候,确实是一种简单和高效的开发方式。但其最大的问题是,随着服务规模的增长,服务之间通信愈发复杂,连接路径和复杂性会剧增,给服务治理带来巨大的挑战。

为了解决上述挑战,企业服务总线(Enterprise Service Bus,ESB)开始被引入。企业服务总线提供了服务之间的连接(connection),转换(transformantion), 以及中介处理(mediation)的能力。可以将企业内部和各种服务连接到服务总线上,实现信息系统之间的松耦合架构,屏蔽了系统集成的复杂性,提高了IT系统架构的灵活性,降低企业内部信息共享的成本。

image.png

SOA方法论的目标就像易筋经可以帮助梳理、归聚不同的真气,融会贯通,为我所用。然而修炼过程却绝非易事。大量雄心勃勃的SOA项目并未取得预期的效果,其背后的原因是什么?

任何IT架构的成功,都离不开与业务目标、技术基础和组织能力的相互配合。

在业务上,当时SOA重点解决的是企业IT的存量市场的问题。这使得SOA方法论很大程度被窄化为 Enterprise Application Integration (EAI 企业应用集成)。在SOA理念中,打通信息系统间的经络只是第一步。还需要勤修内功,持续重构迭代企业IT架构,这样才能保持企业IT架构的敏捷、柔性,持续支撑业务的发展和变化。

在组织结构上,由于当时在大部分企业的IT部门仍然是成本中心,是业务的附属支撑部门。大多数企业缺乏长远的IT战略规划,IT团队也缺乏成长认同,SOA沦为项目制运作而没有组织化保障和持续投入。即使当时成功的项目也会在复杂性日积月累的侵蚀下,逐渐失去活力。去年在美国生活的朋友发过来照片,15年前我们为客户构建的业务系统还在支撑其现有全国门店的业务。这是技术项目的成功,却反应了企业技术战略的缺失。

在技术上,ESB架构虽然实现了业务逻辑与服务集成的解耦,可以更好地进行中央化的服务治理。也暴露出一些严肃问题

  1. 由于过度强调业务系统的可复用性,而不是对企业IT架构的治理和重构。大量服务集成的实现逻辑被下沉到ESB内部(如上图最右侧所示),这些逻辑非常难以维护,难以移植和扩展,成为ESB不可承受之重。我们必须在合适的地点合理地处理复杂性,而非将其简单转移。
  2. ESB基于一个中心化的消息处理系统,但随着互联网的高速发展,ESB已经无法应对企业IT规模化成长的挑战。
  3. ESB这样的Smart Pipes, Dumb endpoints的系统架构是一个无法适应快速变化和大众创新的一个架构。类比一下,电信运营商曾经希望将视频通信,电话会议等复杂功能纳入电信基础设施,只需一个Dummy电话终端就可以享受丰富的通信服务。然而随着智能电话的普及,微信和钉钉这样的分布式协同工具创新彻底颠覆了人们沟通交流的方式,而电信网络重回管道的宿命。

羽化之美 - 微服务

随着互联网的发展,尤其是移动互联时代的到来,整个世界的经济形态发生了巨大的变化改变。企业IT的重点从传统的System of Record(交易系统,如ERP, SCM等)演化到System of Engagement(互动系统,如全渠道营销)。这些系统需要能够应对互联网规模的快速增长,并且能够快速迭代,低成本试错。企业IT已经成为创新驱动的引擎之一,技术拓展商业边界的理想也帮助IT团队更有使命感,进一步加速推动了企业IT的进化。

以Netflix,阿里为首的一系列互联网公司主导了企业架构新的变革 - 微服务架构。Apache Dubbo, Spring Cloud等微服务框架得到了广泛应用。

微服务的核心思想便是应用功能拆分与解耦,降低业务系统实现复杂性。微服务强调将应用功能拆解为一组松耦合服务,每个服务遵守单一责任原则(Single Responsibility Principle)。微服务架构解决了传统单体式架构存在的几个固有问题:每个服务可以独立部署和交付,大大提升了业务敏捷性;每个服务可以独立横向扩展/收缩,应对互联网规模的挑战。

image.png

原图来自于 Martin Fowler对微服务架构的定义

当然,将大型的单体应用拆解为多个微服务,也一定会增加IT系统研发协同、交付、运维的复杂性。这时候微服务架构与DevOps和容器自然走到了一起,构成了云原生应用架构的雏形。

微服务架构继承了SOA的架构原则,但是在实现层面,它倾向于通过构造智能端点和哑管道的去中心化分布式架构风格来替代ESB。@邱小侠 在微服务(Microservice)那点事文中详细分析了这些问题,我也不再赘述。

微服务架构首先要面对分布式架构的内生复杂性,请参考 分布式计算的误区。微服务框架需要能够解决服务通信和服务治理的复杂性,比如服务发现、熔断、限流、全链路追踪等挑战。微服务框架,如HSF/Dubbo或Spring Cloud以代码库的方式来封装这些能力。这些代码库被构建在应用程序本身中,随着应用一起发布和维护。

image.png
原图来源

服务通信和治理本质是横向的系统级关注,是与业务逻辑正交的。但在微服务架构中,其实现方式和生命周期与业务逻辑耦合在一起的。微服务框架的升级会导致整个服务应用的重新构建和部署。此外由于代码库通常与特定语言所绑定,难以支持企业应用的多语言(polyglot)实现。

进化之光 - 云原生

SOA采用中心化的服务总线架构,解耦了业务逻辑和服务治理逻辑;微服务架构回归了去中心化的点对点调用方式,在提升敏捷性和可伸缩性的同时,也牺牲了业务逻辑和服务治理逻辑解耦所带来的灵活性。

为了解决上述挑战,社区提出了Service Mesh(服务网格)架构。它重新将服务治理能力下沉到基础设施,在服务的消费者和提供者两侧以独立进程的方式部署。这样既达到了去中心化的目的,保障了系统的可伸缩性;也实现了服务治理和业务逻辑的解耦,二者可以独立演进不相互干扰,提升了整体架构演进的灵活性;同时服务网格架构减少了对业务逻辑的侵入性,降低了多语言支持的复杂性。

image.png
原图来源

Google, IBM,Lyft主导发起的Istio项目就是服务网格架构的一个典型的实现,也成为了新的现象级“网红”项目。

image.png

上图是Istio的架构,逻辑上分为数据平面和控制平面。数据平面由一组以 sidecar 方式部署的智能代理组成,负责截获应用网络流量,收集遥测数据并且执行服务治理策略。控制平面中,Galley负责配置管理,Pilot负责下发配置,Mixer负责策略检查和遥测数据聚合,Citadel负责通信中安全证书管理。

Istio提供了一系列高阶的服务治理能力,比如:服务发现和负载均衡,渐进式交付(灰度发布),混沌注入与分析,全链路追踪,零信任网络安全等。可以供上层业务系统将其编排到自己的IT架构和发布系统之中。

但是Service Mesh不是银弹,其架构选择是通过增加部署复杂性(sidecar)和损失性能(增加两跳),来换取架构的灵活性和系统的可演化性。

为了解决部署复杂性的挑战,社区和云服务商都在共同进行努力,一方面提升服务网格自动化运维水平(比如阿里云通过operator大大简化了Istio的升级运维和跨K8s集群部署的复杂度),一方面提供托管的服务网格服务,帮助用户关注在业务层面的服务治理而非基础架构实现。

关于性能问题,一方面Service Mesh需要降低自身控制平面和服务平面的性能开销,比如尽可能offload mixer负载,将治理策略执行下沉到数据平面完成。还要需要重新思考整个通信栈中应用与网络基础设施的边界。为了实现容器应用之间的互联互通,Kubernetes社区提出CNI网络模型,将容器网络连通性与底层网络实现的进行解耦。同时K8s提供了Service, Ingress, Network policy等基本元语来支持应用层的服务通信和访问控制,但是这些能力远不能满足应用对服务治理的需求。服务网格在L4/L7增加了流量管理、全链路可观测性、安全互联等新功能,这些是通过引入运行在用户空间的Envoy代理实现的。在提升灵活性的同时也不可避免地增加了性能开销。为了系统化解决这个问题,社区在进行有趣的探索。比如在Cillium容器网络中,可以利用eBPF/XDP等操作系统和底层网络能力,将应用层的服务控制能力(如Kube-Proxy提供的service, network policy)下沉到操作系统内核和网络层解决,并优化了Service Mesh数据链路,减少上下文切换和数据拷贝,有效地减少了性能开销。

image.png

image.png

目前Service Mesh技术还处技术成熟度曲线的初期,除了在L4/L7层提供灵活的服务通信功能,社区也在探索通过网络Service Mesh实现灵活的L2/L3组网能力。我们相信其会成为未来企业分布式应用通信基础设施。

在这个过程中会有一些新的理念和项目被持续创造出来,我们需要能够理性地分析其业务价值和技术局限性。我们要避免将Service Mesh作为万灵药,不要将应用集成、应用侧安全等业务逻辑下沉到服务网格中,避免我们重蹈复杂性覆辙。可以参考Application Safety and Correctness Cannot Be Offloaded to Istio or Any Service Mesh

回望历史

天下大势,分久必合,合久必分。企业分布式应用架构也走过一条分分合合的进化道路。在新技术迭起的今天,我们既要拥抱新技术带来的架构变化,更要加关注其背后的演进逻辑和核心价值,系统化地控制复杂性。

本文从企业分布式应用架构层面介绍了云原生计算架构带来的变化,后面我们陆续会分享在研发过程,集成架构等方面的思考。

SOA 微服务 云原生
研发过程 CMM/RUP Agile Agile
交付流程 手工/自动化 DevSecOps GitOps/AIOps/NoOps
服务通信 Web Service REST/专有RPC协议 REST/gRPC等开放协议
服务治理 ESB 微服务/API网关 服务网格
应用运行环境 物理机/虚拟机 虚拟机/容器 Kubernetes/Serverless
基础设施 IDC 公共云/私有云 无边界的云(多云/混合云, 云边端)
相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
相关文章
|
1月前
|
运维 Cloud Native 持续交付
深入理解云原生架构及其在现代企业中的应用
随着数字化转型的浪潮席卷全球,企业正面临着前所未有的挑战与机遇。云计算技术的迅猛发展,特别是云原生架构的兴起,正在重塑企业的IT基础设施和软件开发模式。本文将深入探讨云原生的核心概念、关键技术以及如何在企业中实施云原生策略,以实现更高效的资源利用和更快的市场响应速度。通过分析云原生架构的优势和面临的挑战,我们将揭示它如何助力企业在激烈的市场竞争中保持领先地位。
|
1月前
|
Cloud Native 持续交付 开发者
云原生技术在现代企业中的应用与实践####
本文深入探讨了云原生技术的核心概念及其在现代企业IT架构转型中的关键作用,通过具体案例分析展示了云原生如何促进企业的敏捷开发、高效运维及成本优化。不同于传统摘要仅概述内容,本部分旨在激发读者对云原生领域的兴趣,强调其在加速数字化转型过程中的不可或缺性,为后续详细论述奠定基础。 ####
|
19天前
|
存储 Prometheus Cloud Native
分布式系统架构6:链路追踪
本文深入探讨了分布式系统中的链路追踪理论,涵盖追踪与跨度的概念、追踪系统的模块划分及数据收集的三种方式。链路追踪旨在解决复杂分布式系统中请求流转路径不清晰的问题,帮助快速定位故障和性能瓶颈。文中介绍了基于日志、服务探针和边车代理的数据收集方法,并简述了OpenTracing、OpenCensus和OpenTelemetry等链路追踪协议的发展历程及其特点。通过理解这些概念,可以更好地掌握开源链路追踪框架的使用。
77 41
|
13天前
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器ECS架构区别及选择参考:X86计算、ARM计算等架构介绍
在我们选购阿里云服务器的时候,云服务器架构有X86计算、ARM计算、GPU/FPGA/ASIC、弹性裸金属服务器、高性能计算可选,有的用户并不清楚他们之间有何区别,本文主要简单介绍下这些架构各自的主要性能及适用场景,以便大家了解不同类型的架构有何不同,主要特点及适用场景有哪些。
|
6天前
|
存储 关系型数据库 分布式数据库
[PolarDB实操课] 01.PolarDB分布式版架构介绍
《PolarDB实操课》之“PolarDB分布式版架构介绍”由阿里云架构师王江颖主讲。课程涵盖PolarDB-X的分布式架构、典型业务场景(如实时交易、海量数据存储等)、分布式焦点问题(如业务连续性、一致性保障等)及技术架构详解。PolarDB-X基于Share-Nothing架构,支持HTAP能力,具备高可用性和容错性,适用于多种分布式改造和迁移场景。课程链接:[https://developer.aliyun.com/live/253957](https://developer.aliyun.com/live/253957)。更多内容可访问阿里云培训中心。
[PolarDB实操课] 01.PolarDB分布式版架构介绍
|
18天前
|
存储 人工智能 运维
面向AI的服务器计算软硬件架构实践和创新
阿里云在新一代通用计算服务器设计中,针对处理器核心数迅速增长(2024年超100核)、超多核心带来的业务和硬件挑战、网络IO与CPU性能增速不匹配、服务器物理机型复杂等问题,推出了磐久F系列通用计算服务器。该系列服务器采用单路设计减少爆炸半径,优化散热支持600瓦TDP,并实现CIPU节点比例灵活配比及部件模块化可插拔设计,提升运维效率和客户响应速度。此外,还介绍了面向AI的服务器架构挑战与软硬件结合创新,包括内存墙问题、板级工程能力挑战以及AI Infra 2.0服务器的开放架构特点。最后,探讨了大模型高效推理中的显存优化和量化压缩技术,旨在降低部署成本并提高系统效率。
|
1月前
|
人工智能 缓存 异构计算
云原生AI加速生成式人工智能应用的部署构建
本文探讨了云原生技术背景下,尤其是Kubernetes和容器技术的发展,对模型推理服务带来的挑战与优化策略。文中详细介绍了Knative的弹性扩展机制,包括HPA和CronHPA,以及针对传统弹性扩展“滞后”问题提出的AHPA(高级弹性预测)。此外,文章重点介绍了Fluid项目,它通过分布式缓存优化了模型加载的I/O操作,显著缩短了推理服务的冷启动时间,特别是在处理大规模并发请求时表现出色。通过实际案例,展示了Fluid在vLLM和Qwen模型推理中的应用效果,证明了其在提高模型推理效率和响应速度方面的优势。
云原生AI加速生成式人工智能应用的部署构建
|
1月前
|
存储 机器学习/深度学习 人工智能
【AI系统】计算图优化架构
本文介绍了推理引擎转换中的图优化模块,涵盖算子融合、布局转换、算子替换及内存优化等技术,旨在提升模型推理效率。计算图优化技术通过减少计算冗余、提高计算效率和减少内存占用,显著改善模型在资源受限设备上的运行表现。文中详细探讨了离线优化模块面临的挑战及解决方案,包括结构冗余、精度冗余、算法冗余和读写冗余的处理方法。此外,文章还介绍了ONNX Runtime的图优化机制及其在实际应用中的实现,展示了如何通过图优化提高模型推理性能的具体示例。
63 4
【AI系统】计算图优化架构
|
29天前
|
设计模式 存储 算法
分布式系统架构5:限流设计模式
本文是小卷关于分布式系统架构学习的第5篇,重点介绍限流器及4种常见的限流设计模式:流量计数器、滑动窗口、漏桶和令牌桶。限流旨在保护系统免受超额流量冲击,确保资源合理分配。流量计数器简单但存在边界问题;滑动窗口更精细地控制流量;漏桶平滑流量但配置复杂;令牌桶允许突发流量。此外,还简要介绍了分布式限流的概念及实现方式,强调了限流的代价与收益权衡。
75 11
|
1月前
|
设计模式 监控 Java
分布式系统架构4:容错设计模式
这是小卷对分布式系统架构学习的第4篇文章,重点介绍了三种常见的容错设计模式:断路器模式、舱壁隔离模式和重试模式。断路器模式防止服务故障蔓延,舱壁隔离模式通过资源隔离避免全局影响,重试模式提升短期故障下的调用成功率。文章还对比了这些模式的优缺点及适用场景,并解释了服务熔断与服务降级的区别。尽管技术文章阅读量不高,但小卷坚持每日更新以促进个人成长。
53 11