深度对话 解锁阿里云分布式云原生技术落地新姿势

简介: 深度对话 解锁阿里云分布式云原生技术落地新姿势

【阅读原文】戳:深度对话 解锁阿里云分布式云原生技术落地新姿势

云原生是先进软件架构技术和管理方法的思想集合,是云计算在企业数字化转型过程中的最佳实践。同时,越来越多的企业出于对数据产权、安全合规、隐私保护、成本优化等因素的考量,在上云过程中采用分布式的部署架构,将全栈云原生能力延伸到更靠近企业业务所需的位置。以云原生为核心技术底座,以分布式为部署架构的业务体系逐渐成为企业上云的新选择

 

在这一背景下,中国信息通信研究院邀请到了阿里云分布式云容器平台ACK One研发负责人-高级技术专家 庄宇,共同探讨在如今多元化的业务场景下如何最大限度的发挥分布式云原生价值。

 

 

嘉宾:庄宇(从事云原生Kubernetes容器领域工作,贡献多个CNCF开源项目,产品化Knative、Istio、Argo Workflow、ArgoCD、Open Cluster Management、Kubevela等多个开源项目。近年来聚焦于混合云和分布式云容器平台的技术方向演进、业务拓展与研发工作,推出了以注册集群、边缘集群和多集群舰队为体系的分布式容器平台ACK One)

 

 

信通院:为什么要使用分布式云原生?它能提供的价值是什么?

 

庄宇:首先,我们把分布式云原生概念拆解成分布式和云原生。以容器为技术核心的云原生不容置疑,已经被大量的企业接受,越来越多的企业将其核心应用迁移到公有云,使用云原生技术来部署运维应用。已经上云的企业,更加深入的使用云原生技术,提高工程效率,享受云弹性优势,降低成本。在最近火爆的AI大模型领域,几乎所有的企业都在使用云原生的容器技术和Kubernetes集群调度AI训练和推理任务。那么企业在应用云原生技术有哪些障碍,我总结有以下几点:

 

本地数据中心无弹性,无法应用基于容器的弹性伸缩,应对业务增长与波峰波谷。

 

跨机房级别的高可用架构实施困难,没有成熟的工具方案。

 

云原生技术覆盖范围广,包括:容器、Kubernetes集群、可观测、成本分析、备份容灾、CICD、安全,企业无法掌握全部云原生技术。依靠厂商提供的话,又会有技术栈不统一,后期维护复杂的问题。

 

为了解决这些挑战,分布式云原生技术应运而生。打破数据中心的边界,打破集群的边界,让云原生技术无处不在。利用分布式云原生的云上弹性能力,可以将公共云的算力,包括CPU和GPU,接入到本地数据中心Kubernetes集群中,通过容器化的方式调度公共云弹性算力。通过分布式云原生的多集群统一管理能力,可以把多个Kubernetes集群组合起来形成多集群的高可用系统。通过分布式云原生技术,可以把公共云中成熟的云产品能力,包括可观测性、成本分析、备份容灾等,引入到自建Kubernetes集群中,提高企业运维效率。通过分布式云原生的边缘集群技术,可以把本地数据中心的机器接入到公共云Kubernetes集群中,实现容器化管理和调度,简化企业上手云原生的学习成本和后期运维成本。

 

可见,分布式云原生技术降低了企业应用云原生技术的门槛,企业可以快速部署和应用云原生技术。

 

 

信通院:阿里云的分布式云原生平台的发展历程?

 

庄宇:阿里云容器服务ACK是2017年正式上线,标志着云原生技术在阿里云全面商业化。在分布式云原生领域,阿里云容器服务团队在2017年推出了ACK注册集群和2019年推出了ACK Edge边缘集群,可以管理非阿里云的K8s集群和用户数据中心的机器与边缘设备,将阿里云的云原生领域的先进技术和产品带给客户,企业可以在自建K8s集群中使用公有云的弹性计算资源、可观测、安全等成熟产品能力,大大降低云原生技术的使用门槛,让更多的企业享受云原生技术的红利。

 

随着云原生技术的广泛普及,特别是容器和K8s集群的大量使用,企业中K8s集群数量快速增长。如何在多个集群中做统一应用管理和运维管理,通过自动化能力简化手工操作,降低出错的风险,便成为急需解决的问题。在2021年,ACK容器服务推出了ACK One分布式容器平台,整合了ACK注册集群和ACK Edge边缘集群的分布式集群和分布式计算资源的管理能力,针对多集群管理,推出了ACK One舰队,提供统一的控制面,实现应用分发、流量管理、聚合Prometheus监控、聚合成本洞察等一系列产品能力,帮助用户轻松管理多集群。

 

 

随着几年来的发展,ACK注册集群和ACK Edge边缘集群帮助大量客户管理了海量的非阿里云的K8s集群与计算资源。在多集群管理领域,ACK One舰队在应用、运维和安全管理方面逐步丰富产品能力,用户已经通过ACK One多集群舰队管理了数个、数十个、数百个集群,实现数千个应用的多集群分发,通过多集群网关实现应用多集群高可用部署,配合多集群的监控大盘简化运维。

 

 

信通院:距离阿里云参与信通院的分布式云原生标准制定已经过去半年多的时间,在这半年里分布式云原生技术又取得了哪些新的进展?

 

庄宇:这半年,我支持了很多客户使用分布式云原生技术,可以说整个技术的演进还是非常快的。

 

首先,随着AI大模型技术的迅猛发展,使用容器K8s集群管理AI负载已经成为事实标准。利用分布式云原生技术,可以轻松在一个K8s集群中管理分散在不同地点的GPU资源,解决GPU焦虑,例如:客户本地数据中心的GPU资源不足,可以购买阿里云上的GPU资源,加入到一个K8s集群管理。同时,配合阿里云容器服务的AI套件提供的工具和GPU调度能力,提高AI工程效率,提高GPU的利用率。

 

其次,越来越多的客户构建多集群容灾系统,实现系统的高可用。这对多集群舰队管理提出了更高的要求,不仅要能完成多集群的应用分发,还要实现多集群南北流量管理,通过“Global Ingress”向多个集群的应用转发流量。例如:通过阿里云ACK One舰队的多集群网关,可以实现多集群7层南北流量转发,已经在多个客户的容灾系统中使用。

 

最后,多集群运维能力进展也很快。例如:聚合Prometheus监控,聚合K8s事件中心,聚合成本洞察。本质都是通过一个监控界面,查看所有集群的信息,降低运维复杂度。

 

信通院:在分布式云原生技术的落地实践中,遇到了哪些难点?

 

庄宇:首先云原生的优势在于容器化管理,屏蔽底层的IaaS资源,实现应用层面的Autoscaling,但在企业IT往往基于数据中心,IaaS资源弹性不足,无法使用K8s的HPA和Knative等容器弹性方案,依然在以传统VM的方式在使用容器。

 

其次,企业在落地云原生中往往存在多个容器K8s供应商,虽然K8s核心是兼容的,但K8s周边的可观测、成本治理、安全、微服务等技术栈差异性大,导致运维效率低、成本很高。这些痛点,也是阿里云等公有云厂商的发力方向,通过分布式云原生技术,将公有云的弹性、K8s集群的可观测、成本治理、安全、微服务等能力下沉到任意地点和任意供应商的K8s集群中。

 

信通院:在应用方面,企业通常的应用场景是什么?会遇到什么样的问题?

 

庄宇:目前企业应用的热点是高可用的改造,在应用层面应对底层基础设施的风险,例如:整个集群不可用,集群所在数据中心的网络中断等。为了实现高可用系统,企业会在2个地点部署2个K8s集群,在2个集群部署相同的应用,同时配合网关的多集群流量转发,实现应用的高可用部署。分布式云原生技术中的多集群舰队管理,多集群应用分发,多集群流量网关都是为了应对此类需求。

 

信通院:分布式云原生是否能够和AI/大模型/算力等热点技术碰撞出火花?

 

庄宇:答案是必然的,AI大模型意味着大规模算力,由于GPU资源紧张,很难在一个地点获取足够的GPU资源,意味着GPU资源是分散的,同时AI任务的调度是集中的,方便运维管理,这就要求系统必须支持分布式算力的统一管理。同时,通过K8s集群容器化调度AI任务已经成为事实标准。因此,如何对应用层抽象屏蔽底层分散的GPU资源,如何将适合的AI任务调度到正确的GPU卡,如何提升GPU的利用率,如何应对存算分离带来的数据加载慢,都是分布式云原生的发展方向。

 

信通院:未来,分布式云原生的发展趋势和前景是什么?

 

庄宇:可以预计未来分布式云原生的发展趋势和前景还是非常广阔的。首先,云原生技术,作为推动现代软件开发、部署和运维的核心技术,在持续普及和发展。随着企业的数字化转型的加速,云原生技术的应用将更加广泛。其次,在企业IT部署中,多云多集群管理已经成为常态,以提高可用性和业务的灵活性,如何管理分散的计算资源,必然需要使用以容器为核心的分布式云原生技术,提供统一的管理平台,简化多云多集群的运维管理。最后,正如前面提到的,随着AI大模型技术的发展,容器已经成为AI训练与推理调度的事实标准,叠加GPU算力紧张与规模化需求,分布式云原生是解决AI算力调度的必由之路。

 

欢迎加入ACK One客户交流钉钉与我们一同交流。(钉钉群号:35688562

 

分布式云容器平台ACK One:

 

https://help.aliyun.com/zh/ack/distributed-cloud-container-platform-for-kubernetes/product-overview/ack-one-overview


我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~


相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
26天前
|
Kubernetes Cloud Native 安全
云原生机密计算新范式 PeerPods技术方案在阿里云上的落地和实践
PeerPods 技术价值已在阿里云实际场景中深度落地。
|
3月前
|
Cloud Native 关系型数据库 分布式数据库
|
3月前
|
存储 关系型数据库 分布式数据库
|
2月前
|
存储 缓存 分布式计算
StarRocks x Iceberg:云原生湖仓分析技术揭秘与最佳实践
本文将深入探讨基于 StarRocks 和 Iceberg 构建的云原生湖仓分析技术,详细解析两者结合如何实现高效的查询性能优化。内容涵盖 StarRocks Lakehouse 架构、与 Iceberg 的性能协同、最佳实践应用以及未来的发展规划,为您提供全面的技术解读。 作者:杨关锁,北京镜舟科技研发工程师
StarRocks x Iceberg:云原生湖仓分析技术揭秘与最佳实践
|
2月前
|
安全 JavaScript 前端开发
HarmonyOS NEXT~HarmonyOS 语言仓颉:下一代分布式开发语言的技术解析与应用实践
HarmonyOS语言仓颉是华为专为HarmonyOS生态系统设计的新型编程语言,旨在解决分布式环境下的开发挑战。它以“编码创造”为理念,具备分布式原生、高性能与高效率、安全可靠三大核心特性。仓颉语言通过内置分布式能力简化跨设备开发,提供统一的编程模型和开发体验。文章从语言基础、关键特性、开发实践及未来展望四个方面剖析其技术优势,助力开发者掌握这一新兴工具,构建全场景分布式应用。
297 35
|
2月前
|
运维 Cloud Native 应用服务中间件
阿里云微服务引擎 MSE 及 API 网关 2025 年 4 月产品动态
阿里云微服务引擎 MSE 面向业界主流开源微服务项目, 提供注册配置中心和分布式协调(原生支持 Nacos/ZooKeeper/Eureka )、云原生网关(原生支持Higress/Nginx/Envoy,遵循Ingress标准)、微服务治理(原生支持 Spring Cloud/Dubbo/Sentinel,遵循 OpenSergo 服务治理规范)能力。API 网关 (API Gateway),提供 APl 托管服务,覆盖设计、开发、测试、发布、售卖、运维监测、安全管控、下线等 API 生命周期阶段。帮助您快速构建以 API 为核心的系统架构.满足新技术引入、系统集成、业务中台等诸多场景需要
阿里云微服务引擎 MSE 及 API 网关 2025 年 4 月产品动态
|
2月前
|
人工智能 Cloud Native 安全
云原生+AI 为企业出海提供全新技术引擎!明天见
5月22日 14:00「飞天发布时刻」,阿里云云原生应用平台产品负责人李国强将重磅揭晓面向 AI 场景的云原生产品体系升级,通过弹性智能的全球一体化架构、开箱即用的云原生 AI 工程化能力,为中国企业出海提供全新技术引擎。
|
3月前
|
人工智能 运维 监控
阿里云携手神州灵云打造云内网络性能监测标杆 斩获中国信通院高质量数字化转型十大案例——金保信“云内网络可观测”方案树立云原生运维新范式
2025年,金保信社保卡有限公司联合阿里云与神州灵云申报的《云内网络性能可观测解决方案》入选高质量数字化转型典型案例。该方案基于阿里云飞天企业版,融合云原生引流技术和流量“染色”专利,解决云内运维难题,实现主动预警和精准观测,将故障排查时间从数小时缩短至15分钟,助力企业降本增效,形成可跨行业复制的数字化转型方法论。
148 6
|
3月前
|
Cloud Native 关系型数据库 分布式数据库
登顶TPC-C|云原生数据库PolarDB技术揭秘:弹性并行查询(ePQ)篇
阿里云PolarDB云原生数据库在TPC-C基准测试中刷新了性能和性价比的世界纪录,达到每分钟20.55亿笔交易(tpmC),单位成本仅0.8元人民币。PolarDB采用云原生架构,支持数千节点横向扩展,具备弹性并行查询(ePQ)功能,可显著加速复杂查询。此外,PolarDB还推出了国产轻量版,以软件形式部署,满足多样化需求。
|
3月前
|
Cloud Native Serverless 流计算
云原生时代的应用架构演进:从微服务到 Serverless 的阿里云实践
云原生技术正重塑企业数字化转型路径。阿里云作为亚太领先云服务商,提供完整云原生产品矩阵:容器服务ACK优化启动速度与镜像分发效率;MSE微服务引擎保障高可用性;ASM服务网格降低资源消耗;函数计算FC突破冷启动瓶颈;SAE重新定义PaaS边界;PolarDB数据库实现存储计算分离;DataWorks简化数据湖构建;Flink实时计算助力风控系统。这些技术已在多行业落地,推动效率提升与商业模式创新,助力企业在数字化浪潮中占据先机。
239 12