深度对话 解锁阿里云分布式云原生技术落地新姿势

本文涉及的产品
容器服务 Serverless 版 ACK Serverless,317元额度 多规格
容器服务 Serverless 版 ACK Serverless,952元额度 多规格
简介: 深度对话 解锁阿里云分布式云原生技术落地新姿势

【阅读原文】戳:深度对话 解锁阿里云分布式云原生技术落地新姿势

云原生是先进软件架构技术和管理方法的思想集合,是云计算在企业数字化转型过程中的最佳实践。同时,越来越多的企业出于对数据产权、安全合规、隐私保护、成本优化等因素的考量,在上云过程中采用分布式的部署架构,将全栈云原生能力延伸到更靠近企业业务所需的位置。以云原生为核心技术底座,以分布式为部署架构的业务体系逐渐成为企业上云的新选择

 

在这一背景下,中国信息通信研究院邀请到了阿里云分布式云容器平台ACK One研发负责人-高级技术专家 庄宇,共同探讨在如今多元化的业务场景下如何最大限度的发挥分布式云原生价值。

 

 

嘉宾:庄宇(从事云原生Kubernetes容器领域工作,贡献多个CNCF开源项目,产品化Knative、Istio、Argo Workflow、ArgoCD、Open Cluster Management、Kubevela等多个开源项目。近年来聚焦于混合云和分布式云容器平台的技术方向演进、业务拓展与研发工作,推出了以注册集群、边缘集群和多集群舰队为体系的分布式容器平台ACK One)

 

 

信通院:为什么要使用分布式云原生?它能提供的价值是什么?

 

庄宇:首先,我们把分布式云原生概念拆解成分布式和云原生。以容器为技术核心的云原生不容置疑,已经被大量的企业接受,越来越多的企业将其核心应用迁移到公有云,使用云原生技术来部署运维应用。已经上云的企业,更加深入的使用云原生技术,提高工程效率,享受云弹性优势,降低成本。在最近火爆的AI大模型领域,几乎所有的企业都在使用云原生的容器技术和Kubernetes集群调度AI训练和推理任务。那么企业在应用云原生技术有哪些障碍,我总结有以下几点:

 

本地数据中心无弹性,无法应用基于容器的弹性伸缩,应对业务增长与波峰波谷。

 

跨机房级别的高可用架构实施困难,没有成熟的工具方案。

 

云原生技术覆盖范围广,包括:容器、Kubernetes集群、可观测、成本分析、备份容灾、CICD、安全,企业无法掌握全部云原生技术。依靠厂商提供的话,又会有技术栈不统一,后期维护复杂的问题。

 

为了解决这些挑战,分布式云原生技术应运而生。打破数据中心的边界,打破集群的边界,让云原生技术无处不在。利用分布式云原生的云上弹性能力,可以将公共云的算力,包括CPU和GPU,接入到本地数据中心Kubernetes集群中,通过容器化的方式调度公共云弹性算力。通过分布式云原生的多集群统一管理能力,可以把多个Kubernetes集群组合起来形成多集群的高可用系统。通过分布式云原生技术,可以把公共云中成熟的云产品能力,包括可观测性、成本分析、备份容灾等,引入到自建Kubernetes集群中,提高企业运维效率。通过分布式云原生的边缘集群技术,可以把本地数据中心的机器接入到公共云Kubernetes集群中,实现容器化管理和调度,简化企业上手云原生的学习成本和后期运维成本。

 

可见,分布式云原生技术降低了企业应用云原生技术的门槛,企业可以快速部署和应用云原生技术。

 

 

信通院:阿里云的分布式云原生平台的发展历程?

 

庄宇:阿里云容器服务ACK是2017年正式上线,标志着云原生技术在阿里云全面商业化。在分布式云原生领域,阿里云容器服务团队在2017年推出了ACK注册集群和2019年推出了ACK Edge边缘集群,可以管理非阿里云的K8s集群和用户数据中心的机器与边缘设备,将阿里云的云原生领域的先进技术和产品带给客户,企业可以在自建K8s集群中使用公有云的弹性计算资源、可观测、安全等成熟产品能力,大大降低云原生技术的使用门槛,让更多的企业享受云原生技术的红利。

 

随着云原生技术的广泛普及,特别是容器和K8s集群的大量使用,企业中K8s集群数量快速增长。如何在多个集群中做统一应用管理和运维管理,通过自动化能力简化手工操作,降低出错的风险,便成为急需解决的问题。在2021年,ACK容器服务推出了ACK One分布式容器平台,整合了ACK注册集群和ACK Edge边缘集群的分布式集群和分布式计算资源的管理能力,针对多集群管理,推出了ACK One舰队,提供统一的控制面,实现应用分发、流量管理、聚合Prometheus监控、聚合成本洞察等一系列产品能力,帮助用户轻松管理多集群。

 

 

随着几年来的发展,ACK注册集群和ACK Edge边缘集群帮助大量客户管理了海量的非阿里云的K8s集群与计算资源。在多集群管理领域,ACK One舰队在应用、运维和安全管理方面逐步丰富产品能力,用户已经通过ACK One多集群舰队管理了数个、数十个、数百个集群,实现数千个应用的多集群分发,通过多集群网关实现应用多集群高可用部署,配合多集群的监控大盘简化运维。

 

 

信通院:距离阿里云参与信通院的分布式云原生标准制定已经过去半年多的时间,在这半年里分布式云原生技术又取得了哪些新的进展?

 

庄宇:这半年,我支持了很多客户使用分布式云原生技术,可以说整个技术的演进还是非常快的。

 

首先,随着AI大模型技术的迅猛发展,使用容器K8s集群管理AI负载已经成为事实标准。利用分布式云原生技术,可以轻松在一个K8s集群中管理分散在不同地点的GPU资源,解决GPU焦虑,例如:客户本地数据中心的GPU资源不足,可以购买阿里云上的GPU资源,加入到一个K8s集群管理。同时,配合阿里云容器服务的AI套件提供的工具和GPU调度能力,提高AI工程效率,提高GPU的利用率。

 

其次,越来越多的客户构建多集群容灾系统,实现系统的高可用。这对多集群舰队管理提出了更高的要求,不仅要能完成多集群的应用分发,还要实现多集群南北流量管理,通过“Global Ingress”向多个集群的应用转发流量。例如:通过阿里云ACK One舰队的多集群网关,可以实现多集群7层南北流量转发,已经在多个客户的容灾系统中使用。

 

最后,多集群运维能力进展也很快。例如:聚合Prometheus监控,聚合K8s事件中心,聚合成本洞察。本质都是通过一个监控界面,查看所有集群的信息,降低运维复杂度。

 

信通院:在分布式云原生技术的落地实践中,遇到了哪些难点?

 

庄宇:首先云原生的优势在于容器化管理,屏蔽底层的IaaS资源,实现应用层面的Autoscaling,但在企业IT往往基于数据中心,IaaS资源弹性不足,无法使用K8s的HPA和Knative等容器弹性方案,依然在以传统VM的方式在使用容器。

 

其次,企业在落地云原生中往往存在多个容器K8s供应商,虽然K8s核心是兼容的,但K8s周边的可观测、成本治理、安全、微服务等技术栈差异性大,导致运维效率低、成本很高。这些痛点,也是阿里云等公有云厂商的发力方向,通过分布式云原生技术,将公有云的弹性、K8s集群的可观测、成本治理、安全、微服务等能力下沉到任意地点和任意供应商的K8s集群中。

 

信通院:在应用方面,企业通常的应用场景是什么?会遇到什么样的问题?

 

庄宇:目前企业应用的热点是高可用的改造,在应用层面应对底层基础设施的风险,例如:整个集群不可用,集群所在数据中心的网络中断等。为了实现高可用系统,企业会在2个地点部署2个K8s集群,在2个集群部署相同的应用,同时配合网关的多集群流量转发,实现应用的高可用部署。分布式云原生技术中的多集群舰队管理,多集群应用分发,多集群流量网关都是为了应对此类需求。

 

信通院:分布式云原生是否能够和AI/大模型/算力等热点技术碰撞出火花?

 

庄宇:答案是必然的,AI大模型意味着大规模算力,由于GPU资源紧张,很难在一个地点获取足够的GPU资源,意味着GPU资源是分散的,同时AI任务的调度是集中的,方便运维管理,这就要求系统必须支持分布式算力的统一管理。同时,通过K8s集群容器化调度AI任务已经成为事实标准。因此,如何对应用层抽象屏蔽底层分散的GPU资源,如何将适合的AI任务调度到正确的GPU卡,如何提升GPU的利用率,如何应对存算分离带来的数据加载慢,都是分布式云原生的发展方向。

 

信通院:未来,分布式云原生的发展趋势和前景是什么?

 

庄宇:可以预计未来分布式云原生的发展趋势和前景还是非常广阔的。首先,云原生技术,作为推动现代软件开发、部署和运维的核心技术,在持续普及和发展。随着企业的数字化转型的加速,云原生技术的应用将更加广泛。其次,在企业IT部署中,多云多集群管理已经成为常态,以提高可用性和业务的灵活性,如何管理分散的计算资源,必然需要使用以容器为核心的分布式云原生技术,提供统一的管理平台,简化多云多集群的运维管理。最后,正如前面提到的,随着AI大模型技术的发展,容器已经成为AI训练与推理调度的事实标准,叠加GPU算力紧张与规模化需求,分布式云原生是解决AI算力调度的必由之路。

 

欢迎加入ACK One客户交流钉钉与我们一同交流。(钉钉群号:35688562

 

分布式云容器平台ACK One:

 

https://help.aliyun.com/zh/ack/distributed-cloud-container-platform-for-kubernetes/product-overview/ack-one-overview


我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~


相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
6天前
|
Cloud Native 前端开发 JavaScript
前端开发者必看:不懂云原生你就OUT了!揭秘如何用云原生技术提升项目部署与全栈能力
【10月更文挑战第23天】随着云计算的发展,云原生逐渐成为技术热点。前端开发者了解云原生有助于提升部署与运维效率、实现微服务化、掌握全栈开发能力和利用丰富技术生态。本文通过示例代码介绍云原生在前端项目中的应用,帮助开发者更好地理解其重要性。
32 0
|
9天前
|
Kubernetes Cloud Native 持续交付
云端新纪元:云原生技术重塑IT架构####
【10月更文挑战第20天】 本文深入探讨了云原生技术的兴起背景、核心理念、关键技术组件以及它如何引领现代IT架构迈向更高效、灵活与可扩展的新阶段。通过剖析Kubernetes、微服务、Docker等核心技术,本文揭示了云原生架构如何优化资源利用、加速应用开发与部署流程,并促进企业数字化转型的深度实践。 ####
|
3天前
|
监控 Cloud Native 持续交付
云原生技术深度解析:重塑现代应用开发与部署范式####
本文深入探讨了云原生技术的核心概念、关键技术组件及其在现代软件开发中的重要性。通过剖析容器化、微服务架构、持续集成/持续部署(CI/CD)等关键技术,本文旨在揭示云原生技术如何促进应用的敏捷性、可扩展性和高可用性,进而推动企业数字化转型进程。不同于传统摘要仅概述内容要点,本部分将融入具体案例分析,直观展示云原生技术在实际应用中的显著成效与挑战应对策略,为读者提供更加丰富、立体的理解视角。 ####
|
5天前
|
监控 算法 网络协议
|
3天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
6天前
|
敏捷开发 Cloud Native 持续交付
云原生技术在现代企业中的应用与实践
【10月更文挑战第23天】本文将深入探讨云原生技术在现代企业中的广泛应用,并结合具体案例分析其对企业数字化转型的推动作用。我们将从云原生技术的基本原理出发,逐步揭示其在提高业务敏捷性、降低成本和增强系统可靠性方面的优势。同时,文章还将分享一系列成功实施云原生技术的企业案例,为读者提供实践中的参考和启示。最后,我们将讨论云原生技术面临的挑战及未来的发展趋势,为企业在这一领域的进一步探索提供指导。
|
8天前
|
Kubernetes Cloud Native 开发者
云原生技术入门:Kubernetes和Docker的协作之旅
【10月更文挑战第22天】在数字化转型的浪潮中,云原生技术成为推动企业创新的重要力量。本文旨在通过浅显易懂的语言,引领读者步入云原生的世界,着重介绍Kubernetes和Docker如何携手打造弹性、可扩展的云环境。我们将从基础概念入手,逐步深入到它们在实际场景中的应用,以及如何简化部署和管理过程。文章不仅为初学者提供入门指南,还为有一定基础的开发者提供实践参考,共同探索云原生技术的无限可能。
18 3
|
7天前
|
Cloud Native 持续交付 云计算
云原生技术深度探索:构建现代化应用的基石####
【10月更文挑战第21天】 本文将深入探讨云原生技术的核心概念、关键技术及其在现代软件开发中的应用。我们将从容器化、微服务架构、持续集成/持续部署(CI/CD)、无服务器架构等关键方面展开,揭示这些技术如何共同作用,帮助企业实现高效、弹性且易于维护的应用部署与管理。通过实例分析,展现云原生技术在实际项目中的显著优势,为读者提供一套全面理解并应用云原生技术的指南。 ####
24 2
|
9天前
|
Cloud Native 持续交付 开发者
云原生技术在现代软件开发中的实践与挑战####
本文探讨了云原生技术在现代软件开发中的应用,重点分析了其核心组件如容器化、微服务架构、持续集成/持续部署(CI/CD)以及无服务器计算的优势与面临的挑战。通过实际案例,阐述了如何有效实施云原生策略以提升系统的可扩展性、可靠性和开发效率。同时,文章也指出了在向云原生转型过程中常见的技术障碍和解决策略,为开发者和企业提供了宝贵的实践经验分享。 ####
|
10天前
|
Cloud Native 安全 Devops
云原生技术在现代软件开发中的实践与挑战####
本文探讨了云原生技术在现代软件开发中的应用,深入分析了其核心概念、优势以及面临的挑战。通过实际案例,展示了云原生架构如何提升应用的灵活性和可扩展性,同时指出了企业在实施过程中需要注意的关键问题。本文旨在为开发者和企业提供有价值的参考,帮助他们更好地理解和应用云原生技术。 ####

热门文章

最新文章