【阅读原文】戳:深度对话 解锁阿里云分布式云原生技术落地新姿势
云原生是先进软件架构技术和管理方法的思想集合,是云计算在企业数字化转型过程中的最佳实践。同时,越来越多的企业出于对数据产权、安全合规、隐私保护、成本优化等因素的考量,在上云过程中采用分布式的部署架构,将全栈云原生能力延伸到更靠近企业业务所需的位置。以云原生为核心技术底座,以分布式为部署架构的业务体系逐渐成为企业上云的新选择。
在这一背景下,中国信息通信研究院邀请到了阿里云分布式云容器平台ACK One研发负责人-高级技术专家 庄宇,共同探讨在如今多元化的业务场景下如何最大限度的发挥分布式云原生价值。
嘉宾:庄宇(从事云原生Kubernetes容器领域工作,贡献多个CNCF开源项目,产品化Knative、Istio、Argo Workflow、ArgoCD、Open Cluster Management、Kubevela等多个开源项目。近年来聚焦于混合云和分布式云容器平台的技术方向演进、业务拓展与研发工作,推出了以注册集群、边缘集群和多集群舰队为体系的分布式容器平台ACK One)
信通院:为什么要使用分布式云原生?它能提供的价值是什么?
庄宇:首先,我们把分布式云原生概念拆解成分布式和云原生。以容器为技术核心的云原生不容置疑,已经被大量的企业接受,越来越多的企业将其核心应用迁移到公有云,使用云原生技术来部署运维应用。已经上云的企业,更加深入的使用云原生技术,提高工程效率,享受云弹性优势,降低成本。在最近火爆的AI大模型领域,几乎所有的企业都在使用云原生的容器技术和Kubernetes集群调度AI训练和推理任务。那么企业在应用云原生技术有哪些障碍,我总结有以下几点:
• 本地数据中心无弹性,无法应用基于容器的弹性伸缩,应对业务增长与波峰波谷。
• 跨机房级别的高可用架构实施困难,没有成熟的工具方案。
• 云原生技术覆盖范围广,包括:容器、Kubernetes集群、可观测、成本分析、备份容灾、CICD、安全,企业无法掌握全部云原生技术。依靠厂商提供的话,又会有技术栈不统一,后期维护复杂的问题。
为了解决这些挑战,分布式云原生技术应运而生。打破数据中心的边界,打破集群的边界,让云原生技术无处不在。利用分布式云原生的云上弹性能力,可以将公共云的算力,包括CPU和GPU,接入到本地数据中心Kubernetes集群中,通过容器化的方式调度公共云弹性算力。通过分布式云原生的多集群统一管理能力,可以把多个Kubernetes集群组合起来形成多集群的高可用系统。通过分布式云原生技术,可以把公共云中成熟的云产品能力,包括可观测性、成本分析、备份容灾等,引入到自建Kubernetes集群中,提高企业运维效率。通过分布式云原生的边缘集群技术,可以把本地数据中心的机器接入到公共云Kubernetes集群中,实现容器化管理和调度,简化企业上手云原生的学习成本和后期运维成本。
可见,分布式云原生技术降低了企业应用云原生技术的门槛,企业可以快速部署和应用云原生技术。
信通院:阿里云的分布式云原生平台的发展历程?
庄宇:阿里云容器服务ACK是2017年正式上线,标志着云原生技术在阿里云全面商业化。在分布式云原生领域,阿里云容器服务团队在2017年推出了ACK注册集群和2019年推出了ACK Edge边缘集群,可以管理非阿里云的K8s集群和用户数据中心的机器与边缘设备,将阿里云的云原生领域的先进技术和产品带给客户,企业可以在自建K8s集群中使用公有云的弹性计算资源、可观测、安全等成熟产品能力,大大降低云原生技术的使用门槛,让更多的企业享受云原生技术的红利。
随着云原生技术的广泛普及,特别是容器和K8s集群的大量使用,企业中K8s集群数量快速增长。如何在多个集群中做统一应用管理和运维管理,通过自动化能力简化手工操作,降低出错的风险,便成为急需解决的问题。在2021年,ACK容器服务推出了ACK One分布式容器平台,整合了ACK注册集群和ACK Edge边缘集群的分布式集群和分布式计算资源的管理能力,针对多集群管理,推出了ACK One舰队,提供统一的控制面,实现应用分发、流量管理、聚合Prometheus监控、聚合成本洞察等一系列产品能力,帮助用户轻松管理多集群。
随着几年来的发展,ACK注册集群和ACK Edge边缘集群帮助大量客户管理了海量的非阿里云的K8s集群与计算资源。在多集群管理领域,ACK One舰队在应用、运维和安全管理方面逐步丰富产品能力,用户已经通过ACK One多集群舰队管理了数个、数十个、数百个集群,实现数千个应用的多集群分发,通过多集群网关实现应用多集群高可用部署,配合多集群的监控大盘简化运维。
信通院:距离阿里云参与信通院的分布式云原生标准制定已经过去半年多的时间,在这半年里分布式云原生技术又取得了哪些新的进展?
庄宇:这半年,我支持了很多客户使用分布式云原生技术,可以说整个技术的演进还是非常快的。
首先,随着AI大模型技术的迅猛发展,使用容器K8s集群管理AI负载已经成为事实标准。利用分布式云原生技术,可以轻松在一个K8s集群中管理分散在不同地点的GPU资源,解决GPU焦虑,例如:客户本地数据中心的GPU资源不足,可以购买阿里云上的GPU资源,加入到一个K8s集群管理。同时,配合阿里云容器服务的AI套件提供的工具和GPU调度能力,提高AI工程效率,提高GPU的利用率。
其次,越来越多的客户构建多集群容灾系统,实现系统的高可用。这对多集群舰队管理提出了更高的要求,不仅要能完成多集群的应用分发,还要实现多集群南北流量管理,通过“Global Ingress”向多个集群的应用转发流量。例如:通过阿里云ACK One舰队的多集群网关,可以实现多集群7层南北流量转发,已经在多个客户的容灾系统中使用。
最后,多集群运维能力进展也很快。例如:聚合Prometheus监控,聚合K8s事件中心,聚合成本洞察。本质都是通过一个监控界面,查看所有集群的信息,降低运维复杂度。
信通院:在分布式云原生技术的落地实践中,遇到了哪些难点?
庄宇:首先云原生的优势在于容器化管理,屏蔽底层的IaaS资源,实现应用层面的Autoscaling,但在企业IT往往基于数据中心,IaaS资源弹性不足,无法使用K8s的HPA和Knative等容器弹性方案,依然在以传统VM的方式在使用容器。
其次,企业在落地云原生中往往存在多个容器K8s供应商,虽然K8s核心是兼容的,但K8s周边的可观测、成本治理、安全、微服务等技术栈差异性大,导致运维效率低、成本很高。这些痛点,也是阿里云等公有云厂商的发力方向,通过分布式云原生技术,将公有云的弹性、K8s集群的可观测、成本治理、安全、微服务等能力下沉到任意地点和任意供应商的K8s集群中。
信通院:在应用方面,企业通常的应用场景是什么?会遇到什么样的问题?
庄宇:目前企业应用的热点是高可用的改造,在应用层面应对底层基础设施的风险,例如:整个集群不可用,集群所在数据中心的网络中断等。为了实现高可用系统,企业会在2个地点部署2个K8s集群,在2个集群部署相同的应用,同时配合网关的多集群流量转发,实现应用的高可用部署。分布式云原生技术中的多集群舰队管理,多集群应用分发,多集群流量网关都是为了应对此类需求。
信通院:分布式云原生是否能够和AI/大模型/算力等热点技术碰撞出火花?
庄宇:答案是必然的,AI大模型意味着大规模算力,由于GPU资源紧张,很难在一个地点获取足够的GPU资源,意味着GPU资源是分散的,同时AI任务的调度是集中的,方便运维管理,这就要求系统必须支持分布式算力的统一管理。同时,通过K8s集群容器化调度AI任务已经成为事实标准。因此,如何对应用层抽象屏蔽底层分散的GPU资源,如何将适合的AI任务调度到正确的GPU卡,如何提升GPU的利用率,如何应对存算分离带来的数据加载慢,都是分布式云原生的发展方向。
信通院:未来,分布式云原生的发展趋势和前景是什么?
庄宇:可以预计未来分布式云原生的发展趋势和前景还是非常广阔的。首先,云原生技术,作为推动现代软件开发、部署和运维的核心技术,在持续普及和发展。随着企业的数字化转型的加速,云原生技术的应用将更加广泛。其次,在企业IT部署中,多云多集群管理已经成为常态,以提高可用性和业务的灵活性,如何管理分散的计算资源,必然需要使用以容器为核心的分布式云原生技术,提供统一的管理平台,简化多云多集群的运维管理。最后,正如前面提到的,随着AI大模型技术的发展,容器已经成为AI训练与推理调度的事实标准,叠加GPU算力紧张与规模化需求,分布式云原生是解决AI算力调度的必由之路。
欢迎加入ACK One客户交流钉钉与我们一同交流。(钉钉群号:35688562)
分布式云容器平台ACK One:
我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。
获取关于我们的更多信息~