阿里云容器产品发布近 7 年以来,已成长发展为企业的云原生操作系统,技术和服务能力日趋成熟,但创新从未止步。日前,阿里云研究员 & 云原生团队负责人丁宇在阿里云计算峰会上宣布容器服务 ACK 全面升级 ACK Anywhere,这一重要升级意味着 ACK 有能力在企业任何需要云的地方,提供统一的容器基础设施能力。
2021 年 10 月 21 日,在云栖大会·云原生峰会现场,阿里云资深技术专家、容器服务负责人易立深度分享了阿里云在容器技术领域的最新进展与探索,以及 ACK Anywhere 背后的思想及落地能力,同时宣布多项重要升级和全新发布,使阿里云容器服务全面发展为高效、安全、智能、无界的下一代云原生操作系统。
易立,阿里云资深技术专家、容器服务研发和产品负责人
跨越鸿沟,容器加速云原生普惠
阿里云对云原生的定义是“应云而生”的软件、硬件和架构。容器技术和服务可以为企业业务发展带来三大核心价值:
- 敏捷高效。通过容器可以更好的支持 DevOps,优化研发和交付流程,同时提升应用的弹性与资源效率,使企业 IT 架构从容应对环境变化,降低计算成本;
- 加强韧性。容器可以降低用户迁云成本,同时更好地支撑微服务应用架构的部署与交付,使基础设施和应用架构具备更强的韧性,更好地保护业务的连续性;
- 加速融合创新。越来越多的新技术,如 5G、AIoT、AR/VR 等,正在加速数字世界跟物理世界的融合。而无处不在的容器技术能够加速这样的融合计算新形态。
阿里云容器服务支撑了集团 100% 应用的云原生化,同时为云上上万企业实现现代化应用改造升级提供升级服务。从互联网到零售、金融、制造、交通,越来越多的行业在利用创新的云原生技术解决他们的业务问题。与此同时,容器也在支撑着更多行业场景创新,比如在智能驾驶领域,仿真模拟需要海量的算力。只有云计算与云原生技术能够满足业务算力的弹性、规模和效率的需求。
六大升级,释放容器技术极致潜能
优化资源调度能力,全面支持新一代云原生芯片
阿里云今年重磅发布第 7 代弹性计算实例,覆盖了从 Intel、AMD 到 ARM 全新一代云原生芯片,使单节点计算密度持续提升、单核计算成本持续下降。另一方面,随着应用部署密度增加,必然带来应用对 CPU 资源的争抢、跨 NUMA 内存访问等问题持续严重,导致计算效能降低。
为此,阿里云容器服务 ACK Pro 针对新一代云原生芯片优化了资源调度,可以更好地根据芯片核心架构优化进程和布局,提升缓存命中率,降低跨 NUMA 内存访问,在内存密集型场景下实现 20% 至 30% 的性能提升。
同时,阿里云容器服务正在与 Intel 合作,共同打造软硬一体化的资源隔离保障方案,通过引入 RDT,HWDRC 等技术可以根据应用的 QoS 动态调整 L3 缓存带宽,将低优先级任务对高优先级任务的影响控制在 5% 以内,让多种应用负载的混布具备更高稳定性。
软硬协同、一体优化的新一代容器网络平面
阿里云容器网络 Terway 带来全新一代容器网络平面升级。通过与阿里云洛神网络深度融合,基于神龙芯片 offload 虚拟化网络开销,并在 OS 内核中通过 eBPF 实现容器 Service 转发和网络策略,真正实现零损耗、高性能。相比Flannel等开源容器网络方案,在小包压测场景中 Terway 吞吐量提升 30%,报文延迟下降 50%。
此外,新一代 Terway 内置全链路网络可观测能力,通过 eBPF 技术,使用户无需安装任何插件即可实现对容器网络的全面可视化。
IPv6 已成为国家互联网技术升级战略的重要组成部分,阿里的容器网络联合洛神网络相集成,实现了完整的 IPv6 双栈解决方案,能够在同一容器集群中同时实现 IPv4 和 IPv6 两种不同的网络协议栈,做到平滑升级,也能进一步简化混合云的网络互联。
智能、高效的新一代资源调度Cybernetes
企业正在将越来越多的工作负载运行于 Kubernetes 之上,微服务、AI、大数据等多样化应用对资源提出多样化需求。同时,云上算力日益丰富,从面向通用计算的 CPU,到面向 AI 高性能计算的 GPU、NPU,算力层出不穷,这些都对容器化资源控制、隔离和调度能力提出新挑战。
为此,阿里云容器服务带来全新升级的资源调度器 Cybernetes,为开源 Kubernetes 提供能力增强。以数据驱动的方式,根据应用运行时资源画像实现智能化调度和实时调整,简化了应用资源配置的复杂性,有效提升了运行时稳定性,降低资源成本。
Cybernetes 具备三个关键特征:
- 全兼容:基于 Scheduler framework,与上游调度实现 100% 兼容;
- 全场景:在同一个调度器上同时支持不同工作负载,真正带来良好的资源混布;
- 智能化:依赖于阿里云资源调度领域 10 年技术沉淀,用户只需声明所需 SLO,即可由系统智能化地实现 SLO 保障。
通过内部支撑验证,相比开源实现,Cybernetes 在 AI 和大数据应用场景的调度性能可实现 300% 的提升,在保证业务稳定运行的同时让资源成本下降 50%。
云原生 AI 套件升级,全栈优化 AI 效能和成本
随着企业对数据化和智能化的重视,越来越多的企业希望利用 Kubernetes 来运行 AI 和大数据应用,能够更好地实现技术栈的统一、资源池和技能栈的统一。
阿里云针对大规模 GPU 的管理、调度和 AI 容器最佳实践,推出 ACK 云原生 AI 套件,基于 Kubernetes 全栈优化 AI 性能、效率和成本,助力用户快速构建 AI 平台:
- 通过 GPU 共享,在模型预测场景实现 100% 的 GPU 利用率提升;
- 在训练场景,通过分布式缓存加速,GPU 拓扑感知,使模型训练任务加速 20%;
- 通过云原生 AI 任务流,使 AI 工程效率整体提升 50%。
容器智能化运维体系
Kubernetes 的复杂性是阻碍很多客户采用的一个重要因素,尤其是在使用过程中遇到问题的时候,需要具备大量专业知识背景才可进行排查。为让企业更简单地使用和运维 Kubernetes 系统,ACK 构建了完备的容器智能运维体系——
- 国内首个全托管节点池:全托管节点池除了具备自动弹性伸缩能力,也可以自动完成节点升级、CVE 修复、节点自愈等操作,让用户不用再操心 Kubernetes 节点管理的问题。
- 零侵入、低损耗的容器监控:可观测是云原生的核心能力。ARMS 容器监控基于 eBPF 提供无侵入、低损耗的容器资源和应用监控能力。
- 统一的成本优化、事件告警和安全治理:ACK 今年也发布了成本中心、事件中心、安全中心,为公共云、混合云客户提供精细化且统一的成本管理、事件告警和安全治理能力。
- 智能化诊断能力:基于阿里云容器团队在 Kubernetes 上大规模实践,利用数据化,智能化技术对典型 Kubernetes 问题进行自动诊断,给出修复方案。目前包含 100+ 诊断项,覆盖节点、容器、网络等超过 80 个场景,帮助企业及时处理线上问题,同时,对集群中的稳定性风险进行巡检,防患于未然。
容器镜像服务企业版 ACR EE 正式商业发布
ACR EE 是企业的云原生资产管理平台,面向安全需求高、分发性能需求高的容器企业级场景,如互联网企业出海、跨国公司协作、在线教育、游戏等公司,提供云原生制品安全托管、高效分发的企业级解决方案,包括:
- 支持多种 OCI 制品托管,包括多架构容器镜像(Linux、Windows、ARM 等架构的容器镜像)、 Helm Chart、AI 模型等符合 OCI 规范的制品管理;
- 推出了对 X86/ARM 多架构镜像的自动构建能力,简化应用对多样化算力的适配;并提供阿里云官方认证的容器镜像,比如 JDK 和 AI 镜像,为应用提供带来可信和高效的基础镜像实现;
- 完善镜像分发加速能力:同时支持 ECS/ECI 千节点并发拉取,并将镜像分发加速拓展至边缘云、企业数据中心;
- 云原生应用交付链,全面拥抱 DevSecOps 理念,在容器软件供应链中,对安全风险进行自动化分析、修复和阻断。
三大核心发布,
落地 ACK Anywhere 拓展云计算边界
阿里云今年宣布了“一云多形态”的部署架构,能够让一朵飞天云运行在从核心地域到用户数据中心的各个业务场景,为企业带来本地化、低延迟的公共云能力。ACK Anywhere 应运而生,进一步拓展云的边界,在企业任何需要云的地方,提供统一的容器基础设施。
ACK Anywhere 现在已经提供对中心云、本地云、边缘云、云盒等公共云形态的全覆盖能力,以及包含专有云企业版、敏捷版等的多种本地部署形态。此外,不久前发布的ACK 发行版可以部署在客户 IaaS 之上,被公共云统一纳管。
此次云栖大会上的三大核心发布,将近一步落地 ACK Anywhere 拓展云计算边界能力。
ACK ONE——容器融合管理平台
ACK ONE 的价值理念是“云生万物,万物归一”。基于阿里云提供的多云、多集群、多环境管理能力,ACK ONE 能够同时管理阿里云上集群、边缘集群、部署在用户客户中心的集群以及其他云上的 Kubernetes,真正实现集群的统一管理、资源的统一调度、数据的统一容灾和应用的统一交付。
当企业遇到业务突发流量时,利用 ACK ONE 提供的弹性可以快速向云上扩容;此外,利用 ACK ONE 企业可以同时管理分布不同地域的 Kubernetes 集群,实现统一的资源调度,根据集群实际的空闲状态将业务应用分发到不同集群上执行,充分提升资源利用率。
ACK 备份中心——数据备份、容灾、迁移一体化解决方案
ACK ONE 上提供了数据的备份、容灾和迁移一体化解决方案,帮助企业实现多地域、混合云的数据容灾架构。
在阿里云上利用 ACK 构建自己的数据库管理平台的企业,通过 ACK ONE 备份中心可以对数据盘进行定时的数据拍照,支持 TB 级数据的分钟级备份与恢复,同时支持单机多盘的一致性保障。这些能力极大地提升了数据的整体稳定性。
边缘云原生一体机——软硬一体化的云边协同解决方案
边缘云原生一体机是依托于阿里云边缘容器服务 ACK@Edge 的云边端一体协同、软硬一体优化的解决方案,具备多样化的硬件规格,可以部署在用户现场,实现实时、稳定的近场计算能力。利用 ACK@Edge 提供的设备孪生能力,我们可以将通过公共云利用云原生的方法,对海量的分布式的边缘设备和应用进行统一的管理。
以停车场景为例,企业可以基于边缘云原生一体机构建智能化的停车管理系统,对路内泊位车辆的驶入驶离进行智能化识别,并且将视频和照片作为证据链保存在云端,实现停车管理智能化、无人化。
携手同行,未来可期
得益于社区的力量,阿里云云原生和容器技术快速发展。作为国内云原生开源的领导者,阿里云云原生已向 CNCF 云原生基金会贡献 9 个项目,覆盖边缘计算、机密计算、混沌工程等不同领域。
源于社区,阿里云容器服务也与更多技术伙伴展开合作,比如与 Intel、VMware 在机密容器、沙箱容器、云原生边缘计算等方向的共建,同时积极推进在阿里云的产品化落地。
阿里云容器服务期待与更多优秀合作伙伴、企业共同探索云计算的未来,构建高效安全、智能无界的新一代云原生基础设施,助力企业加速云时代的技术创新。
获取更多峰会资料,扫码入群。
点击下方链接👇,观看云原生峰会直播回放!