阿里云易立:以增效促降本,容器服务全面进入智能化时代

本文涉及的产品
应用实时监控服务-可观测链路OpenTelemetry版,每月50GB免费额度
注册配置 MSE Nacos/ZooKeeper,118元/月
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
简介: 11月5日,2022杭州 · 云栖大会上,阿里巴巴研究员、阿里云智能云原生应用平台容器技术负责人易立在云原生峰会上发表主题演讲,发布阿里云容器服务全面智能化升级,帮助企业精益用云,以增效促降本,实现IT架构在云上的高质量发展。

容器技术已经跨越鸿沟,广泛应用于金融、通讯、制造、交通等千行百业。Kubernetes支撑的工作负载也从早期单一的互联网应用发展到数据库、AI、大数据等等,并覆盖了公共云、专有云、边缘云等多样化、动态的云环境。


11月5日,2022杭州 · 云栖大会上,阿里巴巴研究员、阿里云智能云原生应用平台容器技术负责人易立在云原生峰会上发表主题演讲,发布阿里云容器服务全面智能化升级,帮助企业精益用云,以增效促降本,实现IT架构在云上的高质量发展。


1.jpeg


容器服务助力企业数字化创新


经过7年的发展,阿里云容器服务产品线已经成为企业的云原生操作系统。基于阿里云容器平台,阿里集团实现了100%业务云原生上云。


2021 年,阿里云发布了 ACK Anywhere,进一步拓展产品的宽度,覆盖从公共云、边缘云、到本地数据中心的各个场景。让所有需要云能力的地方,都能基于统一的容器基础设施之上。


得益于阿里集团和阿里云的大规模容器应用实践,阿里云容器产品能力得到了业界的广泛认可2022年1季度,在权威咨询机构Forrester 发布的全球公共云容器平台分析师报告中,ACK稳居全球领导者象限,这也是中国科技公司首次进入该象限;2022年2季度,在 Omida 发布的全球容器管理解决方案报告中,由于在公共云、专有云、混合云等环境完善的产品体系,ACK成为全球领导者,产品能力与规模国内领先;2022年8月,在CSDN 2022中国开发者调查报告中,有52%的国内开发者选择阿里云容器云平台。

2.png

过去几年,降本增效成为了众多企业IT管理者关注的重要问题。企业已经到了精益用云的时代,提升资源效率、研发效率,IT管理效率成为关键。


四大全新升级,阿里云容器服务迈入智能化时代


能化是容器平台发展的必然趋势。今天,阿里云基于过去10年的大规模容器实战经验,通过数据化手段和智能化算法,推动容器服务ACK面向基础设施层、容器编排层、应用架构层和运营治理领域 4 大维度全面升级,迈入智能化新阶段。


升级1:新算力


在基础设施层,利用面向云原生优化的新算力,提升计算效率。


3.png

2021 年,阿里云发布了新一代云原生CPU,倚天710,基于ARMv9架构,已经在电商、阿里云内部规模化应用,实现了卓越性价比。


相比 X86 芯片,典型 Web 应用性价比高50%,视频编解码应用性价比高 80%。倚天芯片面向云原生优化,vCPU 采用独立物理核,没有超线程架构中的性能争抢。可以提供更加确定性的性能。


ACK 通过对芯片微架构的拓扑感知调度优化,相比开源K8s实现,帮助 Web 应用吞吐提升 20%。


为了更好支持 AI、HPC等I/O密集型应用。ACK 正式提供了对eRDMA高性能容器网络支持。通过软硬一体优化的网络实现,可以提供更高的带宽与更低的延迟。应用在AI训练加速20%,微服务吞吐提升10%;


ACK 支持多容器高效复用eRDMA设备,满足了容器应用部署密度的需求。


4.png

为了更好支持有状态应用容器化,阿里云发布新一代容器网络文件系统 CNFS 2.0,它采用全链路加速技术,可以实现:


  • 容器应用对后端存储系统的访问并行化,提升网络带宽的利用率。对远程NAS存储的吞吐可以提升100%,满足高性能AI训练和基因计算的需求。
  • 利用元数据缓存和独有的lease机制,使得远程文件存储的元数据访问性能,提升了18倍,非常适合Web应用和CI/CD等需要对海量小文件进行访问的场景。
  • 支持文件的透明生命周期管理,可以自动将低频访问的冷数据放置在低成本的NAS低频介质或OSS中,降低存储成本50%以上。


它支持对NAS/CPFS/OSS全链路可观测,帮助开发者更好诊断和优化I/O性能问题。


5.png


企业与个人对数据隐私保护日益关切,机密计算技术应运而生。其中一个重要的技术是通过芯片的可信执行环境(TEE)实现数据保护。在TEE内执行的应用,不用担心来自其他应用、其他租户或者平台方的威胁。


为了进一步推动机密计算的普及,阿里、蚂蚁团队在Kata Container社区与红帽、Intel等公司进行合作,将容器计算与可信执行环境相结合,推出机密容器 Confidential Container 项目,同时为 Intel® SGX、Intel® TDX等不同的TEE实现,提供了一致的容器界面。


基于新一代的机密容器架构,开发者可以确保应用是通过可信软件供应链进行构建和分发的;容器应用运行在可信执行环境中,具备更小的攻击面,而且所有内存中数据是加密的并受完整性保护;应用对数据的访问是基于加密的可信数据存储服务。


机密容器可以在需要隐私数据处理的场景中,如金融风控、医疗健康等,提供高效的隐私增强型算力。


升级2:新平台


在容器编排层,通过智能化、云边端一体的新平台,提升资源利用率和运维效率。


6.png


K8s目前已经成为云时代的操作系统。希望充分利用多种应用负载之间的削峰填谷,提升K8s集群资源利用率。这也是大家常说的“混部”能力。


阿里巴巴早在 2016 年就启动了云原生混部技术研发,历经多轮技术架构升级和双11锤炼,目前已实现全业务规模超千万核的云原生混部,日常CPU利用率在 50% 左右。


阿里云今年开源了云原生混部项目 Koordinator,它包含三大核心能力:


  • 差异化 SLO 保障:在 Kubernetes 之上提供面向QoS 的资源调度机制,比如延迟敏感型的在线类任务,和可抢占的计算任务。通过对不同QoS应用的合理调度,可以在保障应用的稳定性的同时,提升资源利用率。
  • QoS 感知调度:包括 CPU、GPU 拓扑感知、资源画像、热点打散等精细调度能力,帮助应用优化运行时性能效率,提升稳定性。
  • 任务调度:提供了大数据与 AI 相关的任务调度,比如批量调度、优先级抢占以及弹性 Quota等,可以更高效地支持计算任务


Koordinator 项目完全兼容标准的 K8s,无需做任何侵入式修改。ACK也内建了Koordinator产品化支持:


  • 通过混部调度,在典型场景可以提升资源利用率100%;
  • 通过差异化SLO保障,在提升资源利用率的同时,让低优先级的任务对延迟敏感型任务的影响 < 5%。

7.png


Kubernetes的复杂性是阻碍很多客户采用的一个重要因素。为此,ACK发布AIOps套件,通过智能化手段实现故障预防与快速定位。


基于阿里团队10年大规模容器运维经验沉淀,通过专家系统和AI算法相结合的方式,提供了全栈巡检、升级检查,智能诊断等三大功能。


智能诊断目前包含200+诊断项,覆盖90%的常见问题场景。以容器网络问题诊断为例,排查链路长,复杂度高,非常耗时耗力。


在得物的业务场景中,利用智能诊断,可以快速定位由于网络栈异常导致的偶发性抖动问题;再如e签宝,利用智能诊断,可以在分钟级完成对Ingress、容器网络、应用和OS的全链路问题排查。


8.png


ACK One 是面向多地域多集群的分布式容器平台,可以统一管理中心云、本地云、边缘云和客户IDC的K8s集群。今年阿里云在ACK One基础上,发布如下功能:


  • 提供托管的ArgoCD服务,开发者可以通过GitOps方式来实现应用的跨地域自动化交付;
  • 通过弹性感知的调度器实现,为混合云场景提供灵活的弹性算力;
  • 支持对多集群安全策略的统一管理,保障企业系统统一安全基线


来看一个具体案例,在智联招聘的业务高峰期,借助ACK One弹性调度策略可以在数分钟内弹出数万核ECS和ECI等计算资源补充到IDC的在线服务集群,有效应对流量洪峰。


9.png

ACK@Edge 是面向云边端一体协同的容器应用平台,基于阿里云开源的OpenYurt项目,今年对ACK@Edge 进行全新升级:


在云边协同场景,阿里云推出了增强型网络边缘节点池,实现安全、稳定的云边网络互联方案。国内知名游戏企业,莉莉丝,利用增强型边缘网络节点池,让海外多地域服务器与云上 VPC 安全互通。相比专线网络资源成本降低 30%。


在云端协同场景,阿里云推出了轻量化接入功能,可以通过K8s管理资源受限的设备上的容器应用。元戎启行是一个自动驾驶Startup公司,通过ACK@Edge管理车载设备应用,接入资源开销占用降低 50 %,发布运维效率提升 60% 以上。


升级3:新架构


在应用架构层,利用服务网格等新架构,提升应用的敏捷性、弹性与韧性。


10.png


务网格已经成为云原生应用的网络基础设施。阿里云服务网格服务ASM在4个维度进行了全新的升级:


  • 支持多种服务治理框架,可以实现Spring Cloud, Apache Dobbo等微服务应用与服务网格应用的互联互通和平滑迁移;
  • 为应用服务提供统一的身份定义, 简化零信任策略的构建与实施;
  • 提供开箱即用的Envoy插件市场, 可以拓宽服务网格的应用场景, 包括身份认证、AI Serving等场景;
  • 可以基于服务SLA指标,实现更加精准的弹性扩缩容


震坤行工业超市是一家数字化的工业用品服务平台,为众多企业复工复产保驾护航。借助于ASM服务网格, 提升了平台的性能。基于ASM的软硬一体优化技术,提升TLS握手性能 75%,以及QPS 30+%。关于相关技术细节,可以参阅Intel和阿里云一起编写的技术白皮书(点击阅读原文即可下载)。


专注餐饮行业数字化的合阔智云, 其业务中台的核心生产系统100%全部切换到服务网格ASM,提升应用发布效率70%,降低异常排错成本80%。


升级4:新实践


在运营治理领域,将通过一系列最佳实践的产品沉淀,提升企业IT在成本管理、安全治理等方面的管理效率。


11.png

为了帮助企业上好云、用好云、管好云,阿里云本次发布了云原生landing zone,为企业云原生上云提供最佳实践。它包含架构规划、安全管理、财务管理、自动化运维等等8大模块。


通过云原生landing zone最佳实践,已经帮助众多国内外企业客户构建了上云架构,满足企业对安全、稳定性和成本等多方面的业务诉求。


围绕LandingZone 中财务管理部分,阿里云结合业财一体化实践和 FinOps 理念,推出 ACK FinOps 套件。通过数字化手段和智能化方法,帮助企业实现成本可视化、可优化、可控制。


12.png

中华保险作为国内互联网金融行业的领导者,通过ACK FinOps套件,将企业 IT 成本治理周期从季度缩短到天级别,资源闲置率从 30% 降低到 10% 以内。


识货团队通过应用混部和弹性等技术优化,将集群的资源利用率提升10%;整体降低计算成本20%以上。


围绕 LandingZone 中安全防护部分,ACK 与 ACR 提供完备的DevSecOps的产品能力,为企业提供安全可信的软件供应链。


13.png

今年,阿里云推出了集群容器安全概览,可以帮助安全管理员对集群安全水位有更好地感知,可以对集群配置、应用镜像、容器运行时的安全风险,及时发现与处置。


全球领先的SaaS厂商Salesforce,在阿里云上提供先进的CRM服务应用。基于云原生 DevSecOps 能力,半年内实现 数 千次风险镜像拦截阻断, 1 万次工作负载部署策略阻断。基于全自动化软件供应链安全流程,应用安全交付效率提升 3倍。


14.jpeg


未来,希望更多的企业能和阿里云一起,利用云原生技术精益用云、增效降本,在云端进行业务创新。


点击此处,免费下载《基于英特尔®架构的阿里云服务网格ASM技术加速应用服务加密通》白皮书。

相关实践学习
巧用云服务器ECS制作节日贺卡
本场景带您体验如何在一台CentOS 7操作系统的ECS实例上,通过搭建web服务器,上传源码到web容器,制作节日贺卡网页。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
相关文章
|
1天前
|
Prometheus Kubernetes 监控
OpenAI故障复盘 - 阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性
聚焦近日OpenAI的大规模K8s集群故障,介绍阿里云容器服务与可观测团队在大规模K8s场景下我们的建设与沉淀。以及分享对类似故障问题的应对方案:包括在K8s和Prometheus的高可用架构设计方面、事前事后的稳定性保障体系方面。
|
15天前
|
人工智能 运维 监控
阿里云ACK容器服务生产级可观测体系建设实践
本文整理自2024云栖大会冯诗淳(花名:行疾)的演讲,介绍了阿里云容器服务团队在生产级可观测体系建设方面的实践。冯诗淳详细阐述了容器化架构带来的挑战及解决方案,强调了可观测性对于构建稳健运维体系的重要性。文中提到,阿里云作为亚洲唯一蝉联全球领导者的容器管理平台,其可观测能力在多项关键评测中表现优异,支持AI、容器网络、存储等多个场景的高级容器可观测能力。此外,还介绍了阿里云容器服务在多云管理、成本优化等方面的最新进展,以及即将推出的ACK AI助手2.0,旨在通过智能引擎和专家诊断经验,简化异常数据查找,缩短故障响应时间。
阿里云ACK容器服务生产级可观测体系建设实践
|
15天前
|
供应链 安全 Cloud Native
阿里云容器服务助力企业构建云原生软件供应链安全
本文基于2024云栖大会演讲,探讨了软件供应链攻击的快速增长趋势及对企业安全的挑战。文中介绍了如何利用阿里云容器服务ACK、ACR和ASM构建云原生软件供应链安全,涵盖容器镜像的可信生产、管理和分发,以及服务网格ASM实现应用无感的零信任安全,确保企业在软件开发和部署过程中的安全性。
|
15天前
|
人工智能 Cloud Native 调度
阿里云容器服务在AI智算场景的创新与实践
本文源自张凯在2024云栖大会的演讲,介绍了阿里云容器服务在AI智算领域的创新与实践。从2018年推出首个开源GPU容器共享调度方案至今,阿里云容器服务不断推进云原生AI的发展,包括增强GPU可观测性、实现多集群跨地域统一调度、优化大模型推理引擎部署、提供灵活的弹性伸缩策略等,旨在为客户提供高效、低成本的云原生AI解决方案。
|
15天前
|
人工智能 运维 Kubernetes
拥抱智算时代:阿里云容器服务智能、托管、弹性新体验
本文总结了2024云栖大会容器计算专场的演讲内容,重点介绍了阿里云容器服务的新产品体验,包括智能、托管、弹性的特点,以及如何助力客户拥抱智算时代。文中还分享了多项实际案例和技术细节,展示了阿里云容器服务在提升用户体验和解决实际问题方面的努力。
|
15天前
|
人工智能 Kubernetes Cloud Native
阿里云容器服务,智算时代云原生操作系统
2024云栖大会,阿里巴巴研究员易立分享了阿里云容器服务的最新进展。容器技术已成为云原生操作系统的基石,支持多样化的应用场景,如自动驾驶、AI训练等。阿里云容器服务覆盖公共云、边缘云、IDC,提供统一的基础设施,助力客户实现数字化转型和技术创新。今年,阿里云在弹性计算、网络优化、存储解决方案等方面进行了多项重要升级,进一步提升了性能和可靠性。
|
15天前
|
运维 Kubernetes 调度
阿里云容器服务 ACK One 分布式云容器企业落地实践
阿里云容器服务ACK提供强大的产品能力,支持弹性、调度、可观测、成本治理和安全合规。针对拥有IDC或三方资源的企业,ACK One分布式云容器平台能够有效解决资源管理、多云多集群管理及边缘计算等挑战,实现云上云下统一管理,提升业务效率与稳定性。
|
3月前
|
运维 Kubernetes 调度
阿里云容器服务 ACK One 分布式云容器企业落地实践
3年前的云栖大会,我们发布分布式云容器平台ACK One,随着3年的发展,很高兴看到ACK One在混合云,分布式云领域帮助到越来越多的客户,今天给大家汇报下ACK One 3年来的发展演进,以及如何帮助客户解决分布式领域多云多集群管理的挑战。
阿里云容器服务 ACK One 分布式云容器企业落地实践
|
3月前
|
人工智能 Kubernetes Cloud Native
阿里云容器服务,全面助力云上体育盛会
本文讲述了阿里云容器服务,通过安全稳定的产品能力和成熟的稳定性保障体系,全面助力云上体育赛场,促进科技之光与五环之光交相辉映。
|
3月前
|
人工智能 Prometheus 监控
使用 NVIDIA NIM 在阿里云容器服务(ACK)中加速 LLM 推理
本文介绍了在阿里云容器服务 ACK 上部署 NVIDIA NIM,结合云原生 AI 套件和 KServe 快速构建高性能模型推理服务的方法。通过阿里云 Prometheus 和 Grafana 实现实时监控,并基于排队请求数配置弹性扩缩容策略,提升服务稳定性和效率。文章提供了详细的部署步骤和示例,帮助读者快速搭建和优化模型推理服务。
202 7
使用 NVIDIA NIM 在阿里云容器服务(ACK)中加速 LLM 推理

相关产品

  • 容器计算服务