拥抱智算时代:阿里云容器服务智能、托管、弹性新体验

本文涉及的产品
无影云电脑个人版,1个月黄金款+200核时
无影云电脑企业版,4核8GB 120小时 1个月
资源编排,不限时长
简介: 本文总结了2024云栖大会容器计算专场的演讲内容,重点介绍了阿里云容器服务的新产品体验,包括智能、托管、弹性的特点,以及如何助力客户拥抱智算时代。文中还分享了多项实际案例和技术细节,展示了阿里云容器服务在提升用户体验和解决实际问题方面的努力。

本文整理自先河、予栖和路先在2024云栖大会的演讲


图片.png

很高兴在2024云栖大会容器计算专场,给大家分享容器服务的新产品体验,本次分享,我们聚焦容器服务是如何通过智能、托管、弹性的产品新体验,来助力客户拥抱智算时代的。

图片.png

有这样几组公开的开发者调研数据和大家分享,来自 Cloud  Native Computing Foundation Annual Survey  2023的数据,Kubernetes开源项目Start数量最近两年以来仍旧快速增长,这表明Kubernetes  正在持续变得更加流行,尤其是GenAI火热的最近这  22个月以来。另外两个数据是来自2023中国开发者调查报告,可以看到受访者有84%正在使用或评估  Kubernetes,还有一个就是67%的受访者正在使用阿里云提供的容器服务,这也正是让我们比较自豪,更感到肩膀上的重要责任。


这些客户之所以选择阿里云容器服务,主要还是因为以下几点,低门槛的全托管服务,和阿里云全面的、更深度的集成,以及与社区的完全兼容性,并保持了可扩展能力。

图片.png

这是我们在阿里云提供的产品组合,整个产品家族面向飞天技术底座的所有基础设施形态,提供了完善完整的容器服务产品形态,包括了面向公共云提供的ACK  Kubernetes容器服务,以及我们刚刚商业化发布的ACS容器计算服务,面向边缘场景提供的ACK  Edge边缘容器,面向专有云我们提供的ACK专有云企业版,包括面向客户IaaS或三方云提供的ACK Distro发行版。


在上层,我们围绕多集群分布式云场景,提供了统一集群管理、资源调度、数据容灾迁移备份以及应用交付的ACK One分布式云容器平台,包括面向容器应用的网络及流量治理使用场景的服务网格ASM,以及容器制品中心ACR容器镜像服务。

图片.png

通过完善的容器产品家族,我们服务了千行百业的客户的主流使用场景,包括了在线交易、web类应用,AI/ML训推及数据分析工作负载,企业的应用架构现代化,以及分布式的系统,服务了如刚刚过去的巴黎夏季奥运会子弹时间等云上应用场景,以及其他汽车领域的小鹏、极氪,天天在使用的小红书、Kimi助手等等,还有AI  for Science的深势科技,量化的汇量,游戏领域的米哈游,以及今天即将分享实践的作业帮等等客户。

图片.png

在GenAI时代,我们看到生成式AI应用的训练和推理几乎是100% built on K8s,我们也看到了生成式AI  对基础设施服务提出了很多挑战,包括规模、效率、性能这几个维度,需要提供极致的Infra。更强的算力需求、更高的稳定性要求,以及为了响应市场而更快的创新和迭代交付效率。通过基于容器的云原生架构,能够实现资源的统一调度和更高利用率的弹性,生产工作流实现automation,以及实现多个角色的协同加速开发迭代。

图片.png

今年刚好是Kubernetes开源项目的十周年,正如前面开始提到的它正在被广泛地采纳,同时,我们在支持客户的过程中也看得到其在客户侧的使用门槛,依然存在技术复杂度高,专业人才招聘困难,以及系统规划的风险。为了应对和解决这些问题,我们提出了智能、托管和弹性的新体验。


弹性:更快速、更灵活、更易用的算力供给


图片.png

图片.png

这一页我们分享一下Serverless容器的新发布,容器计算服务ACS,这款产品是去年云栖我们推出邀测,上个月我们推出商业化的。提供了极致简化的算力类型,将在VM   ECS的上百种不同代系规格,简化为通用型和性能型,算力质量我们提供了通用型相同服务质量的Best-effort算力质量,但是其2折的定价,以支持拥有容错场景的工作负载,提供极致的性价比。


在ACS,我们提供了核心的组件托管,包括提供自动化的升级通道,以及高性能和高可用调度,提供更灵活的弹性策略HPA、CronHPA、AHPA,还有完善的可观测和成本洞察及优化能力。支持用户的自有工作负载以及使用的云产品负载,EMR  on ACS也是今年云栖大会发布的集成场景。

图片.png

前面我们分享了Serverless容器场景,那面向工作负载,我们今年也是提供了智能的应用弹性能力,提供基于应用过往工作负载画像的容量分享、趋势和时序预测能力,来辅助提供应用的弹性策略配置支持。提供25%的弹性灵敏度提升,平均降低20%的资源浪费,像辅助驾驶一样帮助工作负载简化弹性配置。

图片.png

面向K8s集群的工作节点,我们今年也是推出GA正式发布的即时弹性能力,提供面向Pending  Pods的事件来实现多规格族的动态库存感知和供应,使得整个的弹性效率加速在30s以内实现节点就绪,通用规格的99.9%响应率,并且实现库存变化即时感知,最终让节点维度的弹性扩容体验更加优化,并且支持供给策略扩展、调度策略扩展以及生命周期管理的扩展。


托管:打造更易用的Kubernetes服务


图片.png

托管二字,意味着阿里云为客户承担更多运维职责。我们的愿景是让您更加专注业务创新,由阿里云来交付、运维专业的Kubernetes环境。接下来我来介绍今年在托管层面的新进展。

图片.png

我们提到了交付专业的Kubernetes,那么什么算专业水准?参考了广泛的资料后,我们发现应用 Kubernetes集群的专业水准是可以度量的,通过一套成熟度框架。在这个成熟度框架之中,我们可以从架构设计、自动化运维、可观测性、安全、开发接入几个方面评估。


架构设计:包含集群选型、业务连续性设计等核心考量


自动化运维:如何创建、升级一个集群,如何完成集群的运维管理,如何评估集群的容量以及如何管理


可观测性:如何实践 FinOps,如何实践可观测性三要素


安全:如何设计集群的鉴权、授权体系,如何管理应用密钥,如何发现、修复安全漏洞


开发接入:如何设计从应用开发到部署上线的流程,如何部署云原生制品(例如容器镜像、Helm Chart 等)

图片.png

以架构设计这个模块为例,我们看看具体需要关注什么内容?当一个初学者第一次使用Kubernetes集群时,他首要关注的就是集群选择是自建还是托管,可能不会关注业务的需求,也不会关注未来的业务增长,提前做一些容量规划等等。当然他慢慢成长到一个专家水平的时候,再一次对集群进行选型时,他会去做更加全维度的一个评估。首先是除了自建、托管以外,还有很多Serverless的产品形态可供选择,像阿里云上面的SAE、FC等产品。他会结合   Serverless的产品形态综合地设计业务部署方案,实现更高的弹性能力,或者更高的性价比。除此之外,还有发行版的选型,是多租还是独占集群,节点的机器规格选择,订阅方式选择,等等。集群的选型仅仅是一个方面,另外还有业务连续性的考量,我们今天看到越来越多的客户选择多云混合云策略、也在积极应用控制面、数据面、业务的高可用最佳实践。


以上这些是方法论,是否我们给到大家就可以实施了呢?

图片.png

其实具体到实施环节,其实需要付出的远比想象的多。我们走访了非常多客户,自建Kubernetes集群的客户,往往都是阿里云上开销非常大的大客户,他们组建了专业的容器团队,以及制定了一系列策略规范以保证K8s集群持续支撑业务发展。这对于我们只是想要用容器进行快速创新的人来说,付出的代价太大了。

图片.png

在阿里云之上,运维Kubernetes集群这种专业的事情可以交给容器服务产品来做,我们提供了ACK托管集群这种集群形态,它将原本您需要自行设计、部署并持续运维的Master控制面组件托管在阿里云侧,在数据面提供一系列算力接入和批量运维能力,与底层基础设施和阿里云产品生态深度集成,一起提供企业级水准的Kubernetes托管服务。ACK  Pro集群支持 99.95% SLA,最大支持15000节点,能够支撑企业生产环境大规模应用。

图片.png

ACK托管集群的创建非常简单,我们为您提供开箱即用的最佳实践,在年底前我们将发布大幅简化的集群创建流程,支持30多项默认最佳实践配置,支持集群的快捷创建。

图片.png

ACK托管集群的控制面由ACK管理,流量控制、版本管理、水位容量,都可以通过自动化的手段完成,最大程度简化运维复杂性。今年我们增强了K8s集群版本自动升级能力,客户可以选择Stable、Rapid等不同的升级渠道完成自动升级,同时支持了更为灵活的维护周期策略,支持按月规划维护。


当然,托管二字不仅限于控制面,对于数据面的算力资源,我们提供灵活易用的批量运维能力,我们提供了批量配置管理、故障发现自愈、安全漏洞修复等多种能力,今年我们发布了OS内核参数、Kubelet参数批量控制台变配能力,发布了对Ubuntu、RHEL的全面支持,即将上线对ECS主动运维事件的联动,降低因底层资源风险导致的业务风险。经过一系列的优化,今年批量节点运维耗时、节点初始化耗时均有显著的下降。

图片.png

除了控制面、数据面等计算资源,K8s基础设施中最为重要的无非就是系统组件了,系统组件承担了您上层业务如何与K8s、云资源进行交互。近几年我们一直在把更多系统组件托管化运行,降低您对K8s系统组件的运维负担,托管后的组件对您还是有一致的使用体验,还是有可配置性,还是有可观测性,但系统组件的版本升级、异常自愈、高可用调度等运维操作,均由ACK负责完成。今年我们发布了节点池弹性扩缩容组件、存储组件的托管化,支持了CoreDNS  自定义参数配置。接下来我们将持续支持更多的组件托管化,让您将更多精力放在业务创新上。

图片.png

容器的安全在K8s成熟度框架中也有体现,安全设计是应用Kubernetes到生产环境中必备的一环。我们联合容器安全专家、云安全中心、操作系统等团队,结合其产品能力,提供了全生命周期、全维度的默认集群安全设计。


智能:AIOps新体验


图片.png

背景


提到智能,很多人首先想到的就是“大模型”。近年来,随着大模型的快速发展,不同领域的大模型应用层出不穷,尤其在专家系统、大数据处理等方面,表现出色。


在去年云栖大会上,ACK在AIOps领域推出了大模型应用——容器服务AI助手,旨在提升客户的运维效率。经过一年的不断迭代,AI助手已经实现了功能的全面升级。


今天,我想和大家分享,升级后的AI助手为我们的AIOps带来了哪些全新的体验和价值。


图片.png


在介绍我们的AI助手之前,我想先回顾一下推出这一产品的初衷,以及它能够为我们带来的益处。


近年来,随着越来越多的用户在生产环境中采用Kubernetes进行业务部署,面临的挑战也随之增多。例如,在选择和验证K8s组件时常常感到困惑,也会遭遇合规性和可用性、安全漏洞等等问题。


根据最新调研,有超过60%的受访者希望通过AIOps提升服务和应用的可用性及性能。尤其是希望AI技术能够帮助解决以下几个关键问题:验证和优化配置、识别安全风险、问题诊断、监控/异常发现等。


正因如此,我们推出了AI助手这一AIOps产品,旨在大幅提升日常运维的效率与效果。


容器服务AI助手



图片.png


那么AI助手都提供了哪些功能呢?AI助手今年实现了全面升级,涵盖集群构建、运维、优化和安全四个重要领域。


集群构建


集群规划:AI助手提供集群规划功能,在创建集群页,能够基于客户现有配置和ACK的专家经验,给出配置优化建议,辅助客户创建安全、高可用的集群。

辅助生成:AI助手提供多种场景的辅助生成能力,比如Terraform代码的生成,K8s YAML的智能生成、智能优化等等。



集群运维


智能诊断:去年我们推出了集群诊断能力,在今年我们对诊断的异常场景做了更多的覆盖,在“智能诊断”部分有更加详细的介绍。


智能体检:通过智能体检能力,AI助手能够实时感知集群的潜在风险,从而预防稳定性隐患。



集群优化


集群与应用优化:AI助手会结合当前的配置、资源使用情况等数据提出优化建议,例如当资源负载过高时,会建议进行节点或应用的伸缩等等。


成本优化:AI助手基于ACK成本套件,为用户提供成本优化建议,帮助识别闲置资源,调整YAML requests/limits配置以提升资源利用率。



集群安全


集群安全分析:AI助手推出了全面的集群安全分析功能,涵盖CVE漏洞风险、运行时风险及安全策略等分析。


应用安全分析:AI助手还可针对应用层面的安全风险进行评估,例如是否存在容器逃逸或共享主机命名空间等问题。


集成


上述的全部功能均能够通过标准的OpenAPI进行集成,我们还提供了一些三方的接入方式,比如钉钉机器人等。


经过增强的AI助手在多个关键指标上取得显著提升,如应答文档采纳率超过50%,内容采纳率超过40%,诊断成功率超过80%,根因定位率达到70%以上。


接下来,将从Day 0到Day 2,直观展示AI助手如何在运维全生命周期中为我们提供支持。


Day0 - 辅助集群架构设计


图片.png


对于控制台用户,他们可以在集群创建页面轻松唤起AI助手,快速分析当前的集群配置。基于ACK的专家经验,AI助手将从稳定性、安全性、性能和网络等多个维度提供优化建议。此外,用户还可以通过控制台的划词功能,便捷地调用AI助手来解释选中的字段,帮助用户了解。


非控制台用户同样能受益于AI助手。它可以辅助生成包括Terraform等在内的基础设施即代码(IaC),大大简化集群资源配置的编排过程。


通过AI助手的支持,集群部署的效率显著提升,让用户可以更专注于业务发展而不是繁琐的配置细节。


Day1-K8s YAML智能生成及分析



图片.png


在集群创建后,用户常常面临着部署生产环境应用的挑战。编写一个生产可用的应用YAML定义通常需要深入了解Kubernetes,需要大量的学习和经验沉淀。为了解决这一问题,AI助手提供了两大核心能力:YAML生成和YAML优化。


YAML生成:AI助手可以从零开始创建YAML文件,或在现有的Deployment、StatefulSet等基础上,快速生成所需的Service、VPA等配置。这一功能能够帮助用户高效创建符合生产标准的资源定义。


YAML优化:针对用户已存在的YAML文件,AI助手还能提供优化建议,确保配置的最佳实践得以应用。这包括资源限制、健康检查、自动扩缩容等最佳实践的融合。


AI助手通过高级的领域强化大模型,结合Kubernetes的普遍经验及ACK领域的专业知识,可以通过chatops方式与用户进行即时交互,快速给出符合生产要求的应用定义。这将显著缩短用户的应用部署时间,降低学习曲线。


如果用户在第一次交互中没有得到理想的结果,AI助手支持多轮对话,可以持续调整和完善,直至满足用户的具体需求。借助AI助手,用户将能够迅速掌握 Kubernetes应用部署的技巧,轻松迈出生产环境的第一步。



Day 2-业务规模化阶段



图片.png


在发布第一个线上版本后,我们逐渐意识到集群偶发异常和故障的处理速度有待提高,同时缺乏长效机制以降低故障风险。除了稳定性方面的考虑,安全性也让我们倍感压力,期望能够深入了解集群的安全风险状态。随着业务的扩展,成本管理变得愈加重要。


为了满足客户在稳定性、安全性和成本这三个关键领域的关注,AI助手提供了针对性的功能支持。


稳定性


智能体检


图片.png


为了提升集群的稳定性,我们引入了智能体检功能。这一功能能够在问题发生之前,提前识别出潜在风险并进行处理,从而预防重大故障的出现。


要实现这一能力,我们进行了大量的数据采集与分析。我们的数据源包括可观测性数据、FinOps与安全套件、集群巡检等,结合ACK的20多个领域检查项,运用增强型大模型进行深入分析。


用户只需简单点击控制台上的智能体检按钮,即可快速启动体检程序,系统将自动生成全面的集群风险分析报告。报告内容包括:组件版本是否需要升级、配额是否充足、资源使用情况是否存在风险等重要信息。这种便捷的操作让用户能够更轻松地维护集群的稳定性。


智能诊断


图片.png


当然除了事前的体检,事中诊断也是非常的重要,在去年我们提供了K8s工作负载的诊断,比如常见的deployment、statefulset等等。


今年我们对诊断的场景做到了更全面的异常场景覆盖,主要有几个:


API调用的诊断:比如控制台对于一些云产品API的调用错误,会有弹窗提示,针对这些API调用错误,我们提供了对API的诊断能力,告知客户问题产生的原因以及优化的建议。


集群日志分析:会提供错误的日志的一键分析能力,针对的的是集群的异常日志。


管控任务的诊断:因为ACK目前提供的运维操作更多的是基于任务维度的,因此失败的任务也需要有诊断的能力。


集群报警诊断:因为用户通常收到告警以后,登陆控制台第一个看的就是告警的历史,我们也是对报警的页面进行了覆盖。


组件的诊断:因为ACK其实有非常多的组件,而客户很难对这些组件都非常的了解,因此我们还提供了组件的诊断能力,当组件安装、升级、变配失败以后,会有诊断的能力。


同样的所有这些诊断覆盖都有控制台的按钮透出,能够一键唤起AI助手进行诊断,帮助客户快速定位并发现解决集群问题,类似于这样的诊断能力,能够大大减少用户的问题排查时间,因为当故障产生时往往是很慌的,那么AI助手就是能很好的辅助到我们的工具。


安全


智能安全分析


图片.png


智能安全分析旨在为集群整体提供安全风险透出。包含一下几个方面:


容器镜像安全扫描:由于镜像是Kubernetes生态的基础,其安全性至关重要。例如,依赖的Java库可能存在漏洞,类似于曾引起广泛关注的Log4j漏洞。


安全策略辅助配置:Kubernetes提供了多种安全策略来确保Pod的部署和更新过程安全可控。当Pod不符合设定规范时,将被预设规则拦截。鉴于安全策略的复杂语法,我们推出了AI助手,帮助用户简化安全策略规则的编写过程。


集群节点CVE检查:AI助手能够识别集群节点中的CVE漏洞,分析这些漏洞的详细信息,评估其对集群的潜在影响,并提供明确的风险报告。此外,我们增加了便捷的操作跳转功能,用户可以迅速链接到目标节点池,以便进行CVE修复。


工作负载配置风险扫描:该功能将对集群中工作负载的安全风险进行全面评估,例如,检查是否配置了就绪和存活探针,以及是否存在提权风险。


集群运行时风险监控:该功能监控宿主机是否受到入侵,以及是否存在恶意程序的运行情况。


通过大模型驱动的安全分析能力,我们将为您提供详尽的自然语言安全报告,帮助用户快速发现集群安全风险,并提供一键跳转的解决方案,便于快速实施修复操作。



成本


图片.png


客户选择上云和使用Kubernetes(K8s)的主要原因之一就是降低成本。在确保稳定性和安全性的基础上,成本优化显得尤为重要。为满足这一需求,我们提供了应用和集群的双重成本分析能力。


我们的解决方案依托当前可观测性数据以及ACK成本套件,能够为用户提供精准的成本优化建议。其中包括:


资源配置优化:通过集成资源画像功能,我们帮助用户找到更合适的资源请求(request)和限制(limit)配置,以实现更合理的资源分配策略。


闲置资源检测:我们检查包括ECS、SLB和EIP在内的各种资源的占用情况,分析后提供闲置资源清单,以帮助用户减少不必要的开支。


借助智能分析技术,客户能够快速识别并解决集群中的成本浪费问题,提升整体运营效率。


以上是AI助手的主要能力升级,希望大家能够充分体验这些新功能,感受它为您的业务带来的便利。谢谢大家!



诚邀共建


阿里云容器团队诚招【开发&SRE】【产品经理】【PDSA】- 杭州、北京、深圳的岗位均可,欢迎大家帮助推荐。

相关文章
|
13天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
6天前
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。
|
1月前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
|
1月前
|
存储 人工智能 调度
阿里云吴结生:高性能计算持续创新,响应数据+AI时代的多元化负载需求
在数字化转型的大潮中,每家公司都在积极探索如何利用数据驱动业务增长,而AI技术的快速发展更是加速了这一进程。
|
1天前
|
人工智能 容器
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
本文介绍了如何利用千问开发一款情侣刮刮乐小游戏,通过三步简单指令实现从单个功能到整体框架,再到多端优化的过程,旨在为生活增添乐趣,促进情感交流。在线体验地址已提供,鼓励读者动手尝试,探索编程与AI结合的无限可能。
|
5天前
|
Cloud Native Apache 流计算
PPT合集|Flink Forward Asia 2024 上海站
Apache Flink 年度技术盛会聚焦“回顾过去,展望未来”,涵盖流式湖仓、流批一体、Data+AI 等八大核心议题,近百家厂商参与,深入探讨前沿技术发展。小松鼠为大家整理了 FFA 2024 演讲 PPT ,可在线阅读和下载。
3040 10
PPT合集|Flink Forward Asia 2024 上海站
|
2天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
873 11
|
19天前
|
人工智能 自然语言处理 前端开发
100个降噪蓝牙耳机免费领,用通义灵码从 0 开始打造一个完整APP
打开手机,录制下你完成的代码效果,发布到你的社交媒体,前 100 个@玺哥超Carry、@通义灵码的粉丝,可以免费获得一个降噪蓝牙耳机。
5863 16
|
1月前
|
缓存 监控 Linux
Python 实时获取Linux服务器信息
Python 实时获取Linux服务器信息
|
12天前
|
机器学习/深度学习 人工智能 安全
通义千问开源的QwQ模型,一个会思考的AI,百炼邀您第一时间体验
Qwen团队推出新成员QwQ-32B-Preview,专注于增强AI推理能力。通过深入探索和试验,该模型在数学和编程领域展现了卓越的理解力,但仍在学习和完善中。目前,QwQ-32B-Preview已上线阿里云百炼平台,提供免费体验。