第五届CID大会成功举办,阿里云基础设施加速AI智能产业发展!

本文涉及的产品
函数计算FC,每月15万CU 3个月
简介: 2024年10月19日,第五届中国云计算基础架构开发者大会(CID)在北京朗丽兹西山花园酒店成功举办。本次大会汇聚了来自云计算领域的众多精英,不同背景的与会者齐聚一堂,共同探讨云计算技术的最新发展与未来趋势。

【阅读原文】戳:第五届CID大会成功举办,阿里云基础设施加速AI智能产业发展!

背景:第五届中国云计算基础架构开发者大会(China Cloud Computing Infrastructure Developer Conference-简称CID)由华为、腾讯云、阿里云、Intel、字节跳动于2020年共同发起,迪捷软件作为赞助及财务流程支持单位,旨在为开发者创造一个互相交流、共同提高的机会。前四届CID分别于2020、2021、2022、2023在长沙、上海、杭州、深圳举行,每届会议均邀请40余位技术专家与百余位专业观众线下相聚,并通过CSDN、爱奇艺、InfoQ等知名媒体线上转播,获得了良好的的业界反响与影响力。

 

2024年10月19日,第五届中国云计算基础架构开发者大会(CID)在北京朗丽兹西山花园酒店成功举办。本次大会汇聚了来自云计算领域的众多精英,不同背景的与会者齐聚一堂,共同探讨云计算技术的最新发展与未来趋势。此次盛会,吸引了300多位参会者到场交流,直播间观看人数更是突破了3万,显示出行业内的广泛关注与热情。

 

在大会上,30+位讲师进行了30场技术分享,以前沿的视角和深刻的洞见,为与会者呈现了一场思想的盛宴。阿里云的多位讲师出席了本次CID大会,分享了他们在云计算基础设施建设方面的独特见解和最新研究成果。

 

 

 

 

 

如何高效部署大模型推理业务

 

 

 

阿里云资深计算专家,弹性计算GPU架构师/研发负责人郑晓参加了本次CID大会的主论坛Keynote:携手行业先锋,共话云计算基础设施新篇章。他在会上提到,随着人工智能应用的迅猛增长,推理的成本与效率成为了决定其成功的关键因素。他深入探讨了当前推理技术的发展趋势及其对GPU计算实例的新要求。他的技术分享主要聚焦于,从业务出发聚焦部署一个实际的LLM 推理的业务,介绍了针对GPU架构的优化方法、多卡通信的调优方法,助力客户显著提高推理任务的效率和成本效益。

 

图丨阿里云资深计算专家 郑晓

 

 

 

 

 

Knative加速企业AI应用

Serverless化落地

 

 

 

根据Gartner预测,到2027年,中国的全部AI推理工作负载中,基于云的工作负载占比将从当前的20%上升至80%。然而AI推理服务需要消耗大量的GPU计算资源,如何在保证服务质量基础之上提升服务迭代效率并降低资源成本具有挑战性。

对于这个问题,阿里云技术专家李鹏在云系统基础软件分论坛为大家带来了基于Knative如何加速企业AI应用Serverless化落地的技术分享。

 

 

图丨阿里云技术专家 李鹏

 

 

首先对Knative进行了系统全面的介绍。Knative是一款基于 Kubernetes(K8s)之上的广受欢迎的开源Serverless应用架构,提供基于请求的自动弹性、缩容到0、灰度发布以及事件驱动等功能。通过Knative部署应用可以做到专注于应用逻辑开发,资源按需使用:

 

更聚焦于业务逻辑:Knative通过简单的应用配置、自动扩缩容等手段让开发者聚焦于业务逻辑,降低运维负担、减少对底层资源的关注。

标准化:传统方式将业务代码部署到PaaS平台时,需要考虑源码的编译、部署、资源使用、运维等。Knative提供了一个标准、通用的Serverless应用框架,无需与云厂商做深度绑定,便于跨平台迁移。

使用门槛低:支持将代码打包为容器镜像并自动发布为服务,也支持将函数快捷地部署到K8s集群中,以容器的方式运行,不需要关注K8s自身资源如Deployment、Service、Ingress等。

应用自动化:基于请求自动弹性,支持在没有流量时自动将实例数量缩容至0,从而节省资源,还提供多版本管理、灰度发布等功能。

事件驱动:Knative提供了完整的事件模型,便于接入外部系统的事件,并将事件转发到对应服务进行处理。

紧接着介绍了阿里云Knative产品在完全兼容社区Knative基础上,进行了全方位的能力升级:

完全兼容社区Knative,提供K8s标准API,无需担心厂商绑定

提供产品化UI控制台、智能弹性AHPA等功能,并完全基于ACK/ACS产品底座

与EventBridge、云效、日志服务、Arms-Prometheus深度集成,并提供云产品网关:ALB、ASM、MSE

控制面组件全托管、高可用

 

 



随后聚焦于AI推理服务场景,传统的基于GPU利用率的弹性伸缩并不能准确反映大语言模型推理服务的真实使用情况,GPU利用率达到100%并不一定意味着系统已经处于繁忙状态。相比之下,基于并发数或每秒处理请求数(QPS/RPS)更能直接反映 AI推理服务的性能表现。而这些恰好是Knative所擅长的,结合实例缩容到0、智能弹性AHPA以及Fluid可以大幅降低请求响应延时,做到极致弹性。以vLLM+Qwen模型为例可以做到端到端首请求延时下降67%。

目前阿里云Knative已全面助力硅基仿生、数禾科技、Rokid、XTransfer以及合思等企业应用Serverless化,其AI推理模型服务在应对突发请求流量的稳定性获得大幅提升,同时资源的使用效率也获得了显著提高,最多可以降低60%资源使用成本。

 

 

 

 

AMD平台Core&UnCorePMU

虚拟化技术实践

 

 

 

阿里云技术专家郑翔阿里云研发工程师陈培鸿在探索与实践分论坛共同分享了阿里云在AMD架构实例上Core&UnCorePMU虚拟化技术的原理和实现,同时介绍如何在虚拟机中通过这项技术来使用perf和AMDuProf等性能调试和监控工具。随着云计算业务的快速发展,客户业务对硬件监控数据(比如内存带宽、LLC相关数据)、以及虚拟机内部调试能力的需求也越来越强烈。客户经常会找我们的线上值班同学,在主机上采集对应的硬件监控数据,来帮助他们定位性能问题,这无疑会带来非常差的体验,大大增加了客户定位问题的闭环时间。同时,缩减虚拟机和物理机之间的差异,也一直都是虚拟化技术努力的方向。为了让虚拟机的客户体验更好,我们自主研发了业界首个支持UnCore PMU的AMD虚拟机实例,使得虚拟机内部可以监控带外内存视角的CPU内存带宽能力、DMA内存带宽能力;并且将Core PMU的特性进行了补全,使得虚拟机具备跟物理机完全相同的PMU能力,可以有效支持客户进行业务性能调优以及业务混部时的指标监控。

 

图丨阿里云技术专家 郑翔


 

图丨阿里云研发工程师 陈培鸿

 

 

 

 

 

使用CDl在Kubernetes/KataContainers

中实现全链路GPU高效管理

 

 

 

阿里云高级工程师吴超蚂蚁集团高级软件开发工程师李亚南在云系统基础软件分论坛共同分享了使用CDl在Kubernetes/KataContainers中实现全链路GPU高效管理的议题。自Kata Containers 3.0推出创新性的Dragonball VMM和 runtime-rs以来,我们一直在不断完善其功能。其核心之一就是增强全面支持GPU全生命周期管理。在AI/ML工作负载的场景中,如何方便高效地管理计算资源(如GPU,FPGA等)变得至关重要。然而,用户在Kubernetes环境中使用Kata运行这样的工作负载时,想要高效便捷地获取和使用GPU资源面临着重大挑战。亟需一种更全面、标准化的方法来解决这些问题。Kata Containers通过引入CDI,有效解决了这一问题,实现GPU资源的便捷获取和管理并实现AI/ML工作负载的无缝迁移。

 

图丨阿里云高级工程师 吴超

 

 

图丨蚂蚁集团高级软件开发工程师 李亚南

 

 

第五届CID大会聚集了业界最前沿的云计算基础架构技术成果,通过主论坛与四大技术主题分论坛,为与会者提供了一个深入了解和交流云计算基础架构技术的平台。阿里云的讲师团队通过对前沿技术与应用案例的专业解读,为参与者们带来了全新的视野和启迪。随着大会的圆满结束,云计算的未来将更加辉煌。阿里云的讲师们将继续致力于推动技术创新,携手行业共同迎接未来的挑战。我们相信,更多的创新将为各行各业注入源源不断的活力与动力。让我们共同期待下一个辉煌的时代,见证云计算带来的深远变革!




我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信微博知乎

获取关于我们的更多信息~

相关实践学习
通过Ingress进行灰度发布
本场景您将运行一个简单的应用,部署一个新的应用用于新的发布,并通过Ingress能力实现灰度发布。
容器应用与集群管理
欢迎来到《容器应用与集群管理》课程,本课程是“云原生容器Clouder认证“系列中的第二阶段。课程将向您介绍与容器集群相关的概念和技术,这些概念和技术可以帮助您了解阿里云容器服务ACK/ACK Serverless的使用。同时,本课程也会向您介绍可以采取的工具、方法和可操作步骤,以帮助您了解如何基于容器服务ACK Serverless构建和管理企业级应用。 学习完本课程后,您将能够: 掌握容器集群、容器编排的基本概念 掌握Kubernetes的基础概念及核心思想 掌握阿里云容器服务ACK/ACK Serverless概念及使用方法 基于容器服务ACK Serverless搭建和管理企业级网站应用
目录
打赏
0
0
0
0
204
分享
相关文章
阿里云《AI 剧本生成与动画创作》技术解决方案测评
本问是对《AI 剧本生成与动画创作》的用心体验。结论不是特别理想,在实际使用中仍存在一些问题。
77 22
阿里云AI剧本生成与动画创作解决方案深度评测
阿里云AI剧本动画全链路解决方案基于函数计算FC、百炼大模型和ComfyUI技术架构,实现从剧本生成到动画渲染的自动化流程。方案在电商广告、知识科普等快速批产场景表现出色,大幅缩短创作时间(如30秒动画从9.5小时减至16.1分钟)。然而,在强剧情连续性和物理规则方面存在不足,建议结合人工审核优化。测试显示其商用级成熟度,推荐采用“AI初稿-人工润色”模式。
187 124
阿里云AI剧本生成与动画创作解决方案深度评测
AI 赋能混合云运维:告别手工操作,迈向智能自愈!
AI 赋能混合云运维:告别手工操作,迈向智能自愈!
132 85
通义灵码 2.0 体验报告:AI 赋能智能研发的新范式
通义灵码 2.0 是阿里云基于通义大模型推出的先进开发工具,具备代码智能生成、研发问答、多文件修改和自主执行等核心功能。本文通过亲身体验,展示了其在新功能开发、跨语言编程和单元测试生成等方面的实际效果,并对比了 1.0 版本的改进。结果显示,2.0 版在代码生成完整度、跨语言支持和单元测试自动化上有显著提升,极大提高了开发效率,但仍需进一步优化安全性和个性化风格。推荐指数:⭐⭐⭐⭐⭐。
通义灵码 2.0 体验报告:AI 赋能智能研发的新范式
**通义灵码 2.0 体验报告:AI 赋能智能研发的新范式** 本文详细评测了阿里云推出的通义灵码 2.0,基于通义大模型,提供代码智能生成、研发问答、多文件修改等核心能力。通过亲身体验,探讨其在新功能开发、跨语言编程、单元测试生成等场景的实际效果,并对比1.0版本的改进点。结果显示,2.0版本在代码生成完整性、自动化程度及跨语言支持方面有显著提升,但也存在安全性优化和个性化风格调整的空间。推荐指数:⭐⭐⭐⭐⭐。 (239字)
AI 程序员的4个分身 | 代码生成专家+注释精灵+API集成助手+智能调试伙伴
AI 程序员的4个分身 | 代码生成专家+注释精灵+API集成助手+智能调试伙伴
169 35
Elasticsearch AI Assistant 集成 DeepSeek,1分钟搭建智能运维助手
Elasticsearch 新支持 DeepSeek 系列模型,使用 AI 助手,通过自然语言交互,为可观测性分析、安全运维管理及数据智能处理提供一站式解决方案。
149 2
Elasticsearch AI Assistant 集成 DeepSeek,1分钟搭建智能运维助手
AI性能极致体验:通过阿里云平台高效调用满血版DeepSeek-R1模型
DeepSeek是近期热门的开源大语言模型(LLM),以其强大的训练和推理能力备受关注。然而,随着用户需求的增长,其官网在高并发和大数据处理场景下常面临服务不稳定的问题。本文将深度测评通过阿里云平台调用满血版DeepSeek模型(671B),以充分发挥其性能和稳定性。阿里云提供高效、低延迟、大规模并发支持及稳定的云服务保障,并为用户提供100万免费token,简化操作流程,确保企业在AI应用上的高效性和成本效益。尽管如此,DeepSeek API目前不支持联网搜索和图片、文档分析功能,需结合其他工具实现。
834 14
阿里云《AI 剧本生成与动画创作》解决方案技术评测
随着人工智能技术的发展,越来越多的工具和服务被应用于内容创作领域。阿里云推出的《AI 剧本生成与动画创作》解决方案,利用函数计算 FC 构建 Web 服务,结合百炼模型服务和 ComfyUI 工具,实现了从故事剧本撰写、插图设计、声音合成和字幕添加到视频合成的一站式自动化流程。本文将对该方案进行全面的技术评测,包括实现原理及架构介绍、部署文档指引、具体耗时分析以及实际使用体验。
92 16
Lindorm作为AI搜索基础设施,助力Kimi智能助手升级搜索体验
月之暗面旗下的Kimi智能助手在PC网页、手机APP、小程序等全平台的月度活跃用户已超过3600万。Kimi发布一年多以来不断进化,在搜索场景推出的探索版引入了搜索意图增强、信源分析和链式思考等三大推理能力,可以帮助用户解决更复杂的搜索、调研问题。 Lindorm作为一站式数据平台,覆盖数据处理全链路,集成了离线批处理、在线分析、AI推理、融合检索(正排、倒排、全文、向量......)等多项服务,支持Kimi快速构建AI搜索基础设施,显著提升检索效果,并有效应对业务快速发展带来的数据规模膨胀和成本增长。

热门文章

最新文章