阿里云AI基础设施成果入选顶级学术会议,显著提升GPU利用率

简介: 阿里云提出的GPU池化服务多模型研究成果入选SOSP2025,其创新系统Aegaeon实现token级调度,大幅提升GPU利用率,核心技术已落地百炼平台,显著降低资源消耗。

    10月16日消息,顶级学术会议SOSP2025在韩国首尔举行,本届会议仅收录66篇论文,其中阿里云提出的GPU池化服务多模型研究成果

成功入选,该研究提出多模型混合服务系统Aegaeon,可大幅提升GPU资源利用率,目前其核心技术已应用在阿里云百炼平台。


SOSP论文图.jpg


SOSP(操作系统原理研讨会)由ACMSIGOPS主办,是计算机系统领域顶级学术会议,平均每年收录的论文数量仅有数十篇,被誉为计算机操

作系统界的“奥斯卡”,入选论文代表了操作系统和软件领域最具代表的研究成果。本届SOSP大会,关于系统软件与AI大模型技术的融合研究

成为新的趋势。


全球模型的数量仍在持续增长,据统计,HuggingFace已托管了超100万个模型。在真实服务场景中,少量热门模型占据了总请求的绝大部

分,而超过90%的模型则调用频率较低。当前的事实标准解决方案是为每个模型至少预留一个推理实例,这造成了GPU资源的大量浪费。


阿里云百炼团队在论文中创新性提出多模型混合服务系统Aegaeon,首次将调度实现在token级别,在每次生成完下一个token之后,都可通过精确的执行时间预测和创新的token级调度算法规划是否需要切换模型,从而实现多个模型混合服务且满足延迟要求;通过组件复用、显存精细化管理和KV缓存同步优化等全栈技术,Aegaeon将模型切换开销降低97%,确保了token级调度的实时性,可支持亚秒级的模型切换响应。据介绍,Aegaeon系统支持单GPU同时服务多达7个不同模型,相比现有主流方案提升1.5-9倍的有效吞吐量,实现2-2.5倍的请求处理能力。


论文测试结果.jpg

                                                                                      Aegaeon显著提升GPU利用率


      目前,Aegaeon核心技术已在阿里云百炼平台部署,服务数十个模型的推理,将服务这些模型所需的GPU数量减少了82%。


据介绍,阿里云百炼平台已上线Qwen、Wan、DeepSeek等200多款业界领先的模型,过去一年,阿里云百炼平台的模型调用量增长了15倍。




👇关注我,掌握阿里云百炼最新动态!


相关实践学习
在云上部署ChatGLM2-6B大模型(GPU版)
ChatGLM2-6B是由智谱AI及清华KEG实验室于2023年6月发布的中英双语对话开源大模型。通过本实验,可以学习如何配置AIGC开发环境,如何部署ChatGLM2-6B大模型。
相关文章
|
1月前
|
人工智能 文字识别 监控
|
1月前
|
云安全 人工智能 安全
Dify平台集成阿里云AI安全护栏,构建AI Runtime安全防线
阿里云 AI 安全护栏加入Dify平台,打造可信赖的 AI
|
1月前
|
云安全 人工智能 自然语言处理
阿里云x硅基流动:AI安全护栏助力构建可信模型生态
阿里云AI安全护栏:大模型的“智能过滤系统”。
|
1月前
|
人工智能 中间件 数据库
沐曦 GPU 融入龙蜥,共筑开源 AI 基础设施新底座
沐曦自加入社区以来,一直与龙蜥社区在推动 AIDC OS 的开源社区建设等方面保持合作。
|
1月前
|
人工智能 vr&ar UED
获奖公布|第十九届"挑战杯"竞赛2025年度中国青年科技创新"揭榜挂帅"擂台赛阿里云“AI技术助力乡村振兴”专题赛拟授奖名单公示
获奖公布|第十九届"挑战杯"竞赛2025年度中国青年科技创新"揭榜挂帅"擂台赛阿里云“AI技术助力乡村振兴”专题赛拟授奖名单公示
|
1月前
|
机器学习/深度学习 人工智能 Serverless
吉利汽车携手阿里云函数计算,打造新一代 AI 座舱推理引擎
当前吉利汽车研究院人工智能团队承担了吉利汽车座舱 AI 智能化的方案建设,在和阿里云的合作中,基于星睿智算中心 2.0 的 23.5EFLOPS 强大算力,构建 AI 混合云架构,面向百万级用户的实时推理计算引入阿里云函数计算的 Serverless GPU 算力集群,共同为智能座舱的交互和娱乐功能提供大模型推理业务服务,涵盖的场景如针对模糊指令的复杂意图解析、文生图、情感 TTS 等。
|
1月前
|
存储 人工智能 OLAP
AI Agent越用越笨?阿里云AnalyticDB「AI上下文工程」一招破解!
AI 上下文工程是管理大模型输入信息的系统化框架,解决提示工程中的幻觉、上下文溢出与信息冲突等问题。通过上下文的采集、存储、加工与调度,提升AI推理准确性与交互体验。AnalyticDB PostgreSQL 版提供增强 RAG、长记忆、Supabase 等能力,助力企业构建高效、稳定的 AI 应用。
|
1月前
|
人工智能 算法 调度
阿里云ACK托管集群Pro版共享GPU调度操作指南
本文介绍在阿里云ACK托管集群Pro版中,如何通过共享GPU调度实现显存与算力的精细化分配,涵盖前提条件、使用限制、节点池配置及任务部署全流程,提升GPU资源利用率,适用于AI训练与推理场景。
228 1
|
1月前
|
机器学习/深度学习 人工智能 算法
阿里云视频云以 360° 实时回放技术支撑 NBA 2025 中国赛 —— AI 开启“智能观赛”新体验
NBA中国与阿里云达成合作,首发360°实时回放技术,融合AI视觉引擎,实现多视角、低延时、沉浸式观赛新体验,重新定义体育赛事观看方式。
309 0
阿里云视频云以 360° 实时回放技术支撑 NBA 2025 中国赛 —— AI 开启“智能观赛”新体验
|
1月前
|
存储 人工智能 OLAP
AI Agent越用越笨?阿里云AnalyticDB「AI上下文工程」一招破解!
AI上下文工程是优化大模型交互的系统化框架,通过管理指令、记忆、知识库等上下文要素,解决信息缺失、长度溢出与上下文失效等问题。依托AnalyticDB等技术,实现上下文的采集、存储、组装与调度,提升AI Agent的准确性与协同效率,助力企业构建高效、稳定的智能应用。

热门文章

最新文章