阿里云百炼通过Token级调度提升多模型推理的GPU利用率-开发者社区-阿里云

阿里云AI基础设施成果入选顶级学术会议，显著提升GPU利用率

2025-10-16 2680

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 阿里云提出的GPU池化服务多模型研究成果入选SOSP2025，其创新系统Aegaeon实现token级调度，大幅提升GPU利用率，核心技术已落地百炼平台，显著降低资源消耗。

10月16日消息，顶级学术会议SOSP2025在韩国首尔举行，本届会议仅收录66篇论文，其中阿里云提出的GPU池化服务多模型研究成果

成功入选，该研究提出多模型混合服务系统Aegaeon，可大幅提升GPU资源利用率，目前其核心技术已应用在阿里云百炼平台。

SOSP论文图.jpg

SOSP（操作系统原理研讨会）由ACMSIGOPS主办，是计算机系统领域顶级学术会议，平均每年收录的论文数量仅有数十篇，被誉为计算机操

作系统界的“奥斯卡”，入选论文代表了操作系统和软件领域最具代表的研究成果。本届SOSP大会，关于系统软件与AI大模型技术的融合研究

成为新的趋势。

全球模型的数量仍在持续增长，据统计，HuggingFace已托管了超100万个模型。在真实服务场景中，少量热门模型占据了总请求的绝大部

分，而超过90%的模型则调用频率较低。当前的事实标准解决方案是为每个模型至少预留一个推理实例，这造成了GPU资源的大量浪费。

阿里云百炼团队在论文中创新性提出多模型混合服务系统Aegaeon，首次将调度实现在token级别，在每次生成完下一个token之后，都可通过精确的执行时间预测和创新的token级调度算法规划是否需要切换模型，从而实现多个模型混合服务且满足延迟要求；通过组件复用、显存精细化管理和KV缓存同步优化等全栈技术，Aegaeon将模型切换开销降低97%，确保了token级调度的实时性，可支持亚秒级的模型切换响应。据介绍，Aegaeon系统支持单GPU同时服务多达7个不同模型，相比现有主流方案提升1.5-9倍的有效吞吐量，实现2-2.5倍的请求处理能力。

论文测试结果.jpg

Aegaeon显著提升GPU利用率

目前，Aegaeon核心技术已在阿里云百炼平台部署，服务数十个模型的推理，将服务这些模型所需的GPU数量减少了82%。

据介绍，阿里云百炼平台已上线Qwen、Wan、DeepSeek等200多款业界领先的模型，过去一年，阿里云百炼平台的模型调用量增长了15倍。

👇关注我，掌握阿里云百炼最新动态！

阿里云AI基础设施成果入选顶级学术会议，显著提升GPU利用率

阿里云百炼

热门文章

最新文章

相关课程

相关电子书

相关实验场景