首创!阿里云RASD技术突破复杂跨域场景推理瓶颈,入选国际顶会ACL 2025

简介: 阿里云自主研发的RASD技术被ACL 2025长文收录,聚焦大语言模型推理加速问题。RASD融合检索与投机采样技术,通过草稿模型与检索相融合、构建最优检索树结构及强大的可扩展性三大创新机制,显著提升跨领域复杂任务的推理效率。该技术已应用于阿里云百炼专属版产品体系,赋能多行业高效推理服务。

640.gif

近日,第63届国际计算语言学年会ACL 2025公布论文评选结果,阿里云自主研发的最新技术成果《RASD: Retrieval-Augmented Speculative Decoding》,被长文收录。该研究聚焦大语言模型(LLMs)的推理加速问题,提出了RASD技术,为大语言模型在复杂跨领域场景下的高效推理提供了全新的解决方案。

ACL评奖委员会:“RASD融合了基于检索与基于模型的投机采样技术,通过创新树修剪与树融合机制,优化草稿树的生成过程,在多种复杂任务和不同模型规模上均展现出了显著的加速效果,充分证明了其在实际应用中的价值,是大模型推理领域的又一关键突破。”

ACL是计算语言学和自然语言处理领域排名第一的国际顶级学术会议,由国际计算语言学协会组织,每年召开一次,汇聚全球顶尖的研究团队和学者,在中国计算机学会(CCF)推荐会议列表中被列为A类会议,今年将于2025年7月27日至8月1日在奥地利维也纳举办。

640 (34).png

行业痛点:大模型推理加速的双重挑战

大语言模型参数规模已突破千亿量级,推理效率不可避免成为业内核心关注。当前主流的自回归生成范式,按序逐一生成token,其计算复杂度随序列长度呈指数级增长,导致解码速度较为缓慢。

此前,为突破这一限制,研究者们提出了投机采样(Speculative Sampling)方法,通过轻量级草稿模型(draft model)快速生成候选词序列(即草稿),由主模型参考验证,从而大幅降低计算负载,在保证生成质量的前提下,实现推理加速。然而,业务实际应用中,我们发现仍面临两大核心挑战:

  • 跨领域适应性差

当前投机采样框架,主要依赖结构简单的轻量级草稿模型,其训练数据局限于通用语料库,当面对跨领域的复杂任务需求时,生成准确率会大幅下降。

  • 草稿生成效率低

传统的草稿模型需进行多次前向传播以生成候选序列,生成精度随token数量增加呈指数衰减,耗时较长。且实验证明,此投机采样方法不仅会制约单次验证环节的吞吐量,同时在复杂任务中表现不稳定,对所输入的Prompt要求严苛。

技术突破:RASD三大创新机制

针对上述挑战,阿里云研发团队引入检索增强机制,以创新性的技术架构设计,在提高草稿接收率和解码效率的基础上,进一步突破了大语言模型在复杂跨域场景下的推理瓶颈。


640 (35).png


草稿模型与检索相融合

RASD首创“草稿模型生成和检索生成”的高效融合机制,通过引入检索机制,显著提升了草稿模型生成候选序列的质量。对于草稿模型难以处理的域外数据集,RASD技术可综合提升投机采样速度与最大输出长度,增强其文本生成能力。


构建最优检索树结构

传统方法在生成预测内容时,会产生大量冗余计算。RASD通过深度解析草稿模型的概率分布特征,能自动识别并修剪掉低概率预测路径。同时,RASD采用最长前缀匹配算法,将草稿模型生成的树与检索树进行融合,在保留草稿模型生成优势的同时,充分利用了检索树的上下文信息,在应用层面实现了推理准确率与检索效率的双重突破。

在多项基准测试中,RASD均展现出显著优势:相较于PLD(提示查找解码)方法,RASD在DocQA、Summary、Code及In-Domain QA等复杂和跨领域任务中,其加速效率平均提升39.15%,对比EAGLE2(大语言模型高效推断算法)平均提升9.67%。


强大的可扩展性

RASD采用适配性架构设计,仅在草稿token的验证树层面进行融合优化,故而适配任何草稿模型架构,可无缝集成至层出不穷的各类投机采样方法,并在此基础上通过检索方案,进行整体性能增强。


应用落地:技术能力的价值验证

目前RASD已成功融入阿里云百炼专属版产品体系,并与AI Stack一体机实现深度结合,持续构建软硬一体的技术优势,在金融、电力、医疗、制造等多个行业领域创造价值。在RASD的支持下,基于百炼专属版AI Stack一体机,某高校科研场景部署了Deepseek-R1-671B-BF16模型的推理服务,平均输入长度达32k,相较社区最优方案,单机吞吐量提升82%,显著提升科研效率。

随着各行业向深度用云的方向加速迈进,阿里云将持续推动大模型训推效率的突破,为AI的广泛落地提供坚实支撑!

相关文章
|
5天前
|
人工智能 安全 机器人
无代码革命:10分钟打造企业专属数据库查询AI机器人
随着数字化转型加速,企业对高效智能交互解决方案的需求日益增长。阿里云AppFlow推出的AI助手产品,借助创新网页集成技术,助力企业打造专业数据库查询助手。本文详细介绍通过三步流程将AI助手转化为数据库交互工具的核心优势与操作指南,包括全场景适配、智能渲染引擎及零代码配置等三大技术突破。同时提供Web集成与企业微信集成方案,帮助企业实现便捷部署与安全管理,提升内外部用户体验。
无代码革命:10分钟打造企业专属数据库查询AI机器人
|
5天前
|
存储 人工智能 自然语言处理
几分钟创建一个带有业务数据的AI智能客服
本文介绍如何利用阿里云百炼和AppFlow快速创建企业微信客服或网页客服。首先,通过上传企业知识文件和创建大模型问答应用,获取AI推理API服务;接着,在AppFlow控制台新建AI助手并导入配置好的模型,设置对话背景、欢迎语及预设问题等;最后,选择Web集成或企业微信集成方式部署客服系统。整个过程简单易操作,无需技术背景,适合非技术人员使用。文章还提到支持自定义域名绑定以及更多渠道发布选项,助力企业高效搭建专属智能客服。
几分钟创建一个带有业务数据的AI智能客服
|
5天前
|
人工智能 文字识别 安全
趣丸千音MCP首发上线魔搭社区,多重技术引擎,解锁AI语音无限可能
近日,趣丸千音(All Voice Lab)MCP正式首发上线魔搭社区。用户只需简单文本输入,即可调用视频翻译、TTS语音合成、智能变声、人声分离、多语种配音、语音转文本、字幕擦除等多项能力。
68 12
|
8月前
|
存储 开发框架 开发工具
Electron有哪些使用场景
【10月更文挑战第13天】Electron有哪些使用场景
504 0
|
3月前
|
IDE 物联网 开发工具
自学esb32烧录进军物联网和嵌入式
自学esb32烧录进军物联网和嵌入式
|
5月前
|
弹性计算 运维 自然语言处理
产品测评 | 感受操作系统智能助手OS Copilot新功能带来的运维效率飞升
近期,我再次评测了阿里云OS Copilot的新版本,发现其在命令执行、任务自动化、文件处理及知识问答等方面表现出色,特别是-t参数显著提升了70%的效率。使用过程中,我发现它不仅简化了复杂任务的处理,还提供了中文解释配置文件的功能,极大地方便了初学者。总结来看,OS Copilot极大地提升了Linux运维效率,但仍需在自然语言理解、用户界面优化和错误处理机制等方面进一步改进。未来若能支持更多操作系统并集成更多实用工具,必将成为Linux用户的得力助手。
|
5月前
|
弹性计算 人工智能 运维
云产品评测|告别传统运维挑战!阿里云OS控制台引领智能管理新时代
阿里云OS控制台是专为运维人员设计的高效管理工具,旨在提升用户体验和简化操作流程。它不仅集成了OS Copilot等智能助手,还提供了系统诊断、订阅管理和AI组件等功能,支持API、SDK、CLI等多种管理方式。通过该平台,用户可以轻松纳管服务器、监控健康状态、执行故障排查,并享受针对阿里云环境优化的运维体验。整体而言,阿里云OS控制台为运维工作带来了极大的便利与效率提升。
|
4月前
|
人工智能 自然语言处理 算法
AI 剧本生成与动画创作解决方案深度体验
阿里云推出的AI剧本生成与动画创作解决方案,大幅简化了从剧本撰写到视频合成的流程,提升了创作效率和专业性。该方案基于函数计算FC、百炼模型服务等技术,实现了自动化创作,降低了成本和技术门槛。尽管存在初始化耗时、模型定制化不足等缺点,但其高效性和灵活性为内容创作者提供了强大的支持,尤其适合快速响应市场热点。推荐尝试,以体验全新的创作方式。
221 1
|
5月前
|
SQL DataWorks 监控
Dataworks入门
很久前试用DataWorks,初版功能完善,通过提工单解决问题并学会日志分析。Copilot接入后,发现其SQL功能未严格遵循阿里云官方文档,修改的SQL不尽如人意,有待提升。整体而言,DataWorks功能强大、可定制化高、集成方便,在大数据处理方面表现出色。
162 13
|
6月前
|
存储 关系型数据库 对象存储
体验云数据库RDS通用云盘核心能力
本次课程由杨浩磊(木信)分享,主题为体验云数据库RDS通用云盘的核心能力。内容分为四部分:1) 初识RDS通用云盘,介绍其低成本、高性能的特点;2) 核心能力详解,涵盖IO加速、IO突发和数据归档功能;3) 方案及应用案例,展示实际性能提升与成本优化;4) 线上活动与权益,提供免费试用等优惠。RDS通用云盘通过多级存储架构,显著提升读写性能并降低存储成本,适用于多种业务场景。
267 38