首创!阿里云RASD技术突破复杂跨域场景推理瓶颈,入选国际顶会ACL 2025

简介: 阿里云自主研发的RASD技术被ACL 2025长文收录,聚焦大语言模型推理加速问题。RASD融合检索与投机采样技术,通过草稿模型与检索相融合、构建最优检索树结构及强大的可扩展性三大创新机制,显著提升跨领域复杂任务的推理效率。该技术已应用于阿里云百炼专属版产品体系,赋能多行业高效推理服务。

640.gif

近日,第63届国际计算语言学年会ACL 2025公布论文评选结果,阿里云自主研发的最新技术成果《RASD: Retrieval-Augmented Speculative Decoding》,被长文收录。该研究聚焦大语言模型(LLMs)的推理加速问题,提出了RASD技术,为大语言模型在复杂跨领域场景下的高效推理提供了全新的解决方案。

ACL评奖委员会:“RASD融合了基于检索与基于模型的投机采样技术,通过创新树修剪与树融合机制,优化草稿树的生成过程,在多种复杂任务和不同模型规模上均展现出了显著的加速效果,充分证明了其在实际应用中的价值,是大模型推理领域的又一关键突破。”

ACL是计算语言学和自然语言处理领域排名第一的国际顶级学术会议,由国际计算语言学协会组织,每年召开一次,汇聚全球顶尖的研究团队和学者,在中国计算机学会(CCF)推荐会议列表中被列为A类会议,今年将于2025年7月27日至8月1日在奥地利维也纳举办。

640 (34).png

行业痛点:大模型推理加速的双重挑战

大语言模型参数规模已突破千亿量级,推理效率不可避免成为业内核心关注。当前主流的自回归生成范式,按序逐一生成token,其计算复杂度随序列长度呈指数级增长,导致解码速度较为缓慢。

此前,为突破这一限制,研究者们提出了投机采样(Speculative Sampling)方法,通过轻量级草稿模型(draft model)快速生成候选词序列(即草稿),由主模型参考验证,从而大幅降低计算负载,在保证生成质量的前提下,实现推理加速。然而,业务实际应用中,我们发现仍面临两大核心挑战:

  • 跨领域适应性差

当前投机采样框架,主要依赖结构简单的轻量级草稿模型,其训练数据局限于通用语料库,当面对跨领域的复杂任务需求时,生成准确率会大幅下降。

  • 草稿生成效率低

传统的草稿模型需进行多次前向传播以生成候选序列,生成精度随token数量增加呈指数衰减,耗时较长。且实验证明,此投机采样方法不仅会制约单次验证环节的吞吐量,同时在复杂任务中表现不稳定,对所输入的Prompt要求严苛。

技术突破:RASD三大创新机制

针对上述挑战,阿里云研发团队引入检索增强机制,以创新性的技术架构设计,在提高草稿接收率和解码效率的基础上,进一步突破了大语言模型在复杂跨域场景下的推理瓶颈。


640 (35).png


草稿模型与检索相融合

RASD首创“草稿模型生成和检索生成”的高效融合机制,通过引入检索机制,显著提升了草稿模型生成候选序列的质量。对于草稿模型难以处理的域外数据集,RASD技术可综合提升投机采样速度与最大输出长度,增强其文本生成能力。


构建最优检索树结构

传统方法在生成预测内容时,会产生大量冗余计算。RASD通过深度解析草稿模型的概率分布特征,能自动识别并修剪掉低概率预测路径。同时,RASD采用最长前缀匹配算法,将草稿模型生成的树与检索树进行融合,在保留草稿模型生成优势的同时,充分利用了检索树的上下文信息,在应用层面实现了推理准确率与检索效率的双重突破。

在多项基准测试中,RASD均展现出显著优势:相较于PLD(提示查找解码)方法,RASD在DocQA、Summary、Code及In-Domain QA等复杂和跨领域任务中,其加速效率平均提升39.15%,对比EAGLE2(大语言模型高效推断算法)平均提升9.67%。


强大的可扩展性

RASD采用适配性架构设计,仅在草稿token的验证树层面进行融合优化,故而适配任何草稿模型架构,可无缝集成至层出不穷的各类投机采样方法,并在此基础上通过检索方案,进行整体性能增强。


应用落地:技术能力的价值验证

目前RASD已成功融入阿里云百炼专属版产品体系,并与AI Stack一体机实现深度结合,持续构建软硬一体的技术优势,在金融、电力、医疗、制造等多个行业领域创造价值。在RASD的支持下,基于百炼专属版AI Stack一体机,某高校科研场景部署了Deepseek-R1-671B-BF16模型的推理服务,平均输入长度达32k,相较社区最优方案,单机吞吐量提升82%,显著提升科研效率。

随着各行业向深度用云的方向加速迈进,阿里云将持续推动大模型训推效率的突破,为AI的广泛落地提供坚实支撑!

相关文章
|
1月前
|
负载均衡 测试技术 调度
大模型分布式推理:张量并行与流水线并行技术
本文深入探讨大语言模型分布式推理的核心技术——张量并行与流水线并行。通过分析单GPU内存限制下的模型部署挑战,详细解析张量并行的矩阵分片策略、流水线并行的阶段划分机制,以及二者的混合并行架构。文章包含完整的分布式推理框架实现、通信优化策略和性能调优指南,为千亿参数大模型的分布式部署提供全面解决方案。
468 4
|
人工智能 安全 数据挖掘
Pandas AI:Pandas与人工智能的结合,让你不再拘泥于如何使用pandas方法及处理语法
Pandas AI:Pandas与人工智能的结合,让你不再拘泥于如何使用pandas方法及处理语法
1703 1
Postman有哪些不好用的地方?
Postman有哪些不好用的地方?
437 0
|
机器学习/深度学习 运维 算法
Machine Learning机器学习之向量机(Support Vector Machine,SVM)
Machine Learning机器学习之向量机(Support Vector Machine,SVM)
|
5月前
|
自然语言处理 IDE 开发工具
Xcode 26 beta (17A5241e) 发布 - Apple 平台 IDE
Xcode 26 beta (17A5241e) 发布 - Apple 平台 IDE
412 0
Xcode 26 beta (17A5241e) 发布 - Apple 平台 IDE
|
5月前
|
Oracle 关系型数据库 Linux
VirtualBox 7.1.10 (macOS, Linux, Windows) - 开源跨平台虚拟化软件
VirtualBox 7.1.10 (macOS, Linux, Windows) - 开源跨平台虚拟化软件
355 0
VirtualBox 7.1.10 (macOS, Linux, Windows) - 开源跨平台虚拟化软件
|
5月前
|
机器学习/深度学习 数据采集 人工智能
WebDancer:从零训练一个 DeepResearch 类智能体
WebDancer 是一款具备 Agentic 能力的智能体,能在开放网页环境中自主提问、搜索、推理并验证答案。它通过多步推理、信息整合与交叉验证解决复杂问题,如医学文献分析或政策追踪。WebDancer 采用 CRAWLQA 和 E2HQA 数据合成策略生成高质量训练数据,并结合 SFT(监督微调)+ RL(强化学习)双阶段训练方法,提升模型在动态环境中的适应性和泛化能力。其核心技术包括 ReAct 行为框架和 DAPO 强化学习算法,确保路径优化与策略稳定性。未来,WebDancer 将接入 Browser 工具链,拓展至代码沙盒、长文本写作等应用场景,进一步向通用智能体演进。
1288 27
|
存储 开发框架 开发工具
Electron有哪些使用场景
【10月更文挑战第13天】Electron有哪些使用场景
922 0
|
Oracle 关系型数据库
分布式锁设计问题之Oracle RAC保证多个节点写入内存Page的一致性如何解决
分布式锁设计问题之Oracle RAC保证多个节点写入内存Page的一致性如何解决
249 0
|
存储
制造企业产品成本核算功能设计实例
制造企业产品成本核算功能设计实例
242 4