近日,第63届国际计算语言学年会ACL 2025公布论文评选结果,阿里云自主研发的最新技术成果《RASD: Retrieval-Augmented Speculative Decoding》,被长文收录。该研究聚焦大语言模型(LLMs)的推理加速问题,提出了RASD技术,为大语言模型在复杂跨领域场景下的高效推理提供了全新的解决方案。
ACL评奖委员会:“RASD融合了基于检索与基于模型的投机采样技术,通过创新树修剪与树融合机制,优化草稿树的生成过程,在多种复杂任务和不同模型规模上均展现出了显著的加速效果,充分证明了其在实际应用中的价值,是大模型推理领域的又一关键突破。”
ACL是计算语言学和自然语言处理领域排名第一的国际顶级学术会议,由国际计算语言学协会组织,每年召开一次,汇聚全球顶尖的研究团队和学者,在中国计算机学会(CCF)推荐会议列表中被列为A类会议,今年将于2025年7月27日至8月1日在奥地利维也纳举办。
行业痛点:大模型推理加速的双重挑战
大语言模型参数规模已突破千亿量级,推理效率不可避免成为业内核心关注。当前主流的自回归生成范式,按序逐一生成token,其计算复杂度随序列长度呈指数级增长,导致解码速度较为缓慢。
此前,为突破这一限制,研究者们提出了投机采样(Speculative Sampling)方法,通过轻量级草稿模型(draft model)快速生成候选词序列(即草稿),由主模型参考验证,从而大幅降低计算负载,在保证生成质量的前提下,实现推理加速。然而,业务实际应用中,我们发现仍面临两大核心挑战:
- 跨领域适应性差
当前投机采样框架,主要依赖结构简单的轻量级草稿模型,其训练数据局限于通用语料库,当面对跨领域的复杂任务需求时,生成准确率会大幅下降。
- 草稿生成效率低
传统的草稿模型需进行多次前向传播以生成候选序列,生成精度随token数量增加呈指数衰减,耗时较长。且实验证明,此投机采样方法不仅会制约单次验证环节的吞吐量,同时在复杂任务中表现不稳定,对所输入的Prompt要求严苛。
技术突破:RASD三大创新机制
针对上述挑战,阿里云研发团队引入检索增强机制,以创新性的技术架构设计,在提高草稿接收率和解码效率的基础上,进一步突破了大语言模型在复杂跨域场景下的推理瓶颈。
草稿模型与检索相融合
RASD首创“草稿模型生成和检索生成”的高效融合机制,通过引入检索机制,显著提升了草稿模型生成候选序列的质量。对于草稿模型难以处理的域外数据集,RASD技术可综合提升投机采样速度与最大输出长度,增强其文本生成能力。
构建最优检索树结构
传统方法在生成预测内容时,会产生大量冗余计算。RASD通过深度解析草稿模型的概率分布特征,能自动识别并修剪掉低概率预测路径。同时,RASD采用最长前缀匹配算法,将草稿模型生成的树与检索树进行融合,在保留草稿模型生成优势的同时,充分利用了检索树的上下文信息,在应用层面实现了推理准确率与检索效率的双重突破。
在多项基准测试中,RASD均展现出显著优势:相较于PLD(提示查找解码)方法,RASD在DocQA、Summary、Code及In-Domain QA等复杂和跨领域任务中,其加速效率平均提升39.15%,对比EAGLE2(大语言模型高效推断算法)平均提升9.67%。
强大的可扩展性
RASD采用适配性架构设计,仅在草稿token的验证树层面进行融合优化,故而适配任何草稿模型架构,可无缝集成至层出不穷的各类投机采样方法,并在此基础上通过检索方案,进行整体性能增强。
应用落地:技术能力的价值验证
目前RASD已成功融入阿里云百炼专属版产品体系,并与AI Stack一体机实现深度结合,持续构建软硬一体的技术优势,在金融、电力、医疗、制造等多个行业领域创造价值。在RASD的支持下,基于百炼专属版AI Stack一体机,某高校科研场景部署了Deepseek-R1-671B-BF16模型的推理服务,平均输入长度达32k,相较社区最优方案,单机吞吐量提升82%,显著提升科研效率。
随着各行业向深度用云的方向加速迈进,阿里云将持续推动大模型训推效率的突破,为AI的广泛落地提供坚实支撑!