MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理

简介: 麻省理工学院韩松团队提出DuoAttention框架,旨在提高大型语言模型(LLM)处理长上下文的效率。该框架通过区分检索头和流式头,仅对检索头应用全键值缓存,减少内存消耗和计算时间,同时保持模型长上下文处理能力。实验结果显示,DuoAttention在多种模型架构上显著提升了推理效率,为LLM的实际应用提供了新可能。

在人工智能领域,大型语言模型(LLM)的部署和应用正变得日益广泛。然而,随着模型规模的扩大,尤其是在处理长上下文时,计算和内存需求也急剧增加。这一挑战在实际应用中尤为突出,因为长上下文的处理对于许多任务(如文档摘要、问答系统等)至关重要。为了解决这一问题,麻省理工学院(MIT)韩松团队提出了一种名为DuoAttention的创新框架,旨在提高长上下文LLM推理的效率。

在传统的LLM中,为了处理长上下文,需要缓存所有注意力头的键(Key)和值(Value)状态。然而,这种做法会消耗大量的内存资源。现有的键值缓存剪枝方法虽然在一定程度上减少了内存消耗,但往往会损害模型的长上下文处理能力,或者只能提供有限的效率提升。

韩松团队的研究表明,在处理长上下文时,只有一部分注意力头(称为检索头)需要对所有标记进行全注意力计算。而其他注意力头(称为流式头)则主要关注最近的标记和注意力汇点,不需要进行全注意力计算。基于这一发现,DuoAttention框架应运而生。

DuoAttention的核心思想是,只对检索头应用全键值缓存,而对流式头则使用轻量级的、固定长度的键值缓存。这种设计不仅减少了LLM在解码和预填充阶段的内存和延迟,还保持了模型的长上下文处理能力。

为了准确识别检索头,DuoAttention采用了一种基于优化的轻量级算法,该算法使用合成数据进行训练。通过这种方式,DuoAttention能够在不牺牲模型准确性的前提下,显著减少长上下文推理的内存消耗和计算时间。

在实验中,DuoAttention在多种模型架构(包括多头自注意力(MHA)和分组查询注意力(GQA))上进行了测试。结果表明,DuoAttention能够显著减少长上下文推理的内存消耗,最高可达2.55倍(MHA)和1.67倍(GQA)。同时,解码速度也得到了显著提升,最高可达2.18倍(MHA)和1.50倍(GQA)。此外,预填充速度也加快了,最高可达1.73倍(MHA)和1.63倍(GQA)。

值得注意的是,当与量化技术结合使用时,DuoAttention能够在单个A100 GPU上实现Llama-3-8B模型的解码,处理上下文长度高达330万个标记。这一成就不仅展示了DuoAttention的强大性能,也为长上下文LLM的部署和应用提供了新的可能。

从正面来看,DuoAttention的提出无疑为长上下文LLM的高效推理提供了一种全新的解决方案。其创新的设计理念和显著的性能提升,使得长上下文处理变得更加可行和高效。这对于推动LLM在实际应用中的普及和深入发展具有重要意义。

然而,从反面来看,DuoAttention的实现和应用也面临一些挑战。首先,准确识别检索头的算法需要进一步优化和验证,以确保其在各种场景下的鲁棒性和可靠性。其次,虽然DuoAttention在内存和计算效率上取得了显著提升,但对于某些特定任务或模型,可能仍需要进行额外的调优和适配。此外,随着LLM技术的不断发展,新的模型架构和算法可能会出现,DuoAttention需要不断更新和改进,以保持其竞争力和适用性。

论文链接:https://arxiv.org/abs/2410.10819

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
相关文章
|
3天前
|
存储 弹性计算 调度
基于Knative的LLM推理场景弹性伸缩方案
Knative的基于请求弹性配置与大语言模型(LLM)的推理场景高度契合。此外,它的资源降配特性可以显著帮助用户降低成本。本文详细介绍基于 Knative 的 LLM 推理场景弹性伸缩方案。
|
28天前
|
机器学习/深度学习 人工智能 算法
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
谷歌提出了一种名为Evolving Alignment via Asymmetric Self-Play(eva)的新RLHF框架,通过创造者和解决者交替优化,生成具有挑战性的提示,提高模型泛化能力、样本效率和对齐鲁棒性。实验结果显示,eva在多个基准上显著提升性能,展示了其创新性和有效性。然而,eva的实现较为复杂,且实际应用中的长期效果仍待验证。
46 5
|
13天前
|
人工智能 知识图谱 Docker
KAG:增强 LLM 的专业能力!蚂蚁集团推出专业领域知识增强框架,支持逻辑推理和多跳问答
KAG 是蚂蚁集团推出的专业领域知识服务框架,通过知识增强提升大型语言模型在特定领域的问答性能,支持逻辑推理和多跳事实问答,显著提升推理和问答的准确性和效率。
243 46
KAG:增强 LLM 的专业能力!蚂蚁集团推出专业领域知识增强框架,支持逻辑推理和多跳问答
|
4天前
|
并行计算 API 调度
加速大语言模型推理:NVIDIATensorRT-LLM更新
本次分享由NVIDIA亚太区资深总监李曦鹏主讲,聚焦于加速大语言模型推理的挑战与解决方案。内容涵盖大模型推理优化、性能提升策略及KVCash在用户请求处理中的应用。通过TensorRT-LLM的更新,NVIDIA提供了高性能推理引擎和多种优化技术,如KVCache优化、InflightBatching等,大幅提升了大模型的推理效率。此外,还介绍了与魔搭社区的合作,支持超过50个主流模型的一键部署,显著降低了使用门槛和成本。
|
1月前
|
开发框架 人工智能 安全
Promptic:轻量级 LLM 应用开发框架,提供完善的底层功能,使开发者更专注于构建上层功能
Promptic 是一个轻量级的 LLM 应用开发框架,支持通过一行代码切换不同的 LLM 服务提供商。它提供了类型安全的输出、流式支持、内置对话记忆、错误处理和重试等功能,帮助开发者专注于构建功能,而不是底层的复杂性。
79 6
Promptic:轻量级 LLM 应用开发框架,提供完善的底层功能,使开发者更专注于构建上层功能
|
27天前
|
JSON 人工智能 算法
探索大型语言模型LLM推理全阶段的JSON格式输出限制方法
本篇文章详细讨论了如何确保大型语言模型(LLMs)输出结构化的JSON格式,这对于提高数据处理的自动化程度和系统的互操作性至关重要。
|
1月前
|
机器学习/深度学习 存储 缓存
ORCA:基于持续批处理的LLM推理性能优化技术详解
大语言模型(LLMs)的批处理优化面临诸多挑战,尤其是由于推理过程的迭代性导致的资源利用不均问题。ORCA系统通过引入迭代级调度和选择性批处理技术,有效解决了这些问题,大幅提高了GPU资源利用率和系统吞吐量,相比FasterTransformer实现了最高37倍的性能提升。
169 26
|
5天前
|
机器学习/深度学习 人工智能 缓存
基于英特尔平台加速 AI 应用及 LLM 推理性能介绍|龙蜥大讲堂第115期
本文摘自龙蜥大讲堂英特尔 AI 软件工程师黄文欢的分享,主要包括以下三个方面的内容: 1. 第五代英特尔至强处理器 2. LLM 推理加速框架 xFast Transformer 及其优化策略 3. 性能数据及 Demo 展示
|
1月前
|
缓存 自然语言处理 API
Ascend推理组件MindIE LLM
MindIE LLM是基于昇腾硬件的大语言模型推理组件,提供高性能的多并发请求调度与优化技术,如Continuous Batching、PageAttention等,支持Python和C++ API,适用于高效能推理需求。其架构包括深度定制优化的模型模块、文本生成器和任务调度管理器,支持多种模型框架和量化方式,旨在提升大规模语言模型的推理效率和性能。
|
2月前
|
弹性计算 人工智能 Serverless
阿里云ACK One:注册集群云上节点池(CPU/GPU)自动弹性伸缩,助力企业业务高效扩展
在当今数字化时代,企业业务的快速增长对IT基础设施提出了更高要求。然而,传统IDC数据中心却在业务存在扩容慢、缩容难等问题。为此,阿里云推出ACK One注册集群架构,通过云上节点池(CPU/GPU)自动弹性伸缩等特性,为企业带来全新突破。

热门文章

最新文章