长上下文能取代RAG吗?

简介: 【10月更文挑战第28天】本文探讨了检索增强生成(RAG)和长上下文(LC)在大型语言模型(LLMs)中的应用。RAG通过检索外部信息扩展LLM的知识范围,而LC则直接处理长文本。研究发现,LC在性能上通常优于RAG,但在处理超过模型上下文窗口的文本时,RAG表现出优势。此外,RAG在成本上更具优势。基于此,作者提出了Self-Route方法,结合RAG和LC的优点,实现性能和成本的最佳平衡。

在大型语言模型(LLMs)中,检索增强生成(RAG)和长上下文(LC)是两种不同的方法,它们在处理大规模文本数据时各有优势。本文将探讨这两种方法的优缺点,并分析它们在实际应用中的适用性。

RAG是一种将外部知识与LLM相结合的方法。它通过检索与查询相关的信息,并将这些信息提供给LLM来生成响应。这种方法可以显著扩展LLM的知识范围,并提高其在各种任务中的表现。

LC则是指LLM能够直接理解和处理长文本的能力。一些最新的LLM,如Gemini-1.5和GPT-4,已经展示了出色的长上下文理解能力。这使得它们能够更有效地处理大规模文本数据,而不需要依赖外部检索。

在性能方面,LC通常比RAG更出色。这是因为LC能够直接理解和处理长文本,而不需要依赖外部检索。这使得它们能够更准确地捕捉文本中的信息,并生成更准确的响应。

例如,在一项对9个公共数据集的评估中,LC在所有三个最新的LLM(Gemini-1.5-Pro,GPT-4O和GPT-3.5-Turbo)上都表现出了更好的性能。平均而言,LC在Gemini-1.5-Pro上比RAG高出7.6%,在GPT-4O上高出13.1%,在GPT-3.5-Turbo上高出3.6%。

然而,RAG在处理超过模型上下文窗口大小的输入文本时具有优势。例如,在两个较长的数据集(En.QA和En.MC)上,RAG在GPT-3.5-Turbo上表现出了更高的性能。这可能是因为这些数据集的上下文长度超过了GPT-3.5-Turbo的上下文窗口大小(16k)。

在成本方面,RAG具有显著的优势。由于RAG只需要将检索到的文本块提供给LLM,而不需要提供整个上下文,因此它能够显著减少LLM的输入长度,从而降低成本。

例如,在一项实验中,使用RAG可以将Gemini-1.5-Pro的成本降低65%,将GPT-4O的成本降低39%。这对于需要处理大规模文本数据的实际应用来说是一个重要的优势。

基于RAG和LC的优缺点,作者提出了一种名为Self-Route的方法。该方法利用LLM的自我反思能力来动态地将查询路由到RAG或LC,以实现性能和成本之间的最佳平衡。

Self-Route方法包括两个步骤:RAG-and-Route步骤和长上下文预测步骤。在RAG-and-Route步骤中,LLM被要求预测查询是否可回答,并生成答案。如果查询不可回答,则进入长上下文预测步骤,将整个上下文提供给LC来生成最终的预测。

通过这种方式,Self-Route方法能够利用RAG的成本优势和LC的性能优势,从而在实际应用中实现更好的性能和成本平衡。

论文地址:https://www.arxiv.org/pdf/2407.16833

目录
相关文章
|
7月前
|
人工智能 自然语言处理 机器人
“大型语言模型”和“LLM”这些术语将变得不那么常见
【1月更文挑战第7天】“大型语言模型”和“LLM”这些术语将变得不那么常见
102 1
“大型语言模型”和“LLM”这些术语将变得不那么常见
|
20天前
|
人工智能 测试技术 计算机视觉
LongLLaVA:香港中文大学推出的多模态上下文混合架构大语言模型
LongLLaVA是由香港中文大学推出的多模态大型语言模型,采用混合架构,结合Mamba和Transformer模块,旨在高效处理大量图像数据。该模型能够在单个A100 80GB GPU上处理多达1000张图像,通过2D池化技术压缩图像token,显著降低计算成本,同时保留关键的空间关系信息。LongLLaVA在视频理解、高分辨率图像分析和多模态代理等应用场景中展现出卓越的性能。
43 5
LongLLaVA:香港中文大学推出的多模态上下文混合架构大语言模型
|
16天前
|
缓存 算法 关系型数据库
MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理
麻省理工学院韩松团队提出DuoAttention框架,旨在提高大型语言模型(LLM)处理长上下文的效率。该框架通过区分检索头和流式头,仅对检索头应用全键值缓存,减少内存消耗和计算时间,同时保持模型长上下文处理能力。实验结果显示,DuoAttention在多种模型架构上显著提升了推理效率,为LLM的实际应用提供了新可能。
43 14
|
1月前
|
存储 边缘计算 自然语言处理
25 个值得关注的检索增强生成 (RAG) 模型和框架
大型语言模型(LLM)如GPT-4在自然语言处理(NLP)领域展现了卓越能力,但也存在知识截止、静态知识库和内存限制等局限。检索增强生成(RAG)通过集成检索机制,允许LLM动态访问和整合外部数据源,提高了生成响应的准确性、相关性和时效性。本文深入探讨了25种先进的RAG变体,每种变体都旨在优化检索和生成过程的特定方面,涵盖成本限制、实时交互和多模态数据集成等问题,展示了RAG在提升NLP能力方面的多功能性和潜力。
67 4
25 个值得关注的检索增强生成 (RAG) 模型和框架
|
2月前
|
人工智能 自然语言处理 运维
前端大模型应用笔记(一):两个指令反过来说大模型就理解不了啦?或许该让第三者插足啦 -通过引入中间LLM预处理用户输入以提高多任务处理能力
本文探讨了在多任务处理场景下,自然语言指令解析的困境及解决方案。通过增加一个LLM解析层,将复杂的指令拆解为多个明确的步骤,明确操作类型与对象识别,处理任务依赖关系,并将自然语言转化为具体的工具命令,从而提高指令解析的准确性和执行效率。
|
2月前
|
人工智能 API 调度
大语言模型 LLM 管理功能特点解析
大语言模型领域正快速发展,涵盖技术革新、跨领域应用及行业影响。随着技术进步,更多创新性AI应用和服务涌现。Botnow加速迭代AI应用开发平台,赋能各行各业。新发布的模型管理功能包括模型仓库和模型服务,支持模型文件托管、部署及推理服务,提升使用效率,降低成本。模型服务具备本地推理和接入外部模型的能力,满足中大型企业对大语言模型自主可控的需求。
|
3月前
|
存储 机器学习/深度学习 缓存
MemLong: 基于记忆增强检索的长文本LLM生成方法
本文介绍了一种名为MemLong的创新长文本处理方法,该方法通过整合外部检索器显著增强了大型语言模型处理长上下文的能力。MemLong采用轻量级设计,利用不可训练的外部记忆库存储历史上下文和知识,并通过检索相关的块级键值对增强模型输入。其技术优势包括分布一致性、高效训练策略及扩展的上下文窗口,能够在单个GPU上处理长达80k个token的文本,同时保持计算效率和内存控制。实验结果显示,MemLong在多个长文本基准数据集上表现出色,显著提升了语言建模能力和上下文学习效果。
310 1
|
4月前
|
自然语言处理 知识图谱
|
4月前
|
自然语言处理 机器人 API
Instruct2Act:使用大型语言模型将多模态指令映射到机器人动作
Instruct2Act是一个框架,它结合了大型语言模型和多模态基础模型,将自然语言和视觉指令转换为机器人的顺序动作,实现精确的感知、规划和行动,展示了强大的零样本性能和灵活性。
62 0
Instruct2Act:使用大型语言模型将多模态指令映射到机器人动作
|
5月前
|
SQL 缓存 测试技术
DeepMind的新论文,长上下文的大语言模型能否取代RAG或者SQL这样的传统技术呢?
DeepMind的LOFT基准测试挑战了长上下文大型语言模型(LCLLMs)的效用,包括Gemini、GPT-4o和Claude 3 Opus。
91 1

热门文章

最新文章