长上下文能取代RAG吗?

简介: 【10月更文挑战第28天】本文探讨了检索增强生成(RAG)和长上下文(LC)在大型语言模型(LLMs)中的应用。RAG通过检索外部信息扩展LLM的知识范围,而LC则直接处理长文本。研究发现,LC在性能上通常优于RAG,但在处理超过模型上下文窗口的文本时,RAG表现出优势。此外,RAG在成本上更具优势。基于此,作者提出了Self-Route方法,结合RAG和LC的优点,实现性能和成本的最佳平衡。

在大型语言模型(LLMs)中,检索增强生成(RAG)和长上下文(LC)是两种不同的方法,它们在处理大规模文本数据时各有优势。本文将探讨这两种方法的优缺点,并分析它们在实际应用中的适用性。

RAG是一种将外部知识与LLM相结合的方法。它通过检索与查询相关的信息,并将这些信息提供给LLM来生成响应。这种方法可以显著扩展LLM的知识范围,并提高其在各种任务中的表现。

LC则是指LLM能够直接理解和处理长文本的能力。一些最新的LLM,如Gemini-1.5和GPT-4,已经展示了出色的长上下文理解能力。这使得它们能够更有效地处理大规模文本数据,而不需要依赖外部检索。

在性能方面,LC通常比RAG更出色。这是因为LC能够直接理解和处理长文本,而不需要依赖外部检索。这使得它们能够更准确地捕捉文本中的信息,并生成更准确的响应。

例如,在一项对9个公共数据集的评估中,LC在所有三个最新的LLM(Gemini-1.5-Pro,GPT-4O和GPT-3.5-Turbo)上都表现出了更好的性能。平均而言,LC在Gemini-1.5-Pro上比RAG高出7.6%,在GPT-4O上高出13.1%,在GPT-3.5-Turbo上高出3.6%。

然而,RAG在处理超过模型上下文窗口大小的输入文本时具有优势。例如,在两个较长的数据集(En.QA和En.MC)上,RAG在GPT-3.5-Turbo上表现出了更高的性能。这可能是因为这些数据集的上下文长度超过了GPT-3.5-Turbo的上下文窗口大小(16k)。

在成本方面,RAG具有显著的优势。由于RAG只需要将检索到的文本块提供给LLM,而不需要提供整个上下文,因此它能够显著减少LLM的输入长度,从而降低成本。

例如,在一项实验中,使用RAG可以将Gemini-1.5-Pro的成本降低65%,将GPT-4O的成本降低39%。这对于需要处理大规模文本数据的实际应用来说是一个重要的优势。

基于RAG和LC的优缺点,作者提出了一种名为Self-Route的方法。该方法利用LLM的自我反思能力来动态地将查询路由到RAG或LC,以实现性能和成本之间的最佳平衡。

Self-Route方法包括两个步骤:RAG-and-Route步骤和长上下文预测步骤。在RAG-and-Route步骤中,LLM被要求预测查询是否可回答,并生成答案。如果查询不可回答,则进入长上下文预测步骤,将整个上下文提供给LC来生成最终的预测。

通过这种方式,Self-Route方法能够利用RAG的成本优势和LC的性能优势,从而在实际应用中实现更好的性能和成本平衡。

论文地址:https://www.arxiv.org/pdf/2407.16833

目录
相关文章
|
1月前
|
人工智能 API 调度
大语言模型 LLM 管理功能特点解析
大语言模型领域正快速发展,涵盖技术革新、跨领域应用及行业影响。随着技术进步,更多创新性AI应用和服务涌现。Botnow加速迭代AI应用开发平台,赋能各行各业。新发布的模型管理功能包括模型仓库和模型服务,支持模型文件托管、部署及推理服务,提升使用效率,降低成本。模型服务具备本地推理和接入外部模型的能力,满足中大型企业对大语言模型自主可控的需求。
|
2月前
|
存储 机器学习/深度学习 缓存
MemLong: 基于记忆增强检索的长文本LLM生成方法
本文介绍了一种名为MemLong的创新长文本处理方法,该方法通过整合外部检索器显著增强了大型语言模型处理长上下文的能力。MemLong采用轻量级设计,利用不可训练的外部记忆库存储历史上下文和知识,并通过检索相关的块级键值对增强模型输入。其技术优势包括分布一致性、高效训练策略及扩展的上下文窗口,能够在单个GPU上处理长达80k个token的文本,同时保持计算效率和内存控制。实验结果显示,MemLong在多个长文本基准数据集上表现出色,显著提升了语言建模能力和上下文学习效果。
190 1
|
3月前
|
自然语言处理 知识图谱
|
3月前
|
自然语言处理 机器人 API
Instruct2Act:使用大型语言模型将多模态指令映射到机器人动作
Instruct2Act是一个框架,它结合了大型语言模型和多模态基础模型,将自然语言和视觉指令转换为机器人的顺序动作,实现精确的感知、规划和行动,展示了强大的零样本性能和灵活性。
46 0
Instruct2Act:使用大型语言模型将多模态指令映射到机器人动作
|
4月前
|
存储 人工智能 算法
记录阿里云ai助手的上下文语境问题
【7月更文挑战第17天】本文介绍尝试用阿里云AI助手找两字符串的最长公共子串,提供的Go代码因缺失完整返回值而无法编译,未能解决问题。整个过程显示AI理解与响应不够准确连贯。
71 1
记录阿里云ai助手的上下文语境问题
|
4月前
|
SQL 缓存 测试技术
DeepMind的新论文,长上下文的大语言模型能否取代RAG或者SQL这样的传统技术呢?
DeepMind的LOFT基准测试挑战了长上下文大型语言模型(LCLLMs)的效用,包括Gemini、GPT-4o和Claude 3 Opus。
83 1
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
揭秘In-Context Learning(ICL):大型语言模型如何通过上下文学习实现少样本高效推理[示例设计、ICL机制详解]
|
6月前
|
机器学习/深度学习 自然语言处理
【大模型】如何处理微调LLM来编写创意内容?
【5月更文挑战第7天】【大模型】如何处理微调LLM来编写创意内容?
|
6月前
|
自然语言处理
LLM上下文窗口突破200万!无需架构变化+复杂微调,轻松扩展8倍
【5月更文挑战第12天】LongRoPE研究突破LLM上下文窗口限制,无需架构变更和复杂微调,实现8倍扩展至2048万个token。该方法利用位置嵌入非均匀性,通过高效搜索和优化初始化,适用于处理长文本任务,对模型性能影响小。但可能需要较多计算资源,且2048万的长度是否足够所有任务尚待探讨。[论文链接](https://arxiv.org/abs/2402.13753)
166 1
|
6月前
|
机器学习/深度学习 自然语言处理 搜索推荐
【大模型】LLM与传统聊天机器人的区别是什么?
【5月更文挑战第4天】【大模型】LLM与传统聊天机器人的区别是什么?