【ACL2024】基于长尾检索知识增强的大语言模型

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 近日,阿里云人工智能平台PAI与阿里集团安全部内容安全算法团队、华东师范大学何晓丰教授团队合作,在自然语言处理顶级会议ACL2024上发表论文《On the Role of Long-tail Knowledge in Retrieval Augmented Large Language Models》,论文主题为长尾知识检索增强的大语言模型。通过将问题识别为普通可回答和长尾两种性质,让大模型针对性的对长尾问题进行检索文档增强。对于普通可回答的用户提问可以直接通过大模型回答,而不需要进行文档检索增强,从而能增强大模型处理不同类型用户提问的效率。

近日,阿里云人工智能平台PAI与阿里集团安全部内容安全算法团队、华东师范大学何晓丰教授团队合作,在自然语言处理顶级会议ACL2024上发表论文《On the Role of Long-tail Knowledge in Retrieval Augmented Large Language Models》,论文主题为长尾知识检索增强的大语言模型。通过将问题识别为普通可回答和长尾两种性质,让大模型针对性的对长尾问题进行检索文档增强。对于普通可回答的用户提问可以直接通过大模型回答,而不需要进行文档检索增强,从而能增强大模型处理不同类型用户提问的效率。


背景

尽管大型语言模型展现了卓越的性能,在应对诸如产生幻象、依赖陈旧信息及进行不透明且难以追溯的推理过程等难题时仍面临挑战。作为应对这些局限性的新兴策略,检索增强生成(RAG)技术通过融入外部知识数据库,显著增强了模型在处理知识要求高的任务时的精确度与可靠性,确保了知识的及时更新与特定领域信息的融合。RAG体系本质上结合了大型预训练语言模型的内在知识与大规模动态外部数据资源,其核心包括三个步骤:Retrieval、Augmentation和Generation。这一机制利用外部知识库检索最新信息,以此“增强”模型能力,进而生成更为精准的答案,通过在生成内容前查询并整合外部来源信息以构造更加全面的输入提示,极大提升了生成结果的准确度与关联性。然而,当前RAG方法只专注于通过不加区别地使用检索到的信息增强查询来提高LLM的响应质量,而很少关注LLM真正需要什么类型的知识才能更准确地回答原始查询。 image.png

大模型查询中不同知识类型对提升性能和效率的影响为了进一步解决RAG在LLM回答时遇到的回答效率和检索知识源的问题,提出对问题查询类型进行识别算法来提升LLM推理的效率是必要的。我们将大模型提问所需知识进行了分类,包含了长尾知识,普通知识和两者都有的知识。将该查询输入到大模型中进行区分,发现对于大模型来说,其实不需要将所有对应的知识都召回,只需要对已有的长尾Query部分进行知识召回增强大模型理解能力即可,大模型的性能和处理查询的效率也会快很多。


算法概述

长尾检测指标ECE

之前传统的工作依赖文本频率来判断实例是否长尾。因此,低频文本往往被归类为长尾类。对于LLM来说,计算以前未知用户查询的文本频率难度较大。预期校准误差(ECE)为测量“长尾”提供了新的视角。ECE测量模型的估计概率与真实(观测)概率的匹配程度。在ECE的计算中,将每个样例的置信度分配到一个特定的区间内,由模型的预测概率得到。准确度由预测标签与实际标签真值的比较确定。每个样本的置信度和准确度之间的绝对差值表示校准度。整个数据集的期望校准度表明了模型的可靠性。形式上,ECE可表述为:

image.png

其中i表示第i个bin,N为数据集的样例总数,acc(b_i) 和conf(b_i)表示bin的准确度和置信度,n{b_i}为bin的实例数,B为区间[0,1]内的bin数。在我们的模型中,由于ECE是计算机视觉领域针对长尾判断提出的,我们将ECE扩展到自然语言处理领域,特别是LLM文本生成场景。

基于度量的长尾检测

我们用MENTOR和平均预测概率对传统的ECE公式进行了转换:

  • ECE的准确性是衡量预测与标准答案之间的一致性。在生成场景中,我们使用METEOR来衡量预测候选和标准答案之间的一致性和相关性。
  • ECE的置信度是模型本身产生的预测概率。同样,我们使用LLMs输出的平均token概率。

此外,为了增强长尾检测的度量能力,我们进一步集成了以下两个因素,有助于我们进一步分离常见sample和长尾sample之间的关系:

  • 平均词频,因为词频是长尾文本的基本指标。
  • 利用总数据集的平均梯度和特定sample梯度之间的点积来评估差异。该操作是因为长尾实例的梯度与整个数据集的平均梯度相差很大,反之亦然。

从上述算法分析,我们得出GECE指标如下:

image.png

其中pred和ref分别表示生成的文本和引用的基本事实。M(pred,ref)是METEOR得分,p(t_i)表示由LLM产生的第i个token的概率,n是token序列长度。对于分母部分,α是平均词频。我们可以看到,长尾实例的α值较小,因此其倒数将较大。较大的GECE值意味着更高的长尾识别准确度。例如,我们将GECE应用于NQ数据集“谁被评为2014年度非洲足球先生”的查询,值为34.6。而对于长尾、更专业的NQ查询“谁在歌剧魅影中扮演过拉乌尔”,GECE值为112.7。

RAG Pipeline扩展

作为对普通RAG pipeline的扩展,我们只从数据源检索与长尾查询相关的文档,而不考虑通用sample。检索过程由密集检索器实现,以检索相关的WikiPedia文档。对于长尾实例,我们将与调用的相关文档连接的查询输入LLMs以获得答案。对于通用sample,我们只将查询本身输入到LLMs。


算法评测

为了更好的评估基于该长尾数据识别增强的RAG方法,我们选取了多个知识覆盖场景的公开数据集进行评测,模型效果如下图所示,同时,我们对GECE只针对长尾实体进行识别进行了充分的时间效率评估,效果如下。

image.png

image.png

我们发现在相关baseline算法基础上,加入GECE扩展模块不仅仅提高了在各个知识密集型数据集上的效果,同时由于过滤掉一些涉及通用知识的Query,模型执行数据的速度也随之提高。

参考文献

  • Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil, and Hannaneh Hajishirzi. 2023. Self-rag: Learning to retrieve, generate, and critique through self-reflection. CoRR, abs/2310.11511
  • Satanjeev Banerjee and Alon Lavie. 2005. METEOR: an automatic metric for MT evaluation with improved correlation with human judgments. In ACL, pages 65–72.
  • Zhangyin Feng, Xiaocheng Feng, Dezhi Zhao, Maojin Yang, and Bing Qin. 2023. Retrieval-generation synergy augmented large language models. CoRR, abs/2310.05149.
  • Gautier Izacard, Patrick S. H. Lewis, Maria Lomeli, Lucas Hosseini, Fabio Petroni, Timo Schick, Jane Dwivedi-Yu, Armand Joulin, Sebastian Riedel, and Edouard Grave. 2023. Atlas: Few-shot learning with retrieval augmented language models. J. Mach. Learn. Res., pages 251:1–251:43.
  • Nikhil Kandpal, Haikang Deng, Adam Roberts, Eric Wallace, and Colin Raffel. 2023. Large language models struggle to learn long-tail knowledge. In ICML, pages 15696–15707.

论文信息

论文名字:On the Role of Long-tail Knowledge in Retrieval Augmented Large Language Models

论文作者:李东阳,严俊冰,张涛林,汪诚愚,何晓丰,黄龙涛,薛晖,黄俊

论文pdf链接:https://arxiv.org/pdf/2406.16367


阿里云人工智能平台PAI长期招聘研究实习生。团队专注于深度学习算法研究与应用,重点聚焦大语言模型和多模态AIGC大模型的应用算法研究和应用。简历投递和咨询:chengyu.wcy@alibaba-inc.com

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
1天前
|
存储 人工智能 自然语言处理
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
高级 RAG 技术:提升生成式 AI 系统输出质量与性能鲁棒性【预检索、检索、检索后、生成优化等】
|
6天前
|
数据采集 自然语言处理 UED
文档智能和检索增强生成(RAG)技术
文档智能和检索增强生成(RAG)技术
|
16天前
LangChain-05 RAG Conversational 增强检索会话
LangChain-05 RAG Conversational 增强检索会话
15 2
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
[大语言模型-论文精读] ACL2024-长尾知识在检索增强型大型语言模型中的作用
[大语言模型-论文精读] ACL2024-长尾知识在检索增强型大型语言模型中的作用
18 0
|
1月前
|
存储 人工智能 搜索推荐
RAG系统的7个检索指标:信息检索任务准确性评估指南
大型语言模型(LLMs)在生成式AI领域备受关注,但其知识局限性和幻觉问题仍具挑战。检索增强生成(RAG)通过引入外部知识和上下文,有效解决了这些问题,并成为2024年最具影响力的AI技术之一。RAG评估需超越简单的实现方式,建立有效的性能度量标准。本文重点讨论了七个核心检索指标,包括准确率、精确率、召回率、F1分数、平均倒数排名(MRR)、平均精确率均值(MAP)和归一化折损累积增益(nDCG),为评估和优化RAG系统提供了重要依据。这些指标不仅在RAG中发挥作用,还广泛应用于搜索引擎、电子商务、推荐系统等领域。
357 1
RAG系统的7个检索指标:信息检索任务准确性评估指南
|
1月前
|
存储 机器学习/深度学习 缓存
MemLong: 基于记忆增强检索的长文本LLM生成方法
本文介绍了一种名为MemLong的创新长文本处理方法,该方法通过整合外部检索器显著增强了大型语言模型处理长上下文的能力。MemLong采用轻量级设计,利用不可训练的外部记忆库存储历史上下文和知识,并通过检索相关的块级键值对增强模型输入。其技术优势包括分布一致性、高效训练策略及扩展的上下文窗口,能够在单个GPU上处理长达80k个token的文本,同时保持计算效率和内存控制。实验结果显示,MemLong在多个长文本基准数据集上表现出色,显著提升了语言建模能力和上下文学习效果。
86 1
|
2月前
|
存储 人工智能 自然语言处理
知识库优化增强,支持多种数据类型、多种检索策略、召回测试 | Botnow上新
Botnow近期对其知识库功能进行了全面升级,显著提升了数据处理能力、检索效率及准确性。新版本支持多样化的数据格式,包括PDF、Word、TXT、Excel和CSV等文件,无需额外转换即可直接导入,极大地丰富了知识来源。此外,还新增了细致的文本分片管理和编辑功能,以及表格数据的结构化处理,使知识管理更为精细化。 同时,平台提供了多种检索策略,包括混合检索、语义检索和全文检索等,可根据具体需求灵活选择,有效解决了大模型幻觉问题,增强了专业领域的知识覆盖,从而显著提高了回复的准确性。这些改进广泛适用于客服咨询、知识问答等多种应用场景,极大提升了用户体验和交互质量。
65 4
|
2月前
|
存储 自然语言处理 C#
SemanticKernel/C#:检索增强生成(RAG)简易实践
SemanticKernel/C#:检索增强生成(RAG)简易实践
71 0
|
3月前
|
机器学习/深度学习 存储 人工智能
ACL 2024|D2LLM:将Causal LLM改造成向量搜索模型的黑科技
D2LLM:一种针对语义搜索任务的新颖方法,它结合了大语言模型(LLM)的准确性与双编码器的高效性。实验表明,D2LLM在多项任务上的性能超越了五个领先基准模型,尤其是在自然语言推理任务中,相对于最佳基准模型的提升达到了6.45%
89 1
|
4月前
|
存储 缓存 API
Modelscope-Agent 增强RAG能力:(一)多策略召回、多模态召回
Modelscope-Agent是魔搭GPTs 开源的实现方案的底层框架,基于chatbot允许用户通过聊天、直接配置的方式进行agent的定制生成,可以允许用户使用自定义知识库以及接入多工具的能力。