谷歌推出AGREE,增强大模型生成回答准确性

简介: 【6月更文挑战第19天】谷歌的AGREE技术针对大语言模型(LLMs)的“幻想”回答问题,通过自我接地和引用事实来源提升回答准确性。在多个数据集和模型上的测试显示,AGREE增强了回答和引用的准确性,但无法完全消除错误,且需大量计算资源,还可能涉及隐私和安全问题。[[1](https://arxiv.org/abs/2311.09533)]

谷歌最近推出了一项名为AGREE(Adaptation for GRounding EnhancEment,即基于调整的增强型接地)的新技术,旨在提高大型语言模型(LLMs)生成的回答的准确性。这项技术的主要目标是解决LLMs在实际应用中面临的一个主要问题:它们可能会生成与事实不符的“幻想”回答。

LLMs在自然语言理解和生成方面取得了显著的进展,但它们的广泛应用仍面临一些挑战。其中之一是它们生成的回答可能没有准确的事实依据,这被称为“幻想”问题。这个问题可能会导致用户对LLMs的信任度下降,从而限制了它们的实际应用。

为了解决这个问题,谷歌提出了AGREE技术。该技术旨在通过将LLMs的回答与检索到的段落进行接地,并提供准确的引用,来提高LLMs的准确性。具体来说,AGREE技术通过调整预训练的LLMs,使它们能够自我接地,即在回答中引用支持其主张的准确来源。

AGREE技术的核心思想是,通过将LLMs的回答与准确的事实来源进行接地,可以提高回答的准确性。这可以通过两种方式实现:首先,在训练过程中,AGREE技术使用一种方法来自动构建带有准确引用的查询-回答对,以进行监督学习。然后,在测试过程中,调整后的LLMs能够主动检索支持其主张的段落,以进一步提高回答的准确性。

根据谷歌的研究,AGREE技术在五个数据集和两个LLMs上进行了测试,结果显示,与基于提示的方法和事后引用的方法相比,AGREE技术生成的接地回答更准确,引用也更准确。这表明AGREE技术有望成为提高LLMs准确性的一种有效方法。

然而,AGREE技术也面临一些挑战和限制。首先,虽然AGREE技术可以提高LLMs回答的准确性,但并不能完全消除“幻想”问题。这可能是因为LLMs的训练数据中仍然存在不准确或有偏见的信息,这些信息可能会影响到LLMs的回答。

其次,AGREE技术需要大量的计算资源和时间来进行调整和训练。这可能会限制其在资源有限的环境中的应用,例如在移动设备或边缘计算设备上。

此外,AGREE技术还可能面临隐私和安全方面的挑战。由于AGREE技术需要检索和引用外部来源的信息,因此可能会涉及对个人或敏感信息的泄露。

论文地址:https://arxiv.org/abs/2311.09533

目录
相关文章
|
9月前
|
人工智能 vr&ar 图形学
开源单图生成3D模型TripoSR的局限性分析
【2月更文挑战第25天】开源单图生成3D模型TripoSR的局限性分析
376 6
开源单图生成3D模型TripoSR的局限性分析
|
9月前
|
人工智能 自然语言处理 算法
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620
128 1
|
1月前
|
人工智能 JSON API
LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力
LongDocURL 是由中科院与淘天集团联合推出的多模态长文档理解基准数据集,涵盖 2,325 个问答对,支持复杂文档的理解、推理和定位任务。
185 77
LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力
|
4天前
|
机器学习/深度学习 存储 人工智能
Satori:快速体验MIT与哈佛推出7B参数的推理专家模型,具备自回归搜索和自我纠错能力
Satori 是由 MIT 和哈佛大学等机构联合推出的 7B 参数大型语言模型,专注于提升推理能力,具备强大的自回归搜索和自我纠错功能。
22 5
|
23天前
|
人工智能 JSON 数据可视化
集成500+多模态现实任务!全新MEGA-Bench评测套件:CoT对开源模型反而有害?
多模态模型在处理图像、文本、音频等数据方面能力不断提升,但其性能评估一直是个挑战。为此,研究团队推出了MEGA-Bench评测套件,集成505个现实任务,涵盖广泛领域和数据类型,由16位专家标注。它采用灵活输出格式,提供多维度评估指标,并配有交互式可视化工具,为模型优化提供了重要支持。然而,评估过程复杂且耗时,COT方法对开源模型性能的影响也值得探讨。论文链接:https://arxiv.org/abs/2410.10563
56 29
|
24天前
|
人工智能 自然语言处理 测试技术
WebWalker:阿里巴巴推出评估LLMs在网页浏览任务中性能的基准工具
WebWalker是阿里巴巴开发的用于评估大型语言模型在网页浏览任务中性能的工具,支持多智能体框架和垂直探索策略,提供WebWalkerQA数据集进行性能测试。
74 1
WebWalker:阿里巴巴推出评估LLMs在网页浏览任务中性能的基准工具
|
30天前
|
人工智能 PyTorch TensorFlow
MindIE+MindFormers推理方案指导
本文介绍了昇腾大模型推理解决方案MindIE+MindFormers.
MindIE+MindFormers推理方案指导
|
2月前
|
人工智能 安全 测试技术
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
EXAONE 3.5 是 LG AI 研究院推出的开源 AI 模型,擅长长文本处理,能够有效降低模型幻觉问题。该模型提供 24 亿、78 亿和 320 亿参数的三个版本,支持多步推理和检索增强生成技术,适用于多种应用场景。
113 9
EXAONE 3.5:LG 推出的开源 AI 模型,采用 RAG 和多步推理能力降低模型的幻觉问题
|
3月前
|
人工智能 自然语言处理 数据挖掘
RAG 系统高效检索提升秘籍:如何精准选择 BGE 智源、GTE 阿里与 Jina 等的嵌入与精排模型的完美搭配
RAG 系统高效检索提升秘籍:如何精准选择 BGE 智源、GTE 阿里与 Jina 等的嵌入与精排模型的完美搭配
RAG 系统高效检索提升秘籍:如何精准选择 BGE 智源、GTE 阿里与 Jina 等的嵌入与精排模型的完美搭配
|
3月前
|
机器学习/深度学习 数据采集 数据处理
谷歌提出视觉记忆方法,让大模型训练数据更灵活
谷歌研究人员提出了一种名为“视觉记忆”的方法,结合了深度神经网络的表示能力和数据库的灵活性。该方法将图像分类任务分为图像相似性和搜索两部分,支持灵活添加和删除数据、可解释的决策机制以及大规模数据处理能力。实验结果显示,该方法在多个数据集上取得了优异的性能,如在ImageNet上实现88.5%的top-1准确率。尽管有依赖预训练模型等限制,但视觉记忆为深度学习提供了新的思路。
56 2