谷歌推出AGREE,增强大模型生成回答准确性

简介: 【6月更文挑战第19天】谷歌的AGREE技术针对大语言模型(LLMs)的“幻想”回答问题,通过自我接地和引用事实来源提升回答准确性。在多个数据集和模型上的测试显示,AGREE增强了回答和引用的准确性,但无法完全消除错误,且需大量计算资源,还可能涉及隐私和安全问题。[[1](https://arxiv.org/abs/2311.09533)]

谷歌最近推出了一项名为AGREE(Adaptation for GRounding EnhancEment,即基于调整的增强型接地)的新技术,旨在提高大型语言模型(LLMs)生成的回答的准确性。这项技术的主要目标是解决LLMs在实际应用中面临的一个主要问题:它们可能会生成与事实不符的“幻想”回答。

LLMs在自然语言理解和生成方面取得了显著的进展,但它们的广泛应用仍面临一些挑战。其中之一是它们生成的回答可能没有准确的事实依据,这被称为“幻想”问题。这个问题可能会导致用户对LLMs的信任度下降,从而限制了它们的实际应用。

为了解决这个问题,谷歌提出了AGREE技术。该技术旨在通过将LLMs的回答与检索到的段落进行接地,并提供准确的引用,来提高LLMs的准确性。具体来说,AGREE技术通过调整预训练的LLMs,使它们能够自我接地,即在回答中引用支持其主张的准确来源。

AGREE技术的核心思想是,通过将LLMs的回答与准确的事实来源进行接地,可以提高回答的准确性。这可以通过两种方式实现:首先,在训练过程中,AGREE技术使用一种方法来自动构建带有准确引用的查询-回答对,以进行监督学习。然后,在测试过程中,调整后的LLMs能够主动检索支持其主张的段落,以进一步提高回答的准确性。

根据谷歌的研究,AGREE技术在五个数据集和两个LLMs上进行了测试,结果显示,与基于提示的方法和事后引用的方法相比,AGREE技术生成的接地回答更准确,引用也更准确。这表明AGREE技术有望成为提高LLMs准确性的一种有效方法。

然而,AGREE技术也面临一些挑战和限制。首先,虽然AGREE技术可以提高LLMs回答的准确性,但并不能完全消除“幻想”问题。这可能是因为LLMs的训练数据中仍然存在不准确或有偏见的信息,这些信息可能会影响到LLMs的回答。

其次,AGREE技术需要大量的计算资源和时间来进行调整和训练。这可能会限制其在资源有限的环境中的应用,例如在移动设备或边缘计算设备上。

此外,AGREE技术还可能面临隐私和安全方面的挑战。由于AGREE技术需要检索和引用外部来源的信息,因此可能会涉及对个人或敏感信息的泄露。

论文地址:https://arxiv.org/abs/2311.09533

目录
相关文章
|
6月前
|
人工智能 自然语言处理 算法
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620
91 1
|
6月前
|
人工智能 机器人 计算机视觉
微软最新 Sora 分析论文,从中可以看到 Sora 哪些典型的应用场景?
【2月更文挑战第14天】微软最新 Sora 分析论文,从中可以看到 Sora 哪些典型的应用场景?
128 6
微软最新 Sora 分析论文,从中可以看到 Sora 哪些典型的应用场景?
|
23天前
|
编解码 人工智能 并行计算
阿里妈妈技术开源FLUX图像修复&蒸馏加速模型
本文介绍了阿里妈妈技术团队基于FLUX开发的Controlnet修复模型和蒸馏加速模型,填补了社区空白并提升了FLUX的实用性和效率。
|
3月前
|
算法 语音技术
支付宝商业化广告算法问题之在ODL模型优化过程中,采取什么策略来提高模型的泛化能力呢
支付宝商业化广告算法问题之在ODL模型优化过程中,采取什么策略来提高模型的泛化能力呢
|
3月前
|
存储 机器学习/深度学习 人工智能
通义语音AI技术问题之传统的VAD模型的局限性定义如何解决
通义语音AI技术问题之传统的VAD模型的局限性定义如何解决
27 0
|
3月前
|
机器学习/深度学习 人工智能
通义语音AI技术问题之频率偏差问题如何解决
通义语音AI技术问题之频率偏差问题如何解决
28 0
|
5月前
|
机器学习/深度学习 人工智能 算法
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
【6月更文挑战第4天】普林斯顿大学陈丹琦团队推出SimPO,一种超越DPO的强化学习优化算法,旨在优化大型语言模型以符合人类价值观。SimPO通过序列平均对数概率作为奖励,提高计算效率并减少对参考模型的依赖。在多基准测试中,SimPO表现优秀,尤其在AlpacaEval 2和Arena-Hard上大幅超越现有方法。团队还基于Llama3-8B-Instruct创建了最强8B开源模型,推动AI技术发展。尽管存在超参数敏感性等挑战,SimPO仍为AI优化提供新途径。[论文链接](https://arxiv.org/pdf/2405.14734)
75 1
|
6月前
|
机器学习/深度学习 人工智能 算法
仅靠开源数据复刻出LLaMA3指令学习效果,在线迭代RLHF全流程解决方案来了
【5月更文挑战第27天】在线迭代RLHF方案使用开源数据复现LLaMA3指令学习效果,提供了一种动态收集和更新模型的新方法,提升大型语言模型的性能。通过代理偏好模型模拟人类反馈,降低训练成本,促进技术民主化。虽然面临数据利用、探索与利用平衡等挑战,且需解决长尾分布数据处理问题,该方案已在多基准测试中展现优秀性能,为LLM训练提供高效途径。论文链接:https://arxiv.org/pdf/2405.07863
60 1
|
6月前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
90 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
OpenAI 全新发布文生视频模型 Sora,功能有多强大?将带来哪些影响?
OpenAI 全新发布文生视频模型 Sora,功能有多强大?将带来哪些影响?