DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源

简介: 【4月更文挑战第5天】DeepMind推出开源工具SAFE,挑战大模型的幻觉,提升事实评估准确性和效率。通过自动化和搜索引擎验证,SAFE在成本上比人类标注便宜20倍,且在72%的时间与人类一致,显示了在大规模事实验证中的潜力。然而,依赖谷歌搜索和易受长文本信息过载影响是其局限性。

微信图片_20240225082111.jpg
在人工智能领域,大型语言模型(LLMs)的兴起带来了前所未有的变革。它们在多种任务中展现出了惊人的能力,从文本生成到问题解答,似乎无所不能。然而,这些模型在处理事实性问题时,却常常暴露出可靠性不足的弱点。为了解决这一问题,DeepMind的研究者们提出了一种全新的方法——Search-Augmented Factuality Evaluator(SAFE),旨在提高模型在长文本中事实性评估的准确性和效率。

传统的模型评估方法依赖于人工标注,这种方法不仅成本高昂,而且效率低下。与之相比,SAFE通过自动化的方式,利用大型语言模型来分解长文本中的信息,并对每个独立事实进行评估。这一过程通过向谷歌搜索发送查询,来验证事实的准确性。通过这种方法,SAFE不仅在准确性上超越了人类标注者,而且在成本上也大幅降低,仅为人工标注的二十分之一。

在实验中,研究者们使用了GPT-4模型来生成一个包含数千个问题的长文本提示集LongFact,这些问题覆盖了38个不同的主题。随后,他们利用SAFE对这些提示集进行了评估,并与其他评估方法进行了比较。结果表明,SAFE在72%的情况下与人类标注者达成一致,并且在100个存在分歧的案例中,SAFE正确的概率高达76%。这一结果不仅证明了SAFE在事实性评估上的有效性,也展示了其在大规模应用中的潜力。

然而,SAFE并非没有局限性。首先,它依赖于谷歌搜索作为信息来源,这意味着对于一些特定的、难以搜索到的信息,SAFE可能无法做出准确判断。其次,SAFE在处理长文本时可能会遇到信息过载的问题,导致评估结果出现偏差。此外,尽管SAFE在成本上具有优势,但其对计算资源的需求仍然较高,这可能会限制其在资源受限的环境中的应用。

论文地址:https://arxiv.org/pdf/2403.18802.pdf

目录
相关文章
|
2月前
|
机器学习/深度学习 测试技术
强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作
【10月更文挑战第18天】Google DeepMind提出了一种基于强化学习的自动纠错方法SCoRe,通过自我修正提高大型语言模型(LLMs)的纠错能力。SCoRe在数学和编程任务中表现出色,分别在MATH和HumanEval基准测试中提升了15.6%和9.1%的自动纠错性能。
49 4
|
1月前
|
人工智能
AI科学家太多,谁靠谱一试便知!普林斯顿新基准CORE-Bench:最强模型仅有21%准确率
【10月更文挑战第21天】普林斯顿大学研究人员提出了CORE-Bench,一个基于计算可重复性的AI代理基准,涵盖计算机科学、社会科学和医学领域的270个任务。该基准旨在评估AI代理在科学研究中的准确性,具有多样性、难度级别和现实相关性等特点,有助于推动AI代理的发展并提高计算可重复性。
54 4
|
4月前
|
人工智能 测试技术
真相了!大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳
【8月更文挑战第15天】WE-MATH基准测试揭示大型多模态模型在解决视觉数学问题上的局限与潜力。研究涵盖6500题,分67概念5层次,评估指标包括知识与泛化不足等。GPT-4o表现最优,但仍存多步推理难题。研究提出知识概念增强策略以改善,为未来AI数学推理指明方向。论文见: https://arxiv.org/pdf/2407.01284
59 1
|
5月前
|
Web App开发
生成式模型不只会模仿!哈佛、UCSB等最新成果:性能可超越训练集专家水平
【7月更文挑战第23天】研究人员从哈佛大学、UC Santa Barbara等机构展示了生成式模型的新突破:在特定任务上实现超越训练集专家水平的性能。通过“低温度采样”减少模型不确定性,实验中一个名为ChessFormer的模型在下棋任务上表现出了超越性,即性能超过了训练集中专家的平均水平。这项工作揭示了生成式模型在特定条件下实现超越的可能性,为该领域的研究和应用提供了新视角。[论文](https://arxiv.org/pdf/2406.11741)
39 2
|
6月前
|
机器学习/深度学习 人工智能 算法
谷歌DeepMind:GPT-4高阶心智理论彻底击败人类!第6阶推理讽刺暗示全懂了
【6月更文挑战第10天】谷歌DeepMind团队的最新论文显示,GPT-4在高阶心智理论任务中超越了人类水平,这是AI在理解和推理人类心理状态上的重大突破。研究人员通过MoToMQA测试套件评估了大型语言模型,发现GPT-4在第6阶推理上超过成人表现。这一进展意味着AI能更好地理解用户意图,提升交互体验,但也引发了关于操纵与控制人类以及模型是否真正理解心理状态的担忧。论文链接:https://arxiv.org/pdf/2405.18870
82 3
|
Web App开发 监控 安全
研究实锤GPT-4真变笨了:3个月内数学能力雪崩式下降,代码能力也变差
研究实锤GPT-4真变笨了:3个月内数学能力雪崩式下降,代码能力也变差
110 0
|
机器学习/深度学习 人工智能 算法
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(1)
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习
102 0
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(1)
|
机器学习/深度学习 计算机视觉
清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下
清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下
159 0
|
机器学习/深度学习 自然语言处理 算法
少样本学习综述:技术、算法和模型
少样本学习(FSL)是机器学习的一个子领域,它解决了只用少量标记示例学习新任务的问题
811 0

热门文章

最新文章