DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源

简介: 【4月更文挑战第5天】DeepMind推出开源工具SAFE,挑战大模型的幻觉,提升事实评估准确性和效率。通过自动化和搜索引擎验证,SAFE在成本上比人类标注便宜20倍,且在72%的时间与人类一致,显示了在大规模事实验证中的潜力。然而,依赖谷歌搜索和易受长文本信息过载影响是其局限性。

微信图片_20240225082111.jpg
在人工智能领域,大型语言模型(LLMs)的兴起带来了前所未有的变革。它们在多种任务中展现出了惊人的能力,从文本生成到问题解答,似乎无所不能。然而,这些模型在处理事实性问题时,却常常暴露出可靠性不足的弱点。为了解决这一问题,DeepMind的研究者们提出了一种全新的方法——Search-Augmented Factuality Evaluator(SAFE),旨在提高模型在长文本中事实性评估的准确性和效率。

传统的模型评估方法依赖于人工标注,这种方法不仅成本高昂,而且效率低下。与之相比,SAFE通过自动化的方式,利用大型语言模型来分解长文本中的信息,并对每个独立事实进行评估。这一过程通过向谷歌搜索发送查询,来验证事实的准确性。通过这种方法,SAFE不仅在准确性上超越了人类标注者,而且在成本上也大幅降低,仅为人工标注的二十分之一。

在实验中,研究者们使用了GPT-4模型来生成一个包含数千个问题的长文本提示集LongFact,这些问题覆盖了38个不同的主题。随后,他们利用SAFE对这些提示集进行了评估,并与其他评估方法进行了比较。结果表明,SAFE在72%的情况下与人类标注者达成一致,并且在100个存在分歧的案例中,SAFE正确的概率高达76%。这一结果不仅证明了SAFE在事实性评估上的有效性,也展示了其在大规模应用中的潜力。

然而,SAFE并非没有局限性。首先,它依赖于谷歌搜索作为信息来源,这意味着对于一些特定的、难以搜索到的信息,SAFE可能无法做出准确判断。其次,SAFE在处理长文本时可能会遇到信息过载的问题,导致评估结果出现偏差。此外,尽管SAFE在成本上具有优势,但其对计算资源的需求仍然较高,这可能会限制其在资源受限的环境中的应用。

论文地址:https://arxiv.org/pdf/2403.18802.pdf

目录
相关文章
|
16天前
|
机器学习/深度学习 测试技术
强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作
【10月更文挑战第18天】Google DeepMind提出了一种基于强化学习的自动纠错方法SCoRe,通过自我修正提高大型语言模型(LLMs)的纠错能力。SCoRe在数学和编程任务中表现出色,分别在MATH和HumanEval基准测试中提升了15.6%和9.1%的自动纠错性能。
35 4
|
4月前
|
Web App开发
生成式模型不只会模仿!哈佛、UCSB等最新成果:性能可超越训练集专家水平
【7月更文挑战第23天】研究人员从哈佛大学、UC Santa Barbara等机构展示了生成式模型的新突破:在特定任务上实现超越训练集专家水平的性能。通过“低温度采样”减少模型不确定性,实验中一个名为ChessFormer的模型在下棋任务上表现出了超越性,即性能超过了训练集中专家的平均水平。这项工作揭示了生成式模型在特定条件下实现超越的可能性,为该领域的研究和应用提供了新视角。[论文](https://arxiv.org/pdf/2406.11741)
34 2
|
5月前
|
机器学习/深度学习 人工智能 算法
谷歌DeepMind:GPT-4高阶心智理论彻底击败人类!第6阶推理讽刺暗示全懂了
【6月更文挑战第10天】谷歌DeepMind团队的最新论文显示,GPT-4在高阶心智理论任务中超越了人类水平,这是AI在理解和推理人类心理状态上的重大突破。研究人员通过MoToMQA测试套件评估了大型语言模型,发现GPT-4在第6阶推理上超过成人表现。这一进展意味着AI能更好地理解用户意图,提升交互体验,但也引发了关于操纵与控制人类以及模型是否真正理解心理状态的担忧。论文链接:https://arxiv.org/pdf/2405.18870
72 3
|
机器学习/深度学习 人工智能 自然语言处理
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
24333 9
|
机器学习/深度学习 人工智能 算法
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(1)
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(1)
|
机器学习/深度学习 计算机视觉
清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下
清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下
151 0
|
机器学习/深度学习 人工智能 自然语言处理
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(2)
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习
229 0
|
机器学习/深度学习 人工智能 自然语言处理
将数学题转化成代码,谷歌这项研究让机器证明的正确率大幅提高
将数学题转化成代码,谷歌这项研究让机器证明的正确率大幅提高
|
机器学习/深度学习 自然语言处理 安全
少到4个示例,击败所有少样本学习:DeepMind新型800亿模型真学会了
少到4个示例,击败所有少样本学习:DeepMind新型800亿模型真学会了
178 0
|
人工智能 自动驾驶 算法
语言模型参数越多越好?DeepMind用700亿打败自家2800亿,训练优化出「小」模型
语言模型参数越多越好?DeepMind用700亿打败自家2800亿,训练优化出「小」模型
179 0
下一篇
无影云桌面