DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源

简介: 【4月更文挑战第5天】DeepMind推出开源工具SAFE,挑战大模型的幻觉,提升事实评估准确性和效率。通过自动化和搜索引擎验证,SAFE在成本上比人类标注便宜20倍,且在72%的时间与人类一致,显示了在大规模事实验证中的潜力。然而,依赖谷歌搜索和易受长文本信息过载影响是其局限性。

微信图片_20240225082111.jpg
在人工智能领域,大型语言模型(LLMs)的兴起带来了前所未有的变革。它们在多种任务中展现出了惊人的能力,从文本生成到问题解答,似乎无所不能。然而,这些模型在处理事实性问题时,却常常暴露出可靠性不足的弱点。为了解决这一问题,DeepMind的研究者们提出了一种全新的方法——Search-Augmented Factuality Evaluator(SAFE),旨在提高模型在长文本中事实性评估的准确性和效率。

传统的模型评估方法依赖于人工标注,这种方法不仅成本高昂,而且效率低下。与之相比,SAFE通过自动化的方式,利用大型语言模型来分解长文本中的信息,并对每个独立事实进行评估。这一过程通过向谷歌搜索发送查询,来验证事实的准确性。通过这种方法,SAFE不仅在准确性上超越了人类标注者,而且在成本上也大幅降低,仅为人工标注的二十分之一。

在实验中,研究者们使用了GPT-4模型来生成一个包含数千个问题的长文本提示集LongFact,这些问题覆盖了38个不同的主题。随后,他们利用SAFE对这些提示集进行了评估,并与其他评估方法进行了比较。结果表明,SAFE在72%的情况下与人类标注者达成一致,并且在100个存在分歧的案例中,SAFE正确的概率高达76%。这一结果不仅证明了SAFE在事实性评估上的有效性,也展示了其在大规模应用中的潜力。

然而,SAFE并非没有局限性。首先,它依赖于谷歌搜索作为信息来源,这意味着对于一些特定的、难以搜索到的信息,SAFE可能无法做出准确判断。其次,SAFE在处理长文本时可能会遇到信息过载的问题,导致评估结果出现偏差。此外,尽管SAFE在成本上具有优势,但其对计算资源的需求仍然较高,这可能会限制其在资源受限的环境中的应用。

论文地址:https://arxiv.org/pdf/2403.18802.pdf

目录
相关文章
|
22天前
|
机器学习/深度学习 人工智能 算法
谷歌DeepMind:GPT-4高阶心智理论彻底击败人类!第6阶推理讽刺暗示全懂了
【6月更文挑战第10天】谷歌DeepMind团队的最新论文显示,GPT-4在高阶心智理论任务中超越了人类水平,这是AI在理解和推理人类心理状态上的重大突破。研究人员通过MoToMQA测试套件评估了大型语言模型,发现GPT-4在第6阶推理上超过成人表现。这一进展意味着AI能更好地理解用户意图,提升交互体验,但也引发了关于操纵与控制人类以及模型是否真正理解心理状态的担忧。论文链接:https://arxiv.org/pdf/2405.18870
28 3
|
机器学习/深度学习 人工智能 自然语言处理
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
24296 9
|
机器学习/深度学习 计算机视觉
清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下
清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下
132 0
|
机器学习/深度学习 机器人 计算机视觉
耗时两年,谷歌用强化学习打造23个机器人帮助垃圾分类
耗时两年,谷歌用强化学习打造23个机器人帮助垃圾分类
|
机器学习/深度学习 人工智能 自然语言处理
ChatGPT要把数据标注行业干掉了?比人便宜20倍,而且还更准
ChatGPT要把数据标注行业干掉了?比人便宜20倍,而且还更准
194 0
|
机器学习/深度学习 人工智能 自然语言处理
与生成模型相比,为何机器人研究还在用几年前的老方法?(1)
与生成模型相比,为何机器人研究还在用几年前的老方法?
|
机器学习/深度学习 人工智能 自然语言处理
与生成模型相比,为何机器人研究还在用几年前的老方法?
与生成模型相比,为何机器人研究还在用几年前的老方法?
101 0
|
机器学习/深度学习 人工智能 自然语言处理
与生成模型相比,为何机器人研究还在用几年前的老方法?(2)
与生成模型相比,为何机器人研究还在用几年前的老方法?
|
机器学习/深度学习 人工智能 自然语言处理
将数学题转化成代码,谷歌这项研究让机器证明的正确率大幅提高
将数学题转化成代码,谷歌这项研究让机器证明的正确率大幅提高
|
机器学习/深度学习 数据可视化 计算机视觉
CVPR 2022 | 结合短期动态、长期一致性,视频伪装物体检测框架,大幅超越SOTA(2)
CVPR 2022 | 结合短期动态、长期一致性,视频伪装物体检测框架,大幅超越SOTA