DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源

简介: 【4月更文挑战第5天】DeepMind推出开源工具SAFE,挑战大模型的幻觉,提升事实评估准确性和效率。通过自动化和搜索引擎验证,SAFE在成本上比人类标注便宜20倍,且在72%的时间与人类一致,显示了在大规模事实验证中的潜力。然而,依赖谷歌搜索和易受长文本信息过载影响是其局限性。

微信图片_20240225082111.jpg
在人工智能领域,大型语言模型(LLMs)的兴起带来了前所未有的变革。它们在多种任务中展现出了惊人的能力,从文本生成到问题解答,似乎无所不能。然而,这些模型在处理事实性问题时,却常常暴露出可靠性不足的弱点。为了解决这一问题,DeepMind的研究者们提出了一种全新的方法——Search-Augmented Factuality Evaluator(SAFE),旨在提高模型在长文本中事实性评估的准确性和效率。

传统的模型评估方法依赖于人工标注,这种方法不仅成本高昂,而且效率低下。与之相比,SAFE通过自动化的方式,利用大型语言模型来分解长文本中的信息,并对每个独立事实进行评估。这一过程通过向谷歌搜索发送查询,来验证事实的准确性。通过这种方法,SAFE不仅在准确性上超越了人类标注者,而且在成本上也大幅降低,仅为人工标注的二十分之一。

在实验中,研究者们使用了GPT-4模型来生成一个包含数千个问题的长文本提示集LongFact,这些问题覆盖了38个不同的主题。随后,他们利用SAFE对这些提示集进行了评估,并与其他评估方法进行了比较。结果表明,SAFE在72%的情况下与人类标注者达成一致,并且在100个存在分歧的案例中,SAFE正确的概率高达76%。这一结果不仅证明了SAFE在事实性评估上的有效性,也展示了其在大规模应用中的潜力。

然而,SAFE并非没有局限性。首先,它依赖于谷歌搜索作为信息来源,这意味着对于一些特定的、难以搜索到的信息,SAFE可能无法做出准确判断。其次,SAFE在处理长文本时可能会遇到信息过载的问题,导致评估结果出现偏差。此外,尽管SAFE在成本上具有优势,但其对计算资源的需求仍然较高,这可能会限制其在资源受限的环境中的应用。

论文地址:https://arxiv.org/pdf/2403.18802.pdf

目录
相关文章
|
10月前
|
人工智能 算法 开发者
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
995 10
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
|
9月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
790 2
|
9月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
2807 2
|
10月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
939 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
9月前
|
人工智能 数据库 索引
超越幻觉:检索增强生成如何为AI大模型“装上”事实核查系统
超越幻觉:检索增强生成如何为AI大模型“装上”事实核查系统
530 107
|
9月前
|
人工智能 自然语言处理 搜索推荐
超越幻觉:RAG如何为AI大模型注入“真实”的灵魂
超越幻觉:RAG如何为AI大模型注入“真实”的灵魂
438 81
|
10月前
智谱发布GLM-4.5V,全球开源多模态推理新标杆,Day0推理微调实战教程到!
视觉语言大模型(VLM)已经成为智能系统的关键基石。随着真实世界的智能任务越来越复杂,VLM模型也亟需在基本的多模态感知之外,逐渐增强复杂任务中的推理能力,提升自身的准确性、全面性和智能化程度,使得复杂问题解决、长上下文理解、多模态智能体等智能任务成为可能。
1325 0
|
10月前
|
编解码 算法 测试技术
MiniCPM-V4.0开源,多模态能力进化,手机可用,还有最全CookBook!
今天,面壁小钢炮新一代多模态模型 MiniCPM-V 4.0 正式开源。依靠 4B 参数,取得 在 OpenCompass、OCRBench、MathVista 等多个榜单上取得了同级 SOTA 成绩,且 实现了在手机上稳定、丝滑运行。此外,官方也正式开源了 推理部署工具 MiniCPM-V CookBook,帮助开发者面向不同需求、不同场景、不同设备,均可实现开箱即用的轻量、简易部署。
1450 0

热门文章

最新文章