人类标注的时代已经结束?DeepMind 开源 SAFE 根治大模型幻觉问题

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: Google DeepMind和斯坦福大学的研究人员发布了《衡量大型语言模型长篇事实性》论文,提出了新数据集LongFact(含2,280个问题)和评估方法SAFE,用于检查AI模型在生成长文时的事实准确性、连贯性和详尽性。

最近,AI 大模型在自然语言处理领域内风头正劲,它们在生成文本、回答问题等多种任务上展现出的强大实力受到了广泛的关注。然而,大模型在生成长段落文本时,经常做不到保持内容事实的准确性、连贯性和详尽性。

为了检验模型在生成具有一定长度的文章或叙述时,能否确保所产出的信息真实可靠、逻辑清晰且细节丰富,出现了一个全新评价标准:长篇事实性(long-form factuality)。

如果你没懂,其实也不用担心,因为 Google 已经出手杀死了比赛。Google DeepMind 的人工智能专家团队和斯坦福大学的研究者发布了一篇名为《衡量大型语言模型长篇事实性》(Long-form factuality in large language models)的研究论文,研究者们对长篇事实性问题进行了深度探究,并对语言模型在长篇事实性上的表现进行了全面评估。

他们推出了一套新的数据集——LongFact,其中包含了 2,280 个涵盖 38 个不同话题的引导问题;同时,提出了一个新颖的评估方法——SAFE(Self-contained Accuracy with Google Evidence),该方法运用语言模型代理人和Google搜索查询技术来进行评估。

  • GitHub:

https://github.com/google-deepmind/long-form-factuality

  • 论文链接:

https://arxiv.org/abs/2403.18802

以往的研究主要集中在语言模型对较短文本进行事实核查的能力上,而在生成较长、内容丰富且准确无误的文本方面,对其能力的考察则相对较少。这种能力对于实际应用来说十分重要,因为很多应用场景下我们期待语言模型能够连续、可信地输出信息,而不只是给出简洁的答案或片段。

ChatGPT 等大模型在过去几年中经常出现在新闻里——它们可以撰写论文、回答问题甚至解决数学问题。但他们面临一个同样的问题:准确性。模型获得的每一个结果都必须经过人工手动检查,以确保结果正确。

当前用于衡量长篇事实性的标准资源要么规模不够大,要么只针对某一特定领域,这让全面比较各类模型的表现变得困难重重。因此,急需建立一个覆盖面广、包含多元化主题的标准化基准,以便精准评估语言模型在长篇事实性上的能力。

为了填补这一空白,论文给出的方法是“以毒攻毒“,用 AI 检查 AI 生成的答案结果,并自动指出不准确之处。

LongFact 数据集

研究者们创建了 LongFact 数据集,它包含了 2,280 个涉及历史、科学、政治、体育等 38 个不同主题的高质量引导问题。这些问题源自维基百科、新闻报道等多个权威来源,通过自动化筛选和人工复核双重把关,确保问题既能检验模型的知识深度,又能避免出现事实错误或主观偏见。这样一来,LongFact 就成为了衡量语言模型长篇事实性的一项坚实基础。

SAFE

研究者们提出了名为 SAFE 的创新评估方法,该方法利用语言模型自身及其与 Google 搜索引擎的交互,来自动评估模型所生成文本的每个知识点是否准确、相关,并能自圆其说。与传统的依赖人工评判或仅注重表面上的正确性的方式不同,SAFE 借助 Google 搜索,能够在现实世界的情境下核实模型生成事实的准确性,并检测模型生成有意义信息的能力。

为了更准确地衡量长篇事实性,研究者引入了一个名为 K 的超参数,代表用户期望的理想回复长度。然后采用 F1@K 指标,该指标兼顾了信息的相关性和准确性,同时也考虑到了不同的回复长度。

在 LongFact 数据集上,研究者对来自四大系列(Gemini、GPT、Claude、PaLM-2)的共 13 个语言模型进行了基准测试。结果显示,规模更大的语言模型通常在长篇事实性上表现更好。SAFE 在 72% 的情况下与人工判断结果一致,并在随机选取的 100 个争议案例中有 76% 获得了更高的认可。此外,SAFE 比雇佣人工标注团队的效率高出了 20 倍以上,展现了其作为评估大型语言模型长篇事实性的一种高效手段。

展望未来

目前的语言模型在生成长篇、准确且相关事实信息方面还有进步的空间,所以 DeepMind 为此指出了几个未来研究方向。比如,可以通过改进预训练和微调方法,或者整合外部工具来提升模型这方面的能力。尽管本文重点关注的是与世界常识相关的事实准确性,但在长篇内容中识别和减少模型产生臆想信息的问题仍然有待进一步解决,这也为后续研究提供了新的机遇。

实验数据显示,SAFE 不仅在准确度上超过了人类水平,而且在成本效益上优于人工评判。此外,通过对多种模型进行基准测试,表明通过增大模型规模有望显著提高长篇事实性。这项研究旨在激发更多的研究者关注和提升语言模型在处理长篇内容时的准确性,并强调了获取高质量数据集、完善模型评估技术和合理选择评估指标在准确评价语言模型能力上的重要性。LongFact 和 SAFE 的源代码已对外公开,方便其他研究者查阅和复现,以推动该领域的持续发展。

  • GitHub:

https://github.com/google-deepmind/long-form-factuality


版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。                  

原文链接:https://blog.csdn.net/csdnnews/article/details/137251498

好啦!小弹的分享到此为止。我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽,请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8

【扫码填写上方调研问卷】

欢迎每位来到弹性计算的开发者们来反馈问题哦~

相关文章
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
【大模型】在使用大语言模型的过程中,我们需要考虑到哪些道德问题?
【5月更文挑战第5天】【大模型】在使用大语言模型的过程中,我们需要考虑到哪些道德问题?
【大模型】在使用大语言模型的过程中,我们需要考虑到哪些道德问题?
|
1月前
|
人工智能 自然语言处理 搜索推荐
DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源
【4月更文挑战第5天】DeepMind推出开源工具SAFE,挑战大模型的幻觉,提升事实评估准确性和效率。通过自动化和搜索引擎验证,SAFE在成本上比人类标注便宜20倍,且在72%的时间与人类一致,显示了在大规模事实验证中的潜力。然而,依赖谷歌搜索和易受长文本信息过载影响是其局限性。
31 13
DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源
|
5月前
|
人工智能 Python
论文推荐:大型语言模型能自我解释吗?
这篇论文的研究主要贡献是对LLM生成解释的优缺点进行了调查。详细介绍了两种方法,一种是做出预测,然后解释它,另一种是产生解释,然后用它来做出预测。
63 2
|
9月前
|
机器学习/深度学习 人工智能 安全
调查分析两百余篇大模型论文,数十位研究者一文综述RLHF的挑战与局限
调查分析两百余篇大模型论文,数十位研究者一文综述RLHF的挑战与局限
240 0
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
FudanNLP团队最新成果,借助RLHF实现人类对齐的MOSS-RLHF来了
FudanNLP团队最新成果,借助RLHF实现人类对齐的MOSS-RLHF来了
|
11月前
|
机器学习/深度学习 人工智能 算法
OpenAI、谷歌双标玩得溜:训练大模型用他人数据,却决不允许自身数据外流
OpenAI、谷歌双标玩得溜:训练大模型用他人数据,却决不允许自身数据外流
|
12月前
|
机器学习/深度学习
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果(2)
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果
118 0
|
12月前
|
机器学习/深度学习 编解码 人工智能
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果(1)
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果
141 0
|
12月前
|
Go 计算机视觉 开发者
连夜卷出 | 超越所有YOLO检测模型,mmdet开源当今最强最快目标检测模型!(一)
连夜卷出 | 超越所有YOLO检测模型,mmdet开源当今最强最快目标检测模型!(一)
431 0
|
12月前
|
机器学习/深度学习 人工智能 缓存
连夜卷出 | 超越所有YOLO检测模型,mmdet开源当今最强最快目标检测模型!(二)
连夜卷出 | 超越所有YOLO检测模型,mmdet开源当今最强最快目标检测模型!(二)
457 0