人类标注的时代已经结束?DeepMind 开源 SAFE 根治大模型幻觉问题

简介: Google DeepMind和斯坦福大学的研究人员发布了《衡量大型语言模型长篇事实性》论文,提出了新数据集LongFact(含2,280个问题)和评估方法SAFE,用于检查AI模型在生成长文时的事实准确性、连贯性和详尽性。

最近,AI 大模型在自然语言处理领域内风头正劲,它们在生成文本、回答问题等多种任务上展现出的强大实力受到了广泛的关注。然而,大模型在生成长段落文本时,经常做不到保持内容事实的准确性、连贯性和详尽性。

为了检验模型在生成具有一定长度的文章或叙述时,能否确保所产出的信息真实可靠、逻辑清晰且细节丰富,出现了一个全新评价标准:长篇事实性(long-form factuality)。

如果你没懂,其实也不用担心,因为 Google 已经出手杀死了比赛。Google DeepMind 的人工智能专家团队和斯坦福大学的研究者发布了一篇名为《衡量大型语言模型长篇事实性》(Long-form factuality in large language models)的研究论文,研究者们对长篇事实性问题进行了深度探究,并对语言模型在长篇事实性上的表现进行了全面评估。

他们推出了一套新的数据集——LongFact,其中包含了 2,280 个涵盖 38 个不同话题的引导问题;同时,提出了一个新颖的评估方法——SAFE(Self-contained Accuracy with Google Evidence),该方法运用语言模型代理人和Google搜索查询技术来进行评估。

  • GitHub:

https://github.com/google-deepmind/long-form-factuality

  • 论文链接:

https://arxiv.org/abs/2403.18802

以往的研究主要集中在语言模型对较短文本进行事实核查的能力上,而在生成较长、内容丰富且准确无误的文本方面,对其能力的考察则相对较少。这种能力对于实际应用来说十分重要,因为很多应用场景下我们期待语言模型能够连续、可信地输出信息,而不只是给出简洁的答案或片段。

ChatGPT 等大模型在过去几年中经常出现在新闻里——它们可以撰写论文、回答问题甚至解决数学问题。但他们面临一个同样的问题:准确性。模型获得的每一个结果都必须经过人工手动检查,以确保结果正确。

当前用于衡量长篇事实性的标准资源要么规模不够大,要么只针对某一特定领域,这让全面比较各类模型的表现变得困难重重。因此,急需建立一个覆盖面广、包含多元化主题的标准化基准,以便精准评估语言模型在长篇事实性上的能力。

为了填补这一空白,论文给出的方法是“以毒攻毒“,用 AI 检查 AI 生成的答案结果,并自动指出不准确之处。

LongFact 数据集

研究者们创建了 LongFact 数据集,它包含了 2,280 个涉及历史、科学、政治、体育等 38 个不同主题的高质量引导问题。这些问题源自维基百科、新闻报道等多个权威来源,通过自动化筛选和人工复核双重把关,确保问题既能检验模型的知识深度,又能避免出现事实错误或主观偏见。这样一来,LongFact 就成为了衡量语言模型长篇事实性的一项坚实基础。

SAFE

研究者们提出了名为 SAFE 的创新评估方法,该方法利用语言模型自身及其与 Google 搜索引擎的交互,来自动评估模型所生成文本的每个知识点是否准确、相关,并能自圆其说。与传统的依赖人工评判或仅注重表面上的正确性的方式不同,SAFE 借助 Google 搜索,能够在现实世界的情境下核实模型生成事实的准确性,并检测模型生成有意义信息的能力。

为了更准确地衡量长篇事实性,研究者引入了一个名为 K 的超参数,代表用户期望的理想回复长度。然后采用 F1@K 指标,该指标兼顾了信息的相关性和准确性,同时也考虑到了不同的回复长度。

在 LongFact 数据集上,研究者对来自四大系列(Gemini、GPT、Claude、PaLM-2)的共 13 个语言模型进行了基准测试。结果显示,规模更大的语言模型通常在长篇事实性上表现更好。SAFE 在 72% 的情况下与人工判断结果一致,并在随机选取的 100 个争议案例中有 76% 获得了更高的认可。此外,SAFE 比雇佣人工标注团队的效率高出了 20 倍以上,展现了其作为评估大型语言模型长篇事实性的一种高效手段。

展望未来

目前的语言模型在生成长篇、准确且相关事实信息方面还有进步的空间,所以 DeepMind 为此指出了几个未来研究方向。比如,可以通过改进预训练和微调方法,或者整合外部工具来提升模型这方面的能力。尽管本文重点关注的是与世界常识相关的事实准确性,但在长篇内容中识别和减少模型产生臆想信息的问题仍然有待进一步解决,这也为后续研究提供了新的机遇。

实验数据显示,SAFE 不仅在准确度上超过了人类水平,而且在成本效益上优于人工评判。此外,通过对多种模型进行基准测试,表明通过增大模型规模有望显著提高长篇事实性。这项研究旨在激发更多的研究者关注和提升语言模型在处理长篇内容时的准确性,并强调了获取高质量数据集、完善模型评估技术和合理选择评估指标在准确评价语言模型能力上的重要性。LongFact 和 SAFE 的源代码已对外公开,方便其他研究者查阅和复现,以推动该领域的持续发展。

  • GitHub:

https://github.com/google-deepmind/long-form-factuality


版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。                  

原文链接:https://blog.csdn.net/csdnnews/article/details/137251498

好啦!小弹的分享到此为止。我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽,请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8

【扫码填写上方调研问卷】

欢迎每位来到弹性计算的开发者们来反馈问题哦~

相关文章
|
8月前
|
人工智能 自然语言处理 安全
探秘SuperCLUE-Safety:为中文大模型打造的多轮对抗安全新框架
探秘SuperCLUE-Safety:为中文大模型打造的多轮对抗安全新框架【2月更文挑战第2天】
探秘SuperCLUE-Safety:为中文大模型打造的多轮对抗安全新框架
|
10天前
|
机器学习/深度学习 测试技术
LeCun赞转!类Sora模型能否理解物理规律?字节豆包大模型团队系统性研究揭秘
近日,字节跳动豆包大模型团队发布论文,探讨视频生成模型(如类Sora模型)在理解物理规律方面的能力,引起广泛关注并获Yann LeCun点赞。研究通过2D模拟平台测试扩散模型,发现其在分布内表现优异,但在分布外和组合泛化上存在不足,揭示了基于案例的泛化和特征优先级机制。这表明,仅靠视觉数据难以学习到真正的物理规律,未来需引入物理先验知识以提升模型性能。
40 16
|
3月前
|
机器学习/深度学习 算法 安全
大模型进阶微调篇(二):基于人类反馈的强化学习RLHF原理、优点介绍,但需要警惕LLMs的拍马屁行为
本文探讨了基于人类反馈的强化学习(RLHF)方法的优缺点。作者指出,虽然RLHF能够使模型更好地满足用户需求,但也存在缺乏多样性、创新不足、偏好固化和难以适应动态变化等问题。文章通过具体实验和示例代码,详细解析了RLHF的工作原理,并强调了其在实际应用中的潜在风险。
313 6
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
揭开模型微调Fine-Tuning的神秘面纱:如何在预训练基础上巧妙调整,解锁定制AI解决方案的秘密武器
【10月更文挑战第8天】模型微调是在预训练模型基础上,利用特定领域数据进一步训练,以优化模型在特定任务上的表现。此方法广泛应用于自然语言处理和计算机视觉等领域,通过调整预训练模型的部分或全部参数,结合适当的正则化手段,有效提升模型性能。例如,使用Hugging Face的Transformers库对BERT模型进行微调,以改善文本匹配任务的准确率。
80 1
|
5月前
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
【8月更文挑战第10天】新研究NoCha挑战显示,即使是顶级的大型语言模型GPT-4o,在处理长篇幅文本时正确率仅55.8%,低于人类直观水平。该挑战基于近作英文小说,检验模型对整本书信息的理解与推理能力。结果显示,模型在全局推理上的表现不佳,倾向于依赖局部信息而非整体上下文,尤其是在复杂推理需求高的科幻小说上表现更弱。这一发现揭示了当前模型在处理长上下文任务上的局限性。论文链接: [https://arxiv.org/pdf/2406.16264](https://arxiv.org/pdf/2406.16264)。
134 65
|
3月前
|
机器学习/深度学习 人工智能 算法
【大语言模型-论文速读】GPT的不确定性判断
【大语言模型-论文速读】GPT的不确定性判断
51 0
|
5月前
|
机器学习/深度学习
Sora 原理使用问题之Sora提示词的语义并进行视频生成该如何理解
Sora 原理使用问题之Sora提示词的语义并进行视频生成该如何理解
|
5月前
|
人工智能 测试技术
真相了!大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳
【8月更文挑战第15天】WE-MATH基准测试揭示大型多模态模型在解决视觉数学问题上的局限与潜力。研究涵盖6500题,分67概念5层次,评估指标包括知识与泛化不足等。GPT-4o表现最优,但仍存多步推理难题。研究提出知识概念增强策略以改善,为未来AI数学推理指明方向。论文见: https://arxiv.org/pdf/2407.01284
64 1
|
6月前
|
Web App开发
生成式模型不只会模仿!哈佛、UCSB等最新成果:性能可超越训练集专家水平
【7月更文挑战第23天】研究人员从哈佛大学、UC Santa Barbara等机构展示了生成式模型的新突破:在特定任务上实现超越训练集专家水平的性能。通过“低温度采样”减少模型不确定性,实验中一个名为ChessFormer的模型在下棋任务上表现出了超越性,即性能超过了训练集中专家的平均水平。这项工作揭示了生成式模型在特定条件下实现超越的可能性,为该领域的研究和应用提供了新视角。[论文](https://arxiv.org/pdf/2406.11741)
42 2
|
7月前
|
数据采集 机器学习/深度学习 人工智能
可信度超越GPT-4V,清华&面壁揭秘小钢炮模型背后的高效对齐技术
【6月更文挑战第15天】清华大学与面壁智能合作的RLAIF-V框架挑战GPT-4V,通过开源AI反馈增强大语言模型的可信度。该框架利用开放数据和在线学习优化对齐,减少幻觉错误,12B参数模型表现超越GPT-4V。虽有数据质量和稳定性问题,但展示出开源MLLMs潜力。[链接: https://arxiv.org/abs/2405.17220]
135 1