87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe

简介: 【8月更文挑战第21天】谷歌DeepMind推出的FLAMe(Foundational Large Autorater Models)是一种基于深度学习的自动评估模型,旨在通过分析输入文本与参考答案的差异来评估大型语言模型(LLMs)的输出质量。FLAMe采用多任务学习方法,在涵盖500万个手工评分的100多种质量评估任务上训练,展现出强大的泛化能力。在RewardBench基准测试中,FLAMe以87.8%的准确率超越GPT-4等先进模型。这一突破不仅降低了人工评估成本,还提高了评估效率,为自然语言处理等领域带来革新。

近年来,随着大型语言模型(LLMs)的快速发展,如何准确评估这些模型的输出质量变得愈发困难。由于人工评估的成本高昂,自动评估模型(autoraters)的需求日益增长。近日,谷歌DeepMind团队发布了一种名为FLAMe(Foundational Large Autorater Models)的自动评估模型,旨在解决这一挑战。

FLAMe是一种基于深度学习的自动评估模型,它通过分析和比较输入文本与参考答案之间的差异来评估输出质量。与传统的自动评估模型不同,FLAMe采用了一种全新的训练方法,使其能够更好地泛化到各种不同的任务上。

FLAMe的训练数据来自一个包含100多个质量评估任务的大型且多样化的集合,这些任务涵盖了超过500万个人工判断。这些数据是通过整理和标准化之前研究中公开发布的人工评估数据而获得的。

为了提高FLAMe的泛化能力,研究人员采用了一种多任务学习的方法。他们将FLAMe训练成一个能够处理各种不同任务的通用模型,而不是为每个任务单独训练一个模型。这种多任务学习的方法使得FLAMe能够更好地理解语言的多样性和复杂性,从而提高其评估的准确性。

FLAMe在多个自动评估基准上表现出了出色的性能。在RewardBench基准上,FLAMe的准确率达到了87.8%,超过了目前最先进的生成模型GPT-4o(84.7%)和GPT-4-0125(85.9%)。这一结果表明,FLAMe在评估生成模型的输出质量方面具有显著的优势。

此外,研究人员还发现,FLAMe在其他8个自动评估基准上的12个任务中,有8个任务的性能超过了所有流行的专有LLM-as-a-Judge模型。这些任务包括RewardBench和LLM-AggreFact等具有挑战性的基准。

FLAMe的出现为自动评估领域带来了新的希望。首先,它有望降低人工评估的成本和时间消耗,使得研究人员能够更高效地评估和改进大型语言模型。其次,FLAMe的多任务学习能力使其能够适应各种不同的应用场景,包括但不限于自然语言处理、计算机视觉和语音识别等。

然而,FLAMe也存在一些潜在的问题和挑战。首先,由于其训练数据的多样性和规模,FLAMe可能存在一定的偏见和不公平性。其次,FLAMe的性能是否能够持续保持领先,以及其在实际应用中的鲁棒性和可靠性如何,还有待进一步的研究和验证。

论文地址:https://arxiv.org/abs/2407.10817

目录
相关文章
|
14天前
|
API 云栖大会
通义千问升级旗舰模型Qwen-Max,性能接近GPT-4o
通义旗舰模型Qwen-Max全方位升级,性能接近GPT-4o
|
2月前
|
人工智能 自然语言处理
公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4
【8月更文挑战第3天】新论文提出“公理训练”法,使仅有6700万参数的语言模型掌握因果推理,性能媲美万亿级GPT-4。研究通过大量合成数据示例教授模型因果公理,实现有效推理并泛化至复杂图结构。尽管面临合成数据需求大及复杂关系处理限制,此法仍为语言模型的因果理解开辟新途径。[链接: https://arxiv.org/pdf/2407.07612]
53 1
|
2月前
|
知识图谱
ARTIST的中文文图生成模型问题之通过GPT生成图像序列的问题如何解决
ARTIST的中文文图生成模型问题之通过GPT生成图像序列的问题如何解决
|
3月前
|
人工智能 知识图谱
LeCun谢赛宁首发全新视觉多模态模型,等效1000张A100干翻GPT-4V
【7月更文挑战第7天】LeCun与谢赛宁团队推出 Cambrian-1,一款视觉多模态大语言模型,挑战GPT-4V。该模型以视觉为中心,利用20多种视觉编码器强化表示学习,实现SOTA性能,同时开源权重、代码及工具,促进领域发展。尽管面临资源需求与数据隐私的讨论,但其创新如空间视觉聚合器(SVA)降低了计算需求。[论文链接: https://arxiv.org/abs/2406.16860]
51 1
|
2月前
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
【8月更文挑战第10天】新研究NoCha挑战显示,即使是顶级的大型语言模型GPT-4o,在处理长篇幅文本时正确率仅55.8%,低于人类直观水平。该挑战基于近作英文小说,检验模型对整本书信息的理解与推理能力。结果显示,模型在全局推理上的表现不佳,倾向于依赖局部信息而非整体上下文,尤其是在复杂推理需求高的科幻小说上表现更弱。这一发现揭示了当前模型在处理长上下文任务上的局限性。论文链接: [https://arxiv.org/pdf/2406.16264](https://arxiv.org/pdf/2406.16264)。
117 65
|
2月前
|
人工智能
ECCV 2024:让GPT-4图像理解更易出错,全新策略增强VLP模型对抗迁移性
【8月更文挑战第13天】在AI领域,视觉语言预训练(VLP)模型展现出了强大的图像与文本理解能力,但也易受多模态对抗样本攻击。为此,研究者提出了Cross-Clean-Adversarial Regional Diversification (CCAR-Div)策略,通过增强对抗样本多样性以提升VLP模型的对抗迁移性。此策略在对抗轨迹交集区域采样,增加样本多样性,并利用模态交互作用。经Flickr30K和MSCOCO数据集验证,CCAR-Div能有效提高跨模型与跨任务场景下的对抗迁移性,如使用ALBEF生成的对抗样本攻击TCL时,成功率高达95.58%。
120 60
|
26天前
|
人工智能 自然语言处理 数据挖掘
【通义】AI视界|性能超越GPT-4o?最强大的开源AI模型来了……
本文介绍了五项最新AI技术动态,包括性能超越GPT-4o的开源AI模型Reflection70B、智谱清言App限时免费的视频通话功能、哈佛医学院研发的癌症诊断AI模型CHIEF、Replit推出的AI编程助手,以及英特尔与日本AIST合作设立的芯片制造研发中心。这些进展展示了AI领域的快速创新与广泛应用。更多详情,请访问通义官网体验。
|
2月前
|
人工智能 安全 测试技术
Google DeepMind推出大模型 Gemini (vs GPT4):规模最大、能力最强的人工智能模型
Google DeepMind推出大模型 Gemini (vs GPT4):规模最大、能力最强的人工智能模型
63 4
|
2月前
|
人工智能 测试技术
ACL 2024:对25个开闭源模型数学评测,GPT-3.5-Turbo才勉强及格
【8月更文挑战第6天】在ACL 2024会议上,研究人员提出GSM-Plus对抗性基准,旨在评估大型语言模型(LLMs)如GPT-3.5-Turbo在数学推理上的鲁棒性。通过对25个模型和4种提示技术的测试,结果显示模型们虽能在标准GSM8K数据集上取得好成绩,但在遇到问题变异时表现欠佳,提示技术提升作用有限,揭示了LLMs在数学理解深度上的局限。论文详述了这一发现及其对未来研究的意义。
55 2
|
2月前
|
数据采集 SQL 人工智能
如何基于gpt模型抢先打造成功的产品
如何基于gpt模型抢先打造成功的产品

热门文章

最新文章

下一篇
无影云桌面