87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发布自动评估模型FLAMe-阿里云开发者社区

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发布自动评估模型FLAMe

2024-08-21 64

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【8月更文挑战第21天】谷歌DeepMind推出的FLAMe（Foundational Large Autorater Models）是一种基于深度学习的自动评估模型，旨在通过分析输入文本与参考答案的差异来评估大型语言模型（LLMs）的输出质量。FLAMe采用多任务学习方法，在涵盖500万个手工评分的100多种质量评估任务上训练，展现出强大的泛化能力。在RewardBench基准测试中，FLAMe以87.8%的准确率超越GPT-4等先进模型。这一突破不仅降低了人工评估成本，还提高了评估效率，为自然语言处理等领域带来革新。

近年来，随着大型语言模型（LLMs）的快速发展，如何准确评估这些模型的输出质量变得愈发困难。由于人工评估的成本高昂，自动评估模型（autoraters）的需求日益增长。近日，谷歌DeepMind团队发布了一种名为FLAMe（Foundational Large Autorater Models）的自动评估模型，旨在解决这一挑战。

FLAMe是一种基于深度学习的自动评估模型，它通过分析和比较输入文本与参考答案之间的差异来评估输出质量。与传统的自动评估模型不同，FLAMe采用了一种全新的训练方法，使其能够更好地泛化到各种不同的任务上。

FLAMe的训练数据来自一个包含100多个质量评估任务的大型且多样化的集合，这些任务涵盖了超过500万个人工判断。这些数据是通过整理和标准化之前研究中公开发布的人工评估数据而获得的。

为了提高FLAMe的泛化能力，研究人员采用了一种多任务学习的方法。他们将FLAMe训练成一个能够处理各种不同任务的通用模型，而不是为每个任务单独训练一个模型。这种多任务学习的方法使得FLAMe能够更好地理解语言的多样性和复杂性，从而提高其评估的准确性。

FLAMe在多个自动评估基准上表现出了出色的性能。在RewardBench基准上，FLAMe的准确率达到了87.8%，超过了目前最先进的生成模型GPT-4o（84.7%）和GPT-4-0125（85.9%）。这一结果表明，FLAMe在评估生成模型的输出质量方面具有显著的优势。

此外，研究人员还发现，FLAMe在其他8个自动评估基准上的12个任务中，有8个任务的性能超过了所有流行的专有LLM-as-a-Judge模型。这些任务包括RewardBench和LLM-AggreFact等具有挑战性的基准。

FLAMe的出现为自动评估领域带来了新的希望。首先，它有望降低人工评估的成本和时间消耗，使得研究人员能够更高效地评估和改进大型语言模型。其次，FLAMe的多任务学习能力使其能够适应各种不同的应用场景，包括但不限于自然语言处理、计算机视觉和语音识别等。

然而，FLAMe也存在一些潜在的问题和挑战。首先，由于其训练数据的多样性和规模，FLAMe可能存在一定的偏见和不公平性。其次，FLAMe的性能是否能够持续保持领先，以及其在实际应用中的鲁棒性和可靠性如何，还有待进一步的研究和验证。

论文地址：https://arxiv.org/abs/2407.10817

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发布自动评估模型FLAMe

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

87.8%准确率赶超GPT-4o登顶！谷歌DeepMind发布自动评估模型FLAMe

热门文章

最新文章

相关课程

相关电子书

相关实验场景