87.8%准确率赶超GPT-4o登顶!谷歌DeepMind发布自动评估模型FLAMe

简介: 【8月更文挑战第21天】谷歌DeepMind推出的FLAMe(Foundational Large Autorater Models)是一种基于深度学习的自动评估模型,旨在通过分析输入文本与参考答案的差异来评估大型语言模型(LLMs)的输出质量。FLAMe采用多任务学习方法,在涵盖500万个手工评分的100多种质量评估任务上训练,展现出强大的泛化能力。在RewardBench基准测试中,FLAMe以87.8%的准确率超越GPT-4等先进模型。这一突破不仅降低了人工评估成本,还提高了评估效率,为自然语言处理等领域带来革新。

近年来,随着大型语言模型(LLMs)的快速发展,如何准确评估这些模型的输出质量变得愈发困难。由于人工评估的成本高昂,自动评估模型(autoraters)的需求日益增长。近日,谷歌DeepMind团队发布了一种名为FLAMe(Foundational Large Autorater Models)的自动评估模型,旨在解决这一挑战。

FLAMe是一种基于深度学习的自动评估模型,它通过分析和比较输入文本与参考答案之间的差异来评估输出质量。与传统的自动评估模型不同,FLAMe采用了一种全新的训练方法,使其能够更好地泛化到各种不同的任务上。

FLAMe的训练数据来自一个包含100多个质量评估任务的大型且多样化的集合,这些任务涵盖了超过500万个人工判断。这些数据是通过整理和标准化之前研究中公开发布的人工评估数据而获得的。

为了提高FLAMe的泛化能力,研究人员采用了一种多任务学习的方法。他们将FLAMe训练成一个能够处理各种不同任务的通用模型,而不是为每个任务单独训练一个模型。这种多任务学习的方法使得FLAMe能够更好地理解语言的多样性和复杂性,从而提高其评估的准确性。

FLAMe在多个自动评估基准上表现出了出色的性能。在RewardBench基准上,FLAMe的准确率达到了87.8%,超过了目前最先进的生成模型GPT-4o(84.7%)和GPT-4-0125(85.9%)。这一结果表明,FLAMe在评估生成模型的输出质量方面具有显著的优势。

此外,研究人员还发现,FLAMe在其他8个自动评估基准上的12个任务中,有8个任务的性能超过了所有流行的专有LLM-as-a-Judge模型。这些任务包括RewardBench和LLM-AggreFact等具有挑战性的基准。

FLAMe的出现为自动评估领域带来了新的希望。首先,它有望降低人工评估的成本和时间消耗,使得研究人员能够更高效地评估和改进大型语言模型。其次,FLAMe的多任务学习能力使其能够适应各种不同的应用场景,包括但不限于自然语言处理、计算机视觉和语音识别等。

然而,FLAMe也存在一些潜在的问题和挑战。首先,由于其训练数据的多样性和规模,FLAMe可能存在一定的偏见和不公平性。其次,FLAMe的性能是否能够持续保持领先,以及其在实际应用中的鲁棒性和可靠性如何,还有待进一步的研究和验证。

论文地址:https://arxiv.org/abs/2407.10817

目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
当语言遇见智慧火花:GPT家族历代模型大起底,带你见证从平凡到卓越的AI进化奇迹!
【10月更文挑战第6天】随着自然语言处理技术的进步,GPT系列模型(Generative Pre-trained Transformers)成为该领域的明星。从GPT-1的开创性工作,到GPT-2在规模与性能上的突破,再到拥有1750亿参数的GPT-3及其无需微调即可执行多种NLP任务的能力,以及社区驱动的GPT-NeoX,这些模型不断进化。虽然它们展现出强大的语言理解和生成能力,但也存在如生成错误信息或偏见等问题。本文将对比分析各代GPT模型的特点,并通过示例代码展示其部分功能。
434 2
|
6月前
|
数据可视化 API Swift
全模态图像模型Nexus-Gen对齐GPT-4o!同时搞定,数据、训练框架、模型全面开源
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。
314 17
|
4月前
|
机器学习/深度学习 人工智能 编解码
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
AI-Compass LLM合集-多模态模块:30+前沿大模型技术生态,涵盖GPT-4V、Gemini Vision等国际领先与通义千问VL等国产优秀模型
|
7月前
|
机器学习/深度学习 人工智能 前端开发
SWEET-RL:8B小模型暴打GPT-4?Meta开源强化学习黑科技,多轮任务成功率飙升6%
Meta最新开源的SWEET-RL框架通过优化多轮交互任务的信用分配机制,使Llama-3.1-8B模型在协作推理任务中的表现提升6%,性能达到顶尖大模型水平。
410 33
SWEET-RL:8B小模型暴打GPT-4?Meta开源强化学习黑科技,多轮任务成功率飙升6%
|
数据采集 API 决策智能
华为诺亚联合中科大发布工具调用模型ToolACE,效果持平GPT-4获开源第一
 【10月更文挑战第10天】华为诺亚方舟实验室与中国科学技术大学合作推出ToolACE,一种自进化合成过程的工具调用模型。ToolACE通过多智能体交互和双重验证系统生成准确、复杂、多样化的工具学习数据,显著提升大型语言模型(LLM)的功能调用能力。实验结果显示,使用ToolACE数据训练的80亿参数模型性能媲美GPT-4,在伯克利功能调用排行榜上获得开源第一。
458 4
|
8月前
|
机器学习/深度学习 人工智能 开发者
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
GPT-4o-mini-transcribe 是 OpenAI 推出的语音转文本模型,基于 GPT-4o-mini 架构,采用知识蒸馏技术,适合在资源受限的设备上运行,具有高效、实时和高性价比的特点。
452 2
GPT-4o-mini-transcribe:OpenAI 推出实时语音秒转文本模型!高性价比每分钟0.003美元
|
8月前
|
人工智能 自然语言处理 语音技术
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈
GPT-4o mini TTS 是 OpenAI 推出的轻量级文本转语音模型,支持多语言、多情感控制,适用于智能客服、教育学习、智能助手等多种场景。
463 2
GPT-4o mini TTS:OpenAI 推出轻量级文本转语音模型!情感操控+白菜价冲击配音圈

热门文章

最新文章