Meta浙大校友让评估模型自学成才,数据全合成无需人工标注,训练Llama 3 70B超过405B

简介: 【9月更文挑战第21天】近日,一篇名为《Self-Taught Evaluators》的论文引起了广泛关注。该论文由Meta与浙江大学校友合作完成,提出一种创新的模型评估方法,通过让评估模型自学习训练,无需依赖昂贵且易过时的人工标注数据。此方法利用合成数据,通过迭代生成对比模型输出并训练基于大型语言模型的评估器,从而实现自我迭代改进。研究结果显示,在不使用任何标注偏好数据的情况下,这种方法显著提升了评估模型的性能,甚至超越了一些现有模型。尽管如此,该方法在实际应用中仍需进一步验证。论文地址:https://arxiv.org/abs/2408.02666

最近,一篇名为《Self-Taught Evaluators》的论文引起了广泛关注。这篇论文由Meta和浙江大学的校友合作完成,提出了一种全新的模型评估方法。该方法的核心思想是让评估模型通过自学的方式进行训练,而无需依赖人工标注的数据。

在传统的模型评估中,通常需要收集大量的人工偏好判断数据,用于训练评估模型。然而,这种方式不仅成本高昂,而且随着模型的不断改进,数据也会逐渐过时。为了解决这个问题,研究人员提出了一种基于自我迭代改进的方案,利用合成数据来训练评估模型。

具体来说,该方案从无标签的指令开始,通过迭代生成对比模型输出,并训练一个基于大型语言模型(LLM)的评估器,以生成推理轨迹和最终判断。然后,在每个新的迭代中,使用改进的预测结果重复这个训练过程。通过这种方式,研究人员成功地在没有任何标注偏好数据的情况下,将一个强大的大型语言模型(如Llama3-70B-Instruct)在RewardBench上的准确率从75.4%提高到了88.3%(使用多数票时为88.7%),超过了常见的基于大型语言模型的评估器(如GPT-4)的性能,并匹配了使用标注示例训练的最佳奖励模型的性能。

这一成果的意义在于,它为模型评估提供了一种全新的思路,即通过自我学习的方式来提高评估模型的性能。这不仅可以降低训练评估模型的成本,还可以使评估模型能够更好地适应模型的不断改进。

然而,这一方法也存在一些潜在的问题。首先,由于该方法完全依赖于合成数据,因此可能无法完全捕捉到真实世界中的复杂情况。其次,由于评估模型的训练过程是自我迭代的,因此可能存在过拟合的风险。此外,由于该方法尚未在实际应用中得到广泛的验证,因此其实际效果仍有待进一步的研究和探索。

论文地址:https://arxiv.org/abs/2408.02666

目录
相关文章
|
机器学习/深度学习 人工智能 负载均衡
基于 NVIDIA Megatron-Core 的 MoE LLM 实现和训练优化
本文将分享阿里云人工智能平台 PAI 团队与 NVIDIA Megatron-Core 团队在 MoE (Mixture of Experts) 大型语言模型(LLM)实现与训练优化上的创新工作。
|
机器学习/深度学习 自然语言处理 数据挖掘
【论文精读】TNNLS 2022 - 基于深度学习的事件抽取研究综述
【论文精读】TNNLS 2022 - 基于深度学习的事件抽取研究综述
|
人工智能 数据挖掘 CDN
魔哈镜像迄今最大合成数据集 Cosmopedia
Cosmopedia 是一个由Mixtral-8x7B-Instruct-v0.1生成的合成教科书、博文、故事、帖子和WikiHow文章的数据集。该数据集包含超过3000万个文件和250亿个tokens,是HuggingFace用了10k张H100生成的迄今为止最大的开放合成数据集。
268 0
|
监控 Shell Linux
【Shell 命令集合 系统管理 】Linux 自动轮转(log rotation)日志文件 logrotate命令 使用指南
【Shell 命令集合 系统管理 】Linux 自动轮转(log rotation)日志文件 logrotate命令 使用指南
459 0
|
4月前
|
机器学习/深度学习 小程序 数据挖掘
Multi-Agent 的灵活编排之路
本文探讨了Copilot 3.0架构中规划模块结合DeepSeek R1强化学习(GRPO)的实践,重点分析多智能体架构下大模型如何灵活调度多个智能体解决实际问题。文章从背景、问题分析、Planning角色、难点、效果对比到解决方案进行了深入讲解,并通过实验现象展示了有无思考过程对模型性能的影响。结果显示,GRPO训练后推理长度显著降低,准确率提升7.4个百分点,同时解决了复杂问题与简单问题处理间的平衡问题。
397 11
Multi-Agent 的灵活编排之路
|
7月前
|
算法 测试技术
EvalPlanner:基于“计划-执行”双阶段的大语言模型评估框架
EvalPlanner是一种创新的大语言模型(LLM)评估算法,采用计划-执行双阶段范式,生成无约束的评估计划并执行,从而提升评估的系统性和可靠性。该系统包含评估计划、计划执行模块和最终判决三个核心组件,通过自训练循环优化计划和执行过程。EvalPlanner在多个基准测试中表现出色,特别是在数据效率和泛化能力方面,为构建高效、稳健的LLM评估模型提供了新方向。
336 13
EvalPlanner:基于“计划-执行”双阶段的大语言模型评估框架
|
10月前
|
人工智能 自然语言处理 搜索推荐
浪潮信息 Yuan-embedding-1.0 模型登顶MTEB榜单第一名
浪潮信息Yuan-Embedding-1.0模型在C-MTEB评测基准中荣获Retrieval任务第一名,推动中文语义向量技术发展
1464 7
浪潮信息 Yuan-embedding-1.0 模型登顶MTEB榜单第一名
|
1月前
|
人工智能 数据可视化 开发者
深度解析基于LangGraph的Agent系统架构设计与工程实践
LangGraph作为Agent 生态中非常热门的框架,今天我将借助 LangGraph,更高效、更优雅的方式构建复杂智能体系统。
426 0
|
机器学习/深度学习 人工智能 物联网
大模型时代,还缺一只雨燕 | SWIFT:魔搭社区轻量级微调推理框架
伴随着大数据的发展和强大的分布式并行计算能力,以预训练+微调的模型开发范式渐渐成为深度学习领域的主流。 2023年各家推出的大模型浩如烟海,如GPT4、Llama、ChatGLM、Baichuan、RWKV、Stable-Diffusion等。这些模型在达到越来越好的效果的同时也需要越来越多的算力资源:全量finetune它们动辄需要几十至上百G显存训练部署,一般的实验室和个人开发者无力承担。
|
11月前
|
编解码 开发者
meta viewport原理
meta viewport原理
169 0