Meta浙大校友让评估模型自学成才,数据全合成无需人工标注,训练Llama 3 70B超过405B

简介: 【9月更文挑战第21天】近日,一篇名为《Self-Taught Evaluators》的论文引起了广泛关注。该论文由Meta与浙江大学校友合作完成,提出一种创新的模型评估方法,通过让评估模型自学习训练,无需依赖昂贵且易过时的人工标注数据。此方法利用合成数据,通过迭代生成对比模型输出并训练基于大型语言模型的评估器,从而实现自我迭代改进。研究结果显示,在不使用任何标注偏好数据的情况下,这种方法显著提升了评估模型的性能,甚至超越了一些现有模型。尽管如此,该方法在实际应用中仍需进一步验证。论文地址:https://arxiv.org/abs/2408.02666

最近,一篇名为《Self-Taught Evaluators》的论文引起了广泛关注。这篇论文由Meta和浙江大学的校友合作完成,提出了一种全新的模型评估方法。该方法的核心思想是让评估模型通过自学的方式进行训练,而无需依赖人工标注的数据。

在传统的模型评估中,通常需要收集大量的人工偏好判断数据,用于训练评估模型。然而,这种方式不仅成本高昂,而且随着模型的不断改进,数据也会逐渐过时。为了解决这个问题,研究人员提出了一种基于自我迭代改进的方案,利用合成数据来训练评估模型。

具体来说,该方案从无标签的指令开始,通过迭代生成对比模型输出,并训练一个基于大型语言模型(LLM)的评估器,以生成推理轨迹和最终判断。然后,在每个新的迭代中,使用改进的预测结果重复这个训练过程。通过这种方式,研究人员成功地在没有任何标注偏好数据的情况下,将一个强大的大型语言模型(如Llama3-70B-Instruct)在RewardBench上的准确率从75.4%提高到了88.3%(使用多数票时为88.7%),超过了常见的基于大型语言模型的评估器(如GPT-4)的性能,并匹配了使用标注示例训练的最佳奖励模型的性能。

这一成果的意义在于,它为模型评估提供了一种全新的思路,即通过自我学习的方式来提高评估模型的性能。这不仅可以降低训练评估模型的成本,还可以使评估模型能够更好地适应模型的不断改进。

然而,这一方法也存在一些潜在的问题。首先,由于该方法完全依赖于合成数据,因此可能无法完全捕捉到真实世界中的复杂情况。其次,由于评估模型的训练过程是自我迭代的,因此可能存在过拟合的风险。此外,由于该方法尚未在实际应用中得到广泛的验证,因此其实际效果仍有待进一步的研究和探索。

论文地址:https://arxiv.org/abs/2408.02666

目录
相关文章
|
21天前
|
机器学习/深度学习
过程奖励模型PRM成版本答案!谷歌DeepMind全自动标注逐步骤奖励PAV,准确率提升8%
研究团队提出了一种新的过程奖励模型(PRM),通过衡量每一步骤的进展来改进大型语言模型(LLM)的推理能力。与仅在最后提供反馈的结果奖励模型(ORM)不同,PRM能在多步骤推理中逐步提供反馈,从而改善信用分配。研究引入了过程优势验证者(PAV),用于预测证明策略下的进展,显著提升了测试时间搜索和在线强化学习(RL)的效率与准确性。实验表明,PAV相比ORM提高了8%以上的准确性和5至6倍的样本效率。该方法在Gemma2模型上得到了验证,并展示了在解决复杂问题上的潜力。尽管成果显著,但仍需进一步研究以优化证明策略的设计和减少拟合误差。
146 97
|
1月前
|
人工智能 JSON API
LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力
LongDocURL 是由中科院与淘天集团联合推出的多模态长文档理解基准数据集,涵盖 2,325 个问答对,支持复杂文档的理解、推理和定位任务。
185 77
LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力
|
9天前
|
机器学习/深度学习 人工智能 计算机视觉
MILS:无需对LLM进行额外训练就能处理多模态任务,Meta AI提出零样本生成多模态描述方法
MILS 是 Meta AI 推出的零样本生成高质量多模态描述方法,支持图像、视频和音频的描述生成,无需额外训练。
96 34
MILS:无需对LLM进行额外训练就能处理多模态任务,Meta AI提出零样本生成多模态描述方法
|
4月前
|
物联网
StableDiffusion-04 (炼丹篇) 15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(一)
StableDiffusion-04 (炼丹篇) 15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(一)
54 1
|
1月前
|
机器学习/深度学习 人工智能
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
Diff-Instruct 是一种从预训练扩散模型中迁移知识的通用框架,通过最小化积分Kullback-Leibler散度,指导其他生成模型的训练,提升生成性能。
60 11
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
|
2月前
|
人工智能 搜索推荐 决策智能
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
近期研究通过调整网络智能体的观察和动作空间,使其与大型语言模型(LLM)的能力对齐,显著提升了基于LLM的网络智能体性能。AgentOccam智能体在WebArena基准上超越了先前方法,成功率提升26.6个点(+161%)。该研究强调了与LLM训练目标一致的重要性,为网络任务自动化提供了新思路,但也指出其性能受限于LLM能力及任务复杂度。论文链接:https://arxiv.org/abs/2410.13825。
69 12
|
2月前
|
机器学习/深度学习 测试技术
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
时序数据在动态系统和应用中至关重要,但其复杂性使得分析极具挑战。Time-MoE是一种基于稀疏混合专家设计的可扩展架构,旨在预训练更大、更强大的时序预测模型,同时降低推理成本。它在新数据集Time-300B上训练,包含超过3000亿个时间点,跨9个领域,显著提升了预测精度,成为解决时序预测问题的先进方案。
122 9
|
3月前
|
机器学习/深度学习 自然语言处理 数据格式
社区供稿 |【8卡从零训练Steel-LLM】微调探索与评估
本篇文章主要介绍下微调上的探索以及评估。另外,还特意试了试训练CMMLU数据集,能在榜单上提多少分
|
6月前
|
数据采集 人工智能 监控
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
Label-LLM 是一款专为大模型训练设计的多模态文本对话标注工具,支持团队协作,让标注工作变得简单高效。它不仅涵盖丰富的任务类型,如回答采集、偏好收集和内容评估等,还支持多模态数据标注,包括图像、视频和音频。Label-LLM具备预标注载入功能,能大幅提升工作效率,并提供全方位的任务管理与可视化分析,确保标注质量。快来体验这款强大的标注平台吧![部署文档](https://github.com/opendatalab/LabelLLM)
1221 0
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
|
6月前
评估数据集CGoDial问题之多模态对话为什么重要
评估数据集CGoDial问题之多模态对话为什么重要