Meta浙大校友让评估模型自学成才,数据全合成无需人工标注,训练Llama 3 70B超过405B

简介: 【9月更文挑战第21天】近日,一篇名为《Self-Taught Evaluators》的论文引起了广泛关注。该论文由Meta与浙江大学校友合作完成,提出一种创新的模型评估方法,通过让评估模型自学习训练,无需依赖昂贵且易过时的人工标注数据。此方法利用合成数据,通过迭代生成对比模型输出并训练基于大型语言模型的评估器,从而实现自我迭代改进。研究结果显示,在不使用任何标注偏好数据的情况下,这种方法显著提升了评估模型的性能,甚至超越了一些现有模型。尽管如此,该方法在实际应用中仍需进一步验证。论文地址:https://arxiv.org/abs/2408.02666

最近,一篇名为《Self-Taught Evaluators》的论文引起了广泛关注。这篇论文由Meta和浙江大学的校友合作完成,提出了一种全新的模型评估方法。该方法的核心思想是让评估模型通过自学的方式进行训练,而无需依赖人工标注的数据。

在传统的模型评估中,通常需要收集大量的人工偏好判断数据,用于训练评估模型。然而,这种方式不仅成本高昂,而且随着模型的不断改进,数据也会逐渐过时。为了解决这个问题,研究人员提出了一种基于自我迭代改进的方案,利用合成数据来训练评估模型。

具体来说,该方案从无标签的指令开始,通过迭代生成对比模型输出,并训练一个基于大型语言模型(LLM)的评估器,以生成推理轨迹和最终判断。然后,在每个新的迭代中,使用改进的预测结果重复这个训练过程。通过这种方式,研究人员成功地在没有任何标注偏好数据的情况下,将一个强大的大型语言模型(如Llama3-70B-Instruct)在RewardBench上的准确率从75.4%提高到了88.3%(使用多数票时为88.7%),超过了常见的基于大型语言模型的评估器(如GPT-4)的性能,并匹配了使用标注示例训练的最佳奖励模型的性能。

这一成果的意义在于,它为模型评估提供了一种全新的思路,即通过自我学习的方式来提高评估模型的性能。这不仅可以降低训练评估模型的成本,还可以使评估模型能够更好地适应模型的不断改进。

然而,这一方法也存在一些潜在的问题。首先,由于该方法完全依赖于合成数据,因此可能无法完全捕捉到真实世界中的复杂情况。其次,由于评估模型的训练过程是自我迭代的,因此可能存在过拟合的风险。此外,由于该方法尚未在实际应用中得到广泛的验证,因此其实际效果仍有待进一步的研究和探索。

论文地址:https://arxiv.org/abs/2408.02666

目录
相关文章
|
机器学习/深度学习 人工智能 自然语言处理
满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA(2)
满足不同下游任务特征需求!Sea AI Lab 提出多粒度自监督学习框架Mugs,刷新多项SOTA
226 0
|
2月前
|
物联网
StableDiffusion-04 (炼丹篇) 15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(二)
StableDiffusion-04 (炼丹篇) 15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(二)
38 0
|
2月前
|
物联网
StableDiffusion-04 (炼丹篇) 15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(一)
StableDiffusion-04 (炼丹篇) 15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(一)
38 0
|
18天前
|
机器学习/深度学习 测试技术
全球首次!时序大模型突破十亿参数,华人团队发布Time-MoE,预训练数据达3000亿个时间点
时序数据在动态系统和应用中至关重要,但其复杂性使得分析极具挑战。Time-MoE是一种基于稀疏混合专家设计的可扩展架构,旨在预训练更大、更强大的时序预测模型,同时降低推理成本。它在新数据集Time-300B上训练,包含超过3000亿个时间点,跨9个领域,显著提升了预测精度,成为解决时序预测问题的先进方案。
43 9
|
2月前
|
物联网
StableDiffusion-03 (准备篇)15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(二)
StableDiffusion-03 (准备篇)15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(二)
37 1
|
2月前
|
并行计算 Ubuntu 物联网
StableDiffusion-03 (准备篇)15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(一)
StableDiffusion-03 (准备篇)15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(一)
32 0
|
4月前
|
数据采集 人工智能 监控
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
Label-LLM 是一款专为大模型训练设计的多模态文本对话标注工具,支持团队协作,让标注工作变得简单高效。它不仅涵盖丰富的任务类型,如回答采集、偏好收集和内容评估等,还支持多模态数据标注,包括图像、视频和音频。Label-LLM具备预标注载入功能,能大幅提升工作效率,并提供全方位的任务管理与可视化分析,确保标注质量。快来体验这款强大的标注平台吧![部署文档](https://github.com/opendatalab/LabelLLM)
821 0
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
|
4月前
评估数据集CGoDial问题之多模态对话为什么重要
评估数据集CGoDial问题之多模态对话为什么重要
|
4月前
|
算法 搜索推荐
支付宝商业化广告算法问题之基于pretrain—>finetune范式的知识迁移中,finetune阶段全参数训练与部分参数训练的效果如何比较
支付宝商业化广告算法问题之基于pretrain—>finetune范式的知识迁移中,finetune阶段全参数训练与部分参数训练的效果如何比较
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
让大模型不再巨无霸,这是一份最新的大模型参数高效微调综述
【5月更文挑战第12天】最新综述探讨了大模型参数高效微调,旨在减少计算成本、增强泛化能力和灵活性。方法包括Additive、Selective、Reparameterized和Hybrid PEFT,已应用于NLP、CV和多模态学习。尽管取得进展,仍需解决泛化、效率和可解释性问题。未来研究将关注多任务学习、强化学习和神经架构搜索。论文链接:https://arxiv.org/pdf/2403.14608.pdf
388 2

热门文章

最新文章