Meta浙大校友让评估模型自学成才,数据全合成无需人工标注,训练Llama 3 70B超过405B

简介: 【9月更文挑战第21天】近日,一篇名为《Self-Taught Evaluators》的论文引起了广泛关注。该论文由Meta与浙江大学校友合作完成,提出一种创新的模型评估方法,通过让评估模型自学习训练,无需依赖昂贵且易过时的人工标注数据。此方法利用合成数据,通过迭代生成对比模型输出并训练基于大型语言模型的评估器,从而实现自我迭代改进。研究结果显示,在不使用任何标注偏好数据的情况下,这种方法显著提升了评估模型的性能,甚至超越了一些现有模型。尽管如此,该方法在实际应用中仍需进一步验证。论文地址:https://arxiv.org/abs/2408.02666

最近,一篇名为《Self-Taught Evaluators》的论文引起了广泛关注。这篇论文由Meta和浙江大学的校友合作完成,提出了一种全新的模型评估方法。该方法的核心思想是让评估模型通过自学的方式进行训练,而无需依赖人工标注的数据。

在传统的模型评估中,通常需要收集大量的人工偏好判断数据,用于训练评估模型。然而,这种方式不仅成本高昂,而且随着模型的不断改进,数据也会逐渐过时。为了解决这个问题,研究人员提出了一种基于自我迭代改进的方案,利用合成数据来训练评估模型。

具体来说,该方案从无标签的指令开始,通过迭代生成对比模型输出,并训练一个基于大型语言模型(LLM)的评估器,以生成推理轨迹和最终判断。然后,在每个新的迭代中,使用改进的预测结果重复这个训练过程。通过这种方式,研究人员成功地在没有任何标注偏好数据的情况下,将一个强大的大型语言模型(如Llama3-70B-Instruct)在RewardBench上的准确率从75.4%提高到了88.3%(使用多数票时为88.7%),超过了常见的基于大型语言模型的评估器(如GPT-4)的性能,并匹配了使用标注示例训练的最佳奖励模型的性能。

这一成果的意义在于,它为模型评估提供了一种全新的思路,即通过自我学习的方式来提高评估模型的性能。这不仅可以降低训练评估模型的成本,还可以使评估模型能够更好地适应模型的不断改进。

然而,这一方法也存在一些潜在的问题。首先,由于该方法完全依赖于合成数据,因此可能无法完全捕捉到真实世界中的复杂情况。其次,由于评估模型的训练过程是自我迭代的,因此可能存在过拟合的风险。此外,由于该方法尚未在实际应用中得到广泛的验证,因此其实际效果仍有待进一步的研究和探索。

论文地址:https://arxiv.org/abs/2408.02666

目录
相关文章
|
1月前
|
物联网
StableDiffusion-04 (炼丹篇) 15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(二)
StableDiffusion-04 (炼丹篇) 15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(二)
31 0
|
1月前
|
物联网
StableDiffusion-04 (炼丹篇) 15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(一)
StableDiffusion-04 (炼丹篇) 15分钟 部署服务并进行LoRA微调全过程详细记录 不到20张百变小樱Sakura微调 3090(24GB) 学不会你打我!(一)
29 0
|
15天前
|
机器学习/深度学习 自然语言处理 数据格式
社区供稿 |【8卡从零训练Steel-LLM】微调探索与评估
本篇文章主要介绍下微调上的探索以及评估。另外,还特意试了试训练CMMLU数据集,能在榜单上提多少分
|
25天前
|
机器学习/深度学习 人工智能 文字识别
MMMU华人团队更新Pro版!多模态基准升至史诗级难度:过滤纯文本问题、引入纯视觉问答
【10月更文挑战第12天】多模态理解是人工智能的重要研究方向,华人团队改进了现有的MMMU基准,推出MMMU-Pro,以更严格地评估模型的多模态理解和推理能力。MMMU-Pro通过过滤纯文本问题、增加候选选项和引入纯视觉问答设置,提高了评估难度。实验结果显示,模型在MMMU-Pro上的性能明显下降,但CoT推理有助于提升表现。MMMU-Pro为多模态理解提供了更严格的评估工具,但也面临一些挑战。
34 1
|
3月前
|
数据采集 人工智能 监控
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
Label-LLM 是一款专为大模型训练设计的多模态文本对话标注工具,支持团队协作,让标注工作变得简单高效。它不仅涵盖丰富的任务类型,如回答采集、偏好收集和内容评估等,还支持多模态数据标注,包括图像、视频和音频。Label-LLM具备预标注载入功能,能大幅提升工作效率,并提供全方位的任务管理与可视化分析,确保标注质量。快来体验这款强大的标注平台吧![部署文档](https://github.com/opendatalab/LabelLLM)
605 0
赌你一定想要!OpenDataLab首款大模型多模态标注平台Label-LLM正式开源
|
3月前
评估数据集CGoDial问题之多模态对话为什么重要
评估数据集CGoDial问题之多模态对话为什么重要
|
6月前
|
人工智能 算法 开发者
苹果卷开源大模型,公开代码、权重、数据集、训练全过程,OpenELM亮相
【5月更文挑战第9天】苹果开源大语言模型OpenELM,提升效率和准确性,参数仅为10亿时比OLMo准确度高2.36%。苹果首次公开训练全过程、权重、数据集和代码,增强研究透明度,支持在苹果设备上推理和微调,推动AI研究发展。但训练资源需求高和模型可解释性仍是挑战。论文链接:[arxiv.org/pdf/2404.14619.pdf](https://arxiv.org/pdf/2404.14619.pdf)
76 3
|
6月前
|
自然语言处理 安全 算法
23REPEAT方法:软工顶会ICSE ‘23 大模型在代码智能领域持续学习 代表性样本重放(选择信息丰富且多样化的示例) + 基于可塑权重巩固EWC的自适应参数正则化 【网安AIGC专题11.22】
23REPEAT方法:软工顶会ICSE ‘23 大模型在代码智能领域持续学习 代表性样本重放(选择信息丰富且多样化的示例) + 基于可塑权重巩固EWC的自适应参数正则化 【网安AIGC专题11.22】
148 0
23REPEAT方法:软工顶会ICSE ‘23 大模型在代码智能领域持续学习 代表性样本重放(选择信息丰富且多样化的示例) + 基于可塑权重巩固EWC的自适应参数正则化 【网安AIGC专题11.22】
|
存储 机器学习/深度学习 人工智能
调教LLaMA类模型没那么难,LoRA将模型微调缩减到几小时
调教LLaMA类模型没那么难,LoRA将模型微调缩减到几小时
447 0
|
机器学习/深度学习 计算机视觉
清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下
清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下
151 0
下一篇
无影云桌面