【大语言模型】人类反馈在大语言模型对齐中的可靠性有多高?

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 当今的对齐研究大多集中在设计新的学习算法上,使用的是如Anthropic-HH这样的数据集,这些研究假设人类反馈数据本质上是可靠的。然而,对于人类反馈的定性不可靠性及其对对齐的影响,关注甚少。为了填补这一空白,我们进行了一项全面研究,并提供了对人类反馈数据的深入分析。

【大语言模型】人类反馈在大语言模型对齐中的可靠性有多高?

0. 论文信息

image.png

@article{yeh2024reliable,
  title={How Reliable Is Human Feedback For Aligning Large Language Models?},
  author={Yeh, Min-Hsuan and Tao, Leitian and Wang, Jeffrey and Du, Xuefeng and Li, Yixuan},
  journal={arXiv preprint arXiv:2410.01957},
  year={2024}
}

这篇论文的标题是《人类反馈在大型语言模型对齐中的可靠性有多高?》。由于篇幅较长,我将分部分来翻译。首先,我会翻译摘要部分,然后逐步翻译剩余的部分。

摘要:
当今的对齐研究大多集中在设计新的学习算法上,使用的是如Anthropic-HH这样的数据集,这些研究假设人类反馈数据本质上是可靠的。然而,对于人类反馈的定性不可靠性及其对对齐的影响,关注甚少。为了填补这一空白,我们进行了一项全面研究,并提供了对人类反馈数据的深入分析。我们使用一组金牌奖励模型来评估反馈的可靠性,揭示了超过25%的数据集与这些模型的一致性低或没有一致性,意味着高度的不可靠性。通过定性分析,我们识别了六个关键的不可靠性来源,如错误标记、主观偏好、不同标准和无害性的帮助标准等。最后,为了减轻不可靠性,我们提出了一种自动数据清洗方法——Source-Aware Cleaning(SAC),它由我们的定性分析的洞察指导,显著提高了数据质量。广泛的实验表明,在我们清洗过的数据集HH-Clean上训练的模型,与在原始数据集上训练的模型相比,性能有了显著提升。我们发布了HH-Clean,以支持未来更可靠的大型语言模型对齐评估。

note: 
Anthropic-HH dataset 是由 Anthropic 公司创建并发布的一个数据集,它通常用于研究和开发人工智能系统,特别是那些涉及人类反馈的强化学习(Reinforcement Learning from Human Feedback,简称 RLHF)的系统。这个数据集可能包含了与人类互动相关的数据,用于训练和评估 AI 模型,使其能够更好地理解和响应人类的行为和偏好。

https://huggingface.co/datasets/Anthropic/hh-rlhf
image-1.png

1 引言

人类反馈已被广泛用于通过对齐大型语言模型(LLMs),通过技术如带有人类反馈的强化学习(Christiano et al., 2017; Ziegler et al., 2019; Stiennon et al., 2020b; Ouyang et al., 2022; Bai et al., 2022a)和离线偏好优化(Rafailov et al., 2023; Gheshlaghi Azar et al., 2024; Ethayarajh et al., 2024a)。实现对齐的关键配方是通过收集关于某些目标的二元偏好,例如有帮助性和无害性。在实践中,向人类注释者呈现相同提示的成对响应,并基于响应的质量提供比较判断(例如,首选,非首选)。通过与人类反馈对齐LLM,这些模型可以生成更好地反映人类价值观和偏好的输出。人类反馈在提炼模型行为中的重要性突显了其关键作用,使其成为许多现实世界LLM系统开发中的基石(OpenAI, 2023; Anthropic, 2023; Touvron et al., 2023; Gemini et al., 2023)。

尽管人类反馈被广泛使用,但其可靠性可能是有问题的。人类注释者可能会向反馈过程中引入偏见、不一致性和噪声,这可能损害对齐的有效性(Wang et al., 2024a)。例如,研究表明,注释者可能会根据个人偏好发散他们的评估(Cheng et al., 2023),如果不适当考虑,可能导致次优甚至有害的结果。如今,大多数现有的对齐研究集中在通过在流行的数据集上基准测试来设计新算法,如Anthropic-HH(Bai et al., 2022a),假设它本质上是可靠的。相比之下,对于人类反馈的定性不可靠性及其对对齐的影响的理解非常有限。我们的研究旨在通过提供对用于对齐大型语言模型的人类反馈数据的深入分析来解决这一差距。据我们所知,以前没有在文献中进行过这种性质的研究。具体来说,我们做出以下贡献:

  • 贡献1:通过一组金牌回报模型(Sec. 2)对人类反馈的可靠性进行分类。我们的研究首先通过与一组金牌回报模型(RMs)(Lambert et al., 2024)进行比较来描述人类反馈的可靠性,这些模型作为理想评估者,接受多样化和高质量的数据集训练。这个委员会由多个独立训练的模型组成,提供集体判断,减少个人偏见和错误。通过将人类反馈与这个委员会进行比较,我们可以系统地评估其可靠性,将其归类为更可靠或不太可靠的反馈。我们的分析揭示了超过25%的Anthropic-HH数据集显示出与金牌RMs的一致性低或没有一致性,突出了数据集的重大质量问题。

  • 贡献2:对人类反馈中的不可靠性来源进行定性分析(Sec. 3)。为了深入了解人类反馈中的不可靠性来源及其与金牌RM投票的关系,我们进行了定性分析,解决了文献中缺乏这种理解的显著差距。设计了一种新颖的注释过程,以引出注释者更丰富的思考,并促进分析。分析揭示了六个关键的不可靠性来源:人类错误、主观偏好、不同标准和无害性的帮助标准、评估响应质量的不同阈值,以及两个响应都是有害或不相关的实例。这些发现揭示了为什么人类反馈可能会与金牌RMs不一致,并突出了注释实践和数据清洗方法改进的领域。

  • 贡献3:提出一种自动数据清洗方法,减轻不可靠性来源(Sec. 4)。在我们的定性分析的洞察指导下,我们提出了一种名为Source-Aware Cleaning(SAC)的自动数据清洗方法,它减轻了主要的不可靠性来源,而不需要人类注释。我们通过与10个数据清洗基线进行比较,进行了广泛的实验,并证明了SAC的优越性。特别是,通过使用我们清洗过的版本数据集HH-Clean对Llama-3-8B模型进行对齐,我们实现了对使用原始数据集进行对齐的模型的最高胜率为77%,由GPT-4评估。总的来说,我们的方法与基于启发式驱动且无法以针对性方式减轻不可靠性来源的基线相比,显示出一致的改进。我们在此处链接发布了HH-Clean数据集,该数据集将公开提供。这为研究社区提供了一个更可靠的数据集,用于评估和基准测试未来的对齐方法。

2 人类反馈与金牌回报模型一致吗?

在本节中,我们基于与一组金牌回报模型(Lambert et al., 2024)的一致性来描述人类反馈的可靠性。金牌回报模型作为理想化的评价者,用于评估响应的质量,其中更高的金牌奖励表示响应更好地符合人类偏好。这些模型通常来源于在高质量偏好数据集(如UltraFeedback,Cui et al., 2023)上的广泛训练,捕捉到构成理想行为的细微理解。一组金牌回报模型由多个独立训练的模型组成,每个模型都为集体判断做出贡献,减少了个体偏见和错误。通过将人类反馈与这个委员会进行比较,我们可以系统地评估其可靠性,将其归类为更可靠或不太可靠的反馈。在这个框架中,假设与金牌回报模型更频繁一致的人类反馈具有更高的可靠性水平。相反,与金牌回报模型显著不一致的人类反馈引发了对其可靠性的担忧,反映了人类感知与理想化偏好之间的潜在不一致。

我们首先对人类偏好数据集进行正式定义。我们的分析框架旨在适用于遵循此标准定义的数据集。

定义2.1(人类偏好数据)。 考虑两个响应yc,yr对于输入提示x,如果yc被优先选择,则表示为yc ≻ yr。我们将yc称为被选择或首选的响应,yr称为被拒绝的响应。每个三元组(x,yc,yr)被称为偏好。此外,经验数据集D = {(x(i), y(i) c , y(i) r )}n i=1由n个这样的三元组组成,这些三元组是从偏好分布中采样的。

一组金牌回报模型。为了分析给定的人类偏好数据集D,我们采用了来自RewardBench的八种金牌回报模型。这八种金牌RM是在Lambert等人(2024)的表2中列出的表现最好的模型之一,包括ArmoRM(Wang et al., 2024b),PairRM(Jiang et al., 2023),Starling(Zhu et al., 2024a),Eurus(Yuan et al., 2024)等。特别是,在RewardBench上获得高分的金牌RM被认为在各种领域(包括对话能力、指令遵循、安全性等)与人类偏好更一致。与直接在目标数据集D上训练的回报模型相比,金牌RM更适合评估人类反馈的质量。这是因为金牌RM不太可能过度拟合目标数据集中的错误或偏见。正式地,我们将金牌RM委员会表示为Θ = {rθ1, ..., rθM }。收集模型的详细信息在附录A中提供。

金牌回报模型的偏好。利用每个金牌回报模型rθj ∈ Θ,我们可以计算人类偏好数据集D中被选择和被拒绝响应的奖励,分别表示为rθj(x, yc)和rθj(x, yr)。对于D中的第i个数据点,我们根据指示函数测量人类反馈和金牌回报模型之间的一致性:ai(h, rθj) = 1[rθj(x(i), y(i) c ) ≻ rθj(x(i), y(i) r )],其中h表示人类反馈。具体来说,ai(h, rθj) = 1表示金牌回报模型rθj更倾向于选择响应而不是拒绝响应,从而与人类反馈一致,而ai(h, rθj) = 0表示不一致。


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

目录
相关文章
|
25天前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
17天前
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
4天前
|
JSON 自然语言处理 数据管理
阿里云百炼产品月刊【2024年9月】
阿里云百炼产品月刊【2024年9月】,涵盖本月产品和功能发布、活动,应用实践等内容,帮助您快速了解阿里云百炼产品的最新动态。
阿里云百炼产品月刊【2024年9月】
|
1天前
|
人工智能 Rust Java
10月更文挑战赛火热启动,坚持热爱坚持创作!
开发者社区10月更文挑战,寻找热爱技术内容创作的你,欢迎来创作!
251 12
|
19天前
|
人工智能 IDE 程序员
期盼已久!通义灵码 AI 程序员开启邀测,全流程开发仅用几分钟
在云栖大会上,阿里云云原生应用平台负责人丁宇宣布,「通义灵码」完成全面升级,并正式发布 AI 程序员。
|
21天前
|
机器学习/深度学习 算法 大数据
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
2024“华为杯”数学建模竞赛,对ABCDEF每个题进行详细的分析,涵盖风电场功率优化、WLAN网络吞吐量、磁性元件损耗建模、地理环境问题、高速公路应急车道启用和X射线脉冲星建模等多领域问题,解析了问题类型、专业和技能的需要。
2579 22
【BetterBench博士】2024 “华为杯”第二十一届中国研究生数学建模竞赛 选题分析
|
3天前
|
存储 人工智能 搜索推荐
数据治理,是时候打破刻板印象了
瓴羊智能数据建设与治理产品Datapin全面升级,可演进扩展的数据架构体系为企业数据治理预留发展空间,推出敏捷版用以解决企业数据量不大但需构建数据的场景问题,基于大模型打造的DataAgent更是为企业用好数据资产提供了便利。
169 2
|
1天前
|
编译器 C#
C#多态概述:通过继承实现的不同对象调用相同的方法,表现出不同的行为
C#多态概述:通过继承实现的不同对象调用相同的方法,表现出不同的行为
101 65
|
21天前
|
机器学习/深度学习 算法 数据可视化
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
2024年中国研究生数学建模竞赛C题聚焦磁性元件磁芯损耗建模。题目背景介绍了电能变换技术的发展与应用,强调磁性元件在功率变换器中的重要性。磁芯损耗受多种因素影响,现有模型难以精确预测。题目要求通过数据分析建立高精度磁芯损耗模型。具体任务包括励磁波形分类、修正斯坦麦茨方程、分析影响因素、构建预测模型及优化设计条件。涉及数据预处理、特征提取、机器学习及优化算法等技术。适合电气、材料、计算机等多个专业学生参与。
1578 16
【BetterBench博士】2024年中国研究生数学建模竞赛 C题:数据驱动下磁性元件的磁芯损耗建模 问题分析、数学模型、python 代码
|
4天前
|
Linux 虚拟化 开发者
一键将CentOs的yum源更换为国内阿里yum源
一键将CentOs的yum源更换为国内阿里yum源
256 2