【大语言模型】人类反馈在大语言模型对齐中的可靠性有多高?

简介: 当今的对齐研究大多集中在设计新的学习算法上,使用的是如Anthropic-HH这样的数据集,这些研究假设人类反馈数据本质上是可靠的。然而,对于人类反馈的定性不可靠性及其对对齐的影响,关注甚少。为了填补这一空白,我们进行了一项全面研究,并提供了对人类反馈数据的深入分析。

【大语言模型】人类反馈在大语言模型对齐中的可靠性有多高?

0. 论文信息

image.png

@article{yeh2024reliable,
  title={How Reliable Is Human Feedback For Aligning Large Language Models?},
  author={Yeh, Min-Hsuan and Tao, Leitian and Wang, Jeffrey and Du, Xuefeng and Li, Yixuan},
  journal={arXiv preprint arXiv:2410.01957},
  year={2024}
}

这篇论文的标题是《人类反馈在大型语言模型对齐中的可靠性有多高?》。由于篇幅较长,我将分部分来翻译。首先,我会翻译摘要部分,然后逐步翻译剩余的部分。

摘要:
当今的对齐研究大多集中在设计新的学习算法上,使用的是如Anthropic-HH这样的数据集,这些研究假设人类反馈数据本质上是可靠的。然而,对于人类反馈的定性不可靠性及其对对齐的影响,关注甚少。为了填补这一空白,我们进行了一项全面研究,并提供了对人类反馈数据的深入分析。我们使用一组金牌奖励模型来评估反馈的可靠性,揭示了超过25%的数据集与这些模型的一致性低或没有一致性,意味着高度的不可靠性。通过定性分析,我们识别了六个关键的不可靠性来源,如错误标记、主观偏好、不同标准和无害性的帮助标准等。最后,为了减轻不可靠性,我们提出了一种自动数据清洗方法——Source-Aware Cleaning(SAC),它由我们的定性分析的洞察指导,显著提高了数据质量。广泛的实验表明,在我们清洗过的数据集HH-Clean上训练的模型,与在原始数据集上训练的模型相比,性能有了显著提升。我们发布了HH-Clean,以支持未来更可靠的大型语言模型对齐评估。

note: 
Anthropic-HH dataset 是由 Anthropic 公司创建并发布的一个数据集,它通常用于研究和开发人工智能系统,特别是那些涉及人类反馈的强化学习(Reinforcement Learning from Human Feedback,简称 RLHF)的系统。这个数据集可能包含了与人类互动相关的数据,用于训练和评估 AI 模型,使其能够更好地理解和响应人类的行为和偏好。

https://huggingface.co/datasets/Anthropic/hh-rlhf
image-1.png

1 引言

人类反馈已被广泛用于通过对齐大型语言模型(LLMs),通过技术如带有人类反馈的强化学习(Christiano et al., 2017; Ziegler et al., 2019; Stiennon et al., 2020b; Ouyang et al., 2022; Bai et al., 2022a)和离线偏好优化(Rafailov et al., 2023; Gheshlaghi Azar et al., 2024; Ethayarajh et al., 2024a)。实现对齐的关键配方是通过收集关于某些目标的二元偏好,例如有帮助性和无害性。在实践中,向人类注释者呈现相同提示的成对响应,并基于响应的质量提供比较判断(例如,首选,非首选)。通过与人类反馈对齐LLM,这些模型可以生成更好地反映人类价值观和偏好的输出。人类反馈在提炼模型行为中的重要性突显了其关键作用,使其成为许多现实世界LLM系统开发中的基石(OpenAI, 2023; Anthropic, 2023; Touvron et al., 2023; Gemini et al., 2023)。

尽管人类反馈被广泛使用,但其可靠性可能是有问题的。人类注释者可能会向反馈过程中引入偏见、不一致性和噪声,这可能损害对齐的有效性(Wang et al., 2024a)。例如,研究表明,注释者可能会根据个人偏好发散他们的评估(Cheng et al., 2023),如果不适当考虑,可能导致次优甚至有害的结果。如今,大多数现有的对齐研究集中在通过在流行的数据集上基准测试来设计新算法,如Anthropic-HH(Bai et al., 2022a),假设它本质上是可靠的。相比之下,对于人类反馈的定性不可靠性及其对对齐的影响的理解非常有限。我们的研究旨在通过提供对用于对齐大型语言模型的人类反馈数据的深入分析来解决这一差距。据我们所知,以前没有在文献中进行过这种性质的研究。具体来说,我们做出以下贡献:

  • 贡献1:通过一组金牌回报模型(Sec. 2)对人类反馈的可靠性进行分类。我们的研究首先通过与一组金牌回报模型(RMs)(Lambert et al., 2024)进行比较来描述人类反馈的可靠性,这些模型作为理想评估者,接受多样化和高质量的数据集训练。这个委员会由多个独立训练的模型组成,提供集体判断,减少个人偏见和错误。通过将人类反馈与这个委员会进行比较,我们可以系统地评估其可靠性,将其归类为更可靠或不太可靠的反馈。我们的分析揭示了超过25%的Anthropic-HH数据集显示出与金牌RMs的一致性低或没有一致性,突出了数据集的重大质量问题。

  • 贡献2:对人类反馈中的不可靠性来源进行定性分析(Sec. 3)。为了深入了解人类反馈中的不可靠性来源及其与金牌RM投票的关系,我们进行了定性分析,解决了文献中缺乏这种理解的显著差距。设计了一种新颖的注释过程,以引出注释者更丰富的思考,并促进分析。分析揭示了六个关键的不可靠性来源:人类错误、主观偏好、不同标准和无害性的帮助标准、评估响应质量的不同阈值,以及两个响应都是有害或不相关的实例。这些发现揭示了为什么人类反馈可能会与金牌RMs不一致,并突出了注释实践和数据清洗方法改进的领域。

  • 贡献3:提出一种自动数据清洗方法,减轻不可靠性来源(Sec. 4)。在我们的定性分析的洞察指导下,我们提出了一种名为Source-Aware Cleaning(SAC)的自动数据清洗方法,它减轻了主要的不可靠性来源,而不需要人类注释。我们通过与10个数据清洗基线进行比较,进行了广泛的实验,并证明了SAC的优越性。特别是,通过使用我们清洗过的版本数据集HH-Clean对Llama-3-8B模型进行对齐,我们实现了对使用原始数据集进行对齐的模型的最高胜率为77%,由GPT-4评估。总的来说,我们的方法与基于启发式驱动且无法以针对性方式减轻不可靠性来源的基线相比,显示出一致的改进。我们在此处链接发布了HH-Clean数据集,该数据集将公开提供。这为研究社区提供了一个更可靠的数据集,用于评估和基准测试未来的对齐方法。

2 人类反馈与金牌回报模型一致吗?

在本节中,我们基于与一组金牌回报模型(Lambert et al., 2024)的一致性来描述人类反馈的可靠性。金牌回报模型作为理想化的评价者,用于评估响应的质量,其中更高的金牌奖励表示响应更好地符合人类偏好。这些模型通常来源于在高质量偏好数据集(如UltraFeedback,Cui et al., 2023)上的广泛训练,捕捉到构成理想行为的细微理解。一组金牌回报模型由多个独立训练的模型组成,每个模型都为集体判断做出贡献,减少了个体偏见和错误。通过将人类反馈与这个委员会进行比较,我们可以系统地评估其可靠性,将其归类为更可靠或不太可靠的反馈。在这个框架中,假设与金牌回报模型更频繁一致的人类反馈具有更高的可靠性水平。相反,与金牌回报模型显著不一致的人类反馈引发了对其可靠性的担忧,反映了人类感知与理想化偏好之间的潜在不一致。

我们首先对人类偏好数据集进行正式定义。我们的分析框架旨在适用于遵循此标准定义的数据集。

定义2.1(人类偏好数据)。 考虑两个响应yc,yr对于输入提示x,如果yc被优先选择,则表示为yc ≻ yr。我们将yc称为被选择或首选的响应,yr称为被拒绝的响应。每个三元组(x,yc,yr)被称为偏好。此外,经验数据集D = {(x(i), y(i) c , y(i) r )}n i=1由n个这样的三元组组成,这些三元组是从偏好分布中采样的。

一组金牌回报模型。为了分析给定的人类偏好数据集D,我们采用了来自RewardBench的八种金牌回报模型。这八种金牌RM是在Lambert等人(2024)的表2中列出的表现最好的模型之一,包括ArmoRM(Wang et al., 2024b),PairRM(Jiang et al., 2023),Starling(Zhu et al., 2024a),Eurus(Yuan et al., 2024)等。特别是,在RewardBench上获得高分的金牌RM被认为在各种领域(包括对话能力、指令遵循、安全性等)与人类偏好更一致。与直接在目标数据集D上训练的回报模型相比,金牌RM更适合评估人类反馈的质量。这是因为金牌RM不太可能过度拟合目标数据集中的错误或偏见。正式地,我们将金牌RM委员会表示为Θ = {rθ1, ..., rθM }。收集模型的详细信息在附录A中提供。

金牌回报模型的偏好。利用每个金牌回报模型rθj ∈ Θ,我们可以计算人类偏好数据集D中被选择和被拒绝响应的奖励,分别表示为rθj(x, yc)和rθj(x, yr)。对于D中的第i个数据点,我们根据指示函数测量人类反馈和金牌回报模型之间的一致性:ai(h, rθj) = 1[rθj(x(i), y(i) c ) ≻ rθj(x(i), y(i) r )],其中h表示人类反馈。具体来说,ai(h, rθj) = 1表示金牌回报模型rθj更倾向于选择响应而不是拒绝响应,从而与人类反馈一致,而ai(h, rθj) = 0表示不一致。


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

相关文章
|
机器学习/深度学习 人工智能 并行计算
CPU和GPU的区别
【10月更文挑战第14天】
|
人工智能 安全 算法
上交大、上海人工智能实验室开源首个多轮安全对齐数据集 SafeMTData
最近,以 OpenAI o1 为代表的 AI 大模型的推理能力得到了极大提升,在代码、数学的评估上取得了令人惊讶的效果。OpenAI 声称,推理可以让模型更好的遵守安全政策,是提升模型安全的新路径。
|
JavaScript
升级echarts v5.0以后vue项目报错“export ‘default‘ (imported as ‘echarts‘) was not found in ‘echarts‘
升级echarts v5.0以后vue项目报错“export ‘default‘ (imported as ‘echarts‘) was not found in ‘echarts‘
|
存储 安全 算法
服务器数据恢复—Raid磁盘阵列的安全性分析及常见故障
出于尽可能避免数据灾难的设计初衷,RAID解决了3个问题:容量问题、IO性能问题、存储安全(冗余)问题。从数据恢复的角度讨论RAID的存储安全问题。 常见的起到存储安全作用的RAID方案有RAID1、RAID5及其变形。基本设计思路是相似的:当部分数据异常时,可通过特定算法将数据还原出来。以RAID5为例:如果要记录两个数字,可以通过再多记录这两个数字的和来达到记录冗余性的目的。例如记录3和5,同时再记录这2个数字的和8。在不记得到底是几和5的情况下,只需要用8-5就可以算出这个丢失的数字了,其余情况依此类推。
|
搜索推荐 安全 Android开发
安卓与iOS的哲学对话:技术生态中的选择与命运
【10月更文挑战第24天】 在智能设备的世界里,安卓和iOS不仅是操作系统的简单对立,它们代表了不同的技术哲学和生态策略。本文将探讨这两种系统背后的设计理念、用户体验差异以及它们如何塑造我们的数字生活,从而引发对于“我们如何选择技术”这一命题的深入思考。
|
安全 Linux 虚拟化
minos 2.1 中断虚拟化——ARMv8 异常处理
越往后,交叉的越多,大多都绕不开 ARMv8 的异常处理,所以必须得先了解了解 ARMv8 的异常处理流程 先说一下术语,从手册中的用词来看,在 x86 平台,一般将异常和中断统称为中断,在 ARM 平台,一般将中断和异常统称为异常
426 3
minos 2.1 中断虚拟化——ARMv8 异常处理
|
存储 JSON Go
一文搞懂 Golang 高性能日志库 Zerolog
一文搞懂 Golang 高性能日志库 Zerolog
1380 0
|
Ubuntu Linux 开发工具
linux离线安装docker与compose
linux离线安装docker与compose
813 0
|
人工智能 自然语言处理 API
【AI大模型】Transformers大模型库(十二):Evaluate模型评估
【AI大模型】Transformers大模型库(十二):Evaluate模型评估
718 0
|
安全 网络架构
公网IP,内网IP,动态IP,静态IP的区别
本文介绍了公网IP、内网IP、动态IP和静态IP的基本概念和特点。公网IP可直接连接互联网但易受攻击;内网IP更安全,但限制外部连接。动态IP随机分配,节省资源但不适用于某些场景;静态IP固定不变,利于管理但占用资源且只能单一设备使用。

热门文章

最新文章