【大语言模型】人类反馈在大语言模型对齐中的可靠性有多高?

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 当今的对齐研究大多集中在设计新的学习算法上,使用的是如Anthropic-HH这样的数据集,这些研究假设人类反馈数据本质上是可靠的。然而,对于人类反馈的定性不可靠性及其对对齐的影响,关注甚少。为了填补这一空白,我们进行了一项全面研究,并提供了对人类反馈数据的深入分析。

【大语言模型】人类反馈在大语言模型对齐中的可靠性有多高?

0. 论文信息

image.png

@article{yeh2024reliable,
  title={How Reliable Is Human Feedback For Aligning Large Language Models?},
  author={Yeh, Min-Hsuan and Tao, Leitian and Wang, Jeffrey and Du, Xuefeng and Li, Yixuan},
  journal={arXiv preprint arXiv:2410.01957},
  year={2024}
}

这篇论文的标题是《人类反馈在大型语言模型对齐中的可靠性有多高?》。由于篇幅较长,我将分部分来翻译。首先,我会翻译摘要部分,然后逐步翻译剩余的部分。

摘要:
当今的对齐研究大多集中在设计新的学习算法上,使用的是如Anthropic-HH这样的数据集,这些研究假设人类反馈数据本质上是可靠的。然而,对于人类反馈的定性不可靠性及其对对齐的影响,关注甚少。为了填补这一空白,我们进行了一项全面研究,并提供了对人类反馈数据的深入分析。我们使用一组金牌奖励模型来评估反馈的可靠性,揭示了超过25%的数据集与这些模型的一致性低或没有一致性,意味着高度的不可靠性。通过定性分析,我们识别了六个关键的不可靠性来源,如错误标记、主观偏好、不同标准和无害性的帮助标准等。最后,为了减轻不可靠性,我们提出了一种自动数据清洗方法——Source-Aware Cleaning(SAC),它由我们的定性分析的洞察指导,显著提高了数据质量。广泛的实验表明,在我们清洗过的数据集HH-Clean上训练的模型,与在原始数据集上训练的模型相比,性能有了显著提升。我们发布了HH-Clean,以支持未来更可靠的大型语言模型对齐评估。

note: 
Anthropic-HH dataset 是由 Anthropic 公司创建并发布的一个数据集,它通常用于研究和开发人工智能系统,特别是那些涉及人类反馈的强化学习(Reinforcement Learning from Human Feedback,简称 RLHF)的系统。这个数据集可能包含了与人类互动相关的数据,用于训练和评估 AI 模型,使其能够更好地理解和响应人类的行为和偏好。

https://huggingface.co/datasets/Anthropic/hh-rlhf
image-1.png

1 引言

人类反馈已被广泛用于通过对齐大型语言模型(LLMs),通过技术如带有人类反馈的强化学习(Christiano et al., 2017; Ziegler et al., 2019; Stiennon et al., 2020b; Ouyang et al., 2022; Bai et al., 2022a)和离线偏好优化(Rafailov et al., 2023; Gheshlaghi Azar et al., 2024; Ethayarajh et al., 2024a)。实现对齐的关键配方是通过收集关于某些目标的二元偏好,例如有帮助性和无害性。在实践中,向人类注释者呈现相同提示的成对响应,并基于响应的质量提供比较判断(例如,首选,非首选)。通过与人类反馈对齐LLM,这些模型可以生成更好地反映人类价值观和偏好的输出。人类反馈在提炼模型行为中的重要性突显了其关键作用,使其成为许多现实世界LLM系统开发中的基石(OpenAI, 2023; Anthropic, 2023; Touvron et al., 2023; Gemini et al., 2023)。

尽管人类反馈被广泛使用,但其可靠性可能是有问题的。人类注释者可能会向反馈过程中引入偏见、不一致性和噪声,这可能损害对齐的有效性(Wang et al., 2024a)。例如,研究表明,注释者可能会根据个人偏好发散他们的评估(Cheng et al., 2023),如果不适当考虑,可能导致次优甚至有害的结果。如今,大多数现有的对齐研究集中在通过在流行的数据集上基准测试来设计新算法,如Anthropic-HH(Bai et al., 2022a),假设它本质上是可靠的。相比之下,对于人类反馈的定性不可靠性及其对对齐的影响的理解非常有限。我们的研究旨在通过提供对用于对齐大型语言模型的人类反馈数据的深入分析来解决这一差距。据我们所知,以前没有在文献中进行过这种性质的研究。具体来说,我们做出以下贡献:

  • 贡献1:通过一组金牌回报模型(Sec. 2)对人类反馈的可靠性进行分类。我们的研究首先通过与一组金牌回报模型(RMs)(Lambert et al., 2024)进行比较来描述人类反馈的可靠性,这些模型作为理想评估者,接受多样化和高质量的数据集训练。这个委员会由多个独立训练的模型组成,提供集体判断,减少个人偏见和错误。通过将人类反馈与这个委员会进行比较,我们可以系统地评估其可靠性,将其归类为更可靠或不太可靠的反馈。我们的分析揭示了超过25%的Anthropic-HH数据集显示出与金牌RMs的一致性低或没有一致性,突出了数据集的重大质量问题。

  • 贡献2:对人类反馈中的不可靠性来源进行定性分析(Sec. 3)。为了深入了解人类反馈中的不可靠性来源及其与金牌RM投票的关系,我们进行了定性分析,解决了文献中缺乏这种理解的显著差距。设计了一种新颖的注释过程,以引出注释者更丰富的思考,并促进分析。分析揭示了六个关键的不可靠性来源:人类错误、主观偏好、不同标准和无害性的帮助标准、评估响应质量的不同阈值,以及两个响应都是有害或不相关的实例。这些发现揭示了为什么人类反馈可能会与金牌RMs不一致,并突出了注释实践和数据清洗方法改进的领域。

  • 贡献3:提出一种自动数据清洗方法,减轻不可靠性来源(Sec. 4)。在我们的定性分析的洞察指导下,我们提出了一种名为Source-Aware Cleaning(SAC)的自动数据清洗方法,它减轻了主要的不可靠性来源,而不需要人类注释。我们通过与10个数据清洗基线进行比较,进行了广泛的实验,并证明了SAC的优越性。特别是,通过使用我们清洗过的版本数据集HH-Clean对Llama-3-8B模型进行对齐,我们实现了对使用原始数据集进行对齐的模型的最高胜率为77%,由GPT-4评估。总的来说,我们的方法与基于启发式驱动且无法以针对性方式减轻不可靠性来源的基线相比,显示出一致的改进。我们在此处链接发布了HH-Clean数据集,该数据集将公开提供。这为研究社区提供了一个更可靠的数据集,用于评估和基准测试未来的对齐方法。

2 人类反馈与金牌回报模型一致吗?

在本节中,我们基于与一组金牌回报模型(Lambert et al., 2024)的一致性来描述人类反馈的可靠性。金牌回报模型作为理想化的评价者,用于评估响应的质量,其中更高的金牌奖励表示响应更好地符合人类偏好。这些模型通常来源于在高质量偏好数据集(如UltraFeedback,Cui et al., 2023)上的广泛训练,捕捉到构成理想行为的细微理解。一组金牌回报模型由多个独立训练的模型组成,每个模型都为集体判断做出贡献,减少了个体偏见和错误。通过将人类反馈与这个委员会进行比较,我们可以系统地评估其可靠性,将其归类为更可靠或不太可靠的反馈。在这个框架中,假设与金牌回报模型更频繁一致的人类反馈具有更高的可靠性水平。相反,与金牌回报模型显著不一致的人类反馈引发了对其可靠性的担忧,反映了人类感知与理想化偏好之间的潜在不一致。

我们首先对人类偏好数据集进行正式定义。我们的分析框架旨在适用于遵循此标准定义的数据集。

定义2.1(人类偏好数据)。 考虑两个响应yc,yr对于输入提示x,如果yc被优先选择,则表示为yc ≻ yr。我们将yc称为被选择或首选的响应,yr称为被拒绝的响应。每个三元组(x,yc,yr)被称为偏好。此外,经验数据集D = {(x(i), y(i) c , y(i) r )}n i=1由n个这样的三元组组成,这些三元组是从偏好分布中采样的。

一组金牌回报模型。为了分析给定的人类偏好数据集D,我们采用了来自RewardBench的八种金牌回报模型。这八种金牌RM是在Lambert等人(2024)的表2中列出的表现最好的模型之一,包括ArmoRM(Wang et al., 2024b),PairRM(Jiang et al., 2023),Starling(Zhu et al., 2024a),Eurus(Yuan et al., 2024)等。特别是,在RewardBench上获得高分的金牌RM被认为在各种领域(包括对话能力、指令遵循、安全性等)与人类偏好更一致。与直接在目标数据集D上训练的回报模型相比,金牌RM更适合评估人类反馈的质量。这是因为金牌RM不太可能过度拟合目标数据集中的错误或偏见。正式地,我们将金牌RM委员会表示为Θ = {rθ1, ..., rθM }。收集模型的详细信息在附录A中提供。

金牌回报模型的偏好。利用每个金牌回报模型rθj ∈ Θ,我们可以计算人类偏好数据集D中被选择和被拒绝响应的奖励,分别表示为rθj(x, yc)和rθj(x, yr)。对于D中的第i个数据点,我们根据指示函数测量人类反馈和金牌回报模型之间的一致性:ai(h, rθj) = 1[rθj(x(i), y(i) c ) ≻ rθj(x(i), y(i) r )],其中h表示人类反馈。具体来说,ai(h, rθj) = 1表示金牌回报模型rθj更倾向于选择响应而不是拒绝响应,从而与人类反馈一致,而ai(h, rθj) = 0表示不一致。


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

目录
相关文章
|
人工智能 自动驾驶 机器人
吴泳铭:AI最大的想象力不在手机屏幕,而是改变物理世界
过去22个月,AI发展速度超过任何历史时期,但我们依然还处于AGI变革的早期。生成式AI最大的想象力,绝不是在手机屏幕上做一两个新的超级app,而是接管数字世界,改变物理世界。
9296 73
吴泳铭:AI最大的想象力不在手机屏幕,而是改变物理世界
|
存储 关系型数据库 分布式数据库
GraphRAG:基于PolarDB+通义千问+LangChain的知识图谱+大模型最佳实践
本文介绍了如何使用PolarDB、通义千问和LangChain搭建GraphRAG系统,结合知识图谱和向量检索提升问答质量。通过实例展示了单独使用向量检索和图检索的局限性,并通过图+向量联合搜索增强了问答准确性。PolarDB支持AGE图引擎和pgvector插件,实现图数据和向量数据的统一存储与检索,提升了RAG系统的性能和效果。
|
11月前
|
人工智能 JavaScript 数据可视化
Cursor、v0 和 Bolt.new:当今 AI 编程工具的全面解析与对比
本文深入解析了 Cursor AI、v0 和 Bolt.new 三大 AI 编程工具的特点与应用场景。Cursor 适合日常编码与团队协作,v0 专注于 UI 原型设计,Bolt.new 擅长全栈原型开发。各工具在功能上互为补充,开发者可根据需求灵活选择,以提升工作效率。
4877 1
|
人工智能 自然语言处理 Serverless
阿里云函数计算 x NVIDIA 加速企业 AI 应用落地
阿里云函数计算与 NVIDIA TensorRT/TensorRT-LLM 展开合作,通过结合阿里云的无缝计算体验和 NVIDIA 的高性能推理库,开发者能够以更低的成本、更高的效率完成复杂的 AI 任务,加速技术落地和应用创新。
704 15
|
11月前
|
XML JSON API
带你了解淘宝API是如何使用的
淘宝API使用介绍:需先注册开发者账号并创建应用以获取appkey和appsecret。熟悉API文档,了解接口功能和调用方式。调用地址为http://gw.api.taobao.com/router/rest,支持GET/POST方式。调用时需进行签名验证,返回数据主要为xml/json格式,需注意接口访问频次限制等。
带你了解淘宝API是如何使用的
|
传感器 物联网 数据挖掘
物联网在智慧城市交通管理系统中的应用
物联网在智慧城市交通管理系统中的应用
523 1
|
机器学习/深度学习 人工智能 算法
全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型
【6月更文挑战第4天】普林斯顿大学陈丹琦团队推出SimPO,一种超越DPO的强化学习优化算法,旨在优化大型语言模型以符合人类价值观。SimPO通过序列平均对数概率作为奖励,提高计算效率并减少对参考模型的依赖。在多基准测试中,SimPO表现优秀,尤其在AlpacaEval 2和Arena-Hard上大幅超越现有方法。团队还基于Llama3-8B-Instruct创建了最强8B开源模型,推动AI技术发展。尽管存在超参数敏感性等挑战,SimPO仍为AI优化提供新途径。[论文链接](https://arxiv.org/pdf/2405.14734)
249 1
|
机器学习/深度学习 存储 自然语言处理
Transformer中的FFN介绍
Transformer中的FFN介绍
898 0
Transformer中的FFN介绍
|
Linux Android开发
Rockchip CAN 部分波特率收发不正常解决思路
Rockchip CAN 部分波特率收发不正常解决思路
208 0
新年Html动态特效祝福送给你
新年Html动态特效祝福送给你
627 0
新年Html动态特效祝福送给你