【大语言模型】人类反馈在大语言模型对齐中的可靠性有多高？

2024-10-12 120

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时数仓Hologres，5000CU*H 100GB 3个月

检索分析服务 Elasticsearch 版，2核4GB开发者规格 1个月

实时计算 Flink 版，5000CU*H 3个月

简介： 当今的对齐研究大多集中在设计新的学习算法上，使用的是如Anthropic-HH这样的数据集，这些研究假设人类反馈数据本质上是可靠的。然而，对于人类反馈的定性不可靠性及其对对齐的影响，关注甚少。为了填补这一空白，我们进行了一项全面研究，并提供了对人类反馈数据的深入分析。

【大语言模型】人类反馈在大语言模型对齐中的可靠性有多高？

0. 论文信息

@article{yeh2024reliable,
  title={How Reliable Is Human Feedback For Aligning Large Language Models?},
  author={Yeh, Min-Hsuan and Tao, Leitian and Wang, Jeffrey and Du, Xuefeng and Li, Yixuan},
  journal={arXiv preprint arXiv:2410.01957},
  year={2024}
}

这篇论文的标题是《人类反馈在大型语言模型对齐中的可靠性有多高？》。由于篇幅较长，我将分部分来翻译。首先，我会翻译摘要部分，然后逐步翻译剩余的部分。

摘要：
当今的对齐研究大多集中在设计新的学习算法上，使用的是如Anthropic-HH这样的数据集，这些研究假设人类反馈数据本质上是可靠的。然而，对于人类反馈的定性不可靠性及其对对齐的影响，关注甚少。为了填补这一空白，我们进行了一项全面研究，并提供了对人类反馈数据的深入分析。我们使用一组金牌奖励模型来评估反馈的可靠性，揭示了超过25%的数据集与这些模型的一致性低或没有一致性，意味着高度的不可靠性。通过定性分析，我们识别了六个关键的不可靠性来源，如错误标记、主观偏好、不同标准和无害性的帮助标准等。最后，为了减轻不可靠性，我们提出了一种自动数据清洗方法——Source-Aware Cleaning（SAC），它由我们的定性分析的洞察指导，显著提高了数据质量。广泛的实验表明，在我们清洗过的数据集HH-Clean上训练的模型，与在原始数据集上训练的模型相比，性能有了显著提升。我们发布了HH-Clean，以支持未来更可靠的大型语言模型对齐评估。

note: 
Anthropic-HH dataset 是由 Anthropic 公司创建并发布的一个数据集，它通常用于研究和开发人工智能系统，特别是那些涉及人类反馈的强化学习（Reinforcement Learning from Human Feedback，简称 RLHF）的系统。这个数据集可能包含了与人类互动相关的数据，用于训练和评估 AI 模型，使其能够更好地理解和响应人类的行为和偏好。

https://huggingface.co/datasets/Anthropic/hh-rlhf

1 引言

人类反馈已被广泛用于通过对齐大型语言模型（LLMs），通过技术如带有人类反馈的强化学习（Christiano et al., 2017; Ziegler et al., 2019; Stiennon et al., 2020b; Ouyang et al., 2022; Bai et al., 2022a）和离线偏好优化（Rafailov et al., 2023; Gheshlaghi Azar et al., 2024; Ethayarajh et al., 2024a）。实现对齐的关键配方是通过收集关于某些目标的二元偏好，例如有帮助性和无害性。在实践中，向人类注释者呈现相同提示的成对响应，并基于响应的质量提供比较判断（例如，首选，非首选）。通过与人类反馈对齐LLM，这些模型可以生成更好地反映人类价值观和偏好的输出。人类反馈在提炼模型行为中的重要性突显了其关键作用，使其成为许多现实世界LLM系统开发中的基石（OpenAI, 2023; Anthropic, 2023; Touvron et al., 2023; Gemini et al., 2023）。

尽管人类反馈被广泛使用，但其可靠性可能是有问题的。人类注释者可能会向反馈过程中引入偏见、不一致性和噪声，这可能损害对齐的有效性（Wang et al., 2024a）。例如，研究表明，注释者可能会根据个人偏好发散他们的评估（Cheng et al., 2023），如果不适当考虑，可能导致次优甚至有害的结果。如今，大多数现有的对齐研究集中在通过在流行的数据集上基准测试来设计新算法，如Anthropic-HH（Bai et al., 2022a），假设它本质上是可靠的。相比之下，对于人类反馈的定性不可靠性及其对对齐的影响的理解非常有限。我们的研究旨在通过提供对用于对齐大型语言模型的人类反馈数据的深入分析来解决这一差距。据我们所知，以前没有在文献中进行过这种性质的研究。具体来说，我们做出以下贡献：

贡献1：通过一组金牌回报模型（Sec. 2）对人类反馈的可靠性进行分类。我们的研究首先通过与一组金牌回报模型（RMs）（Lambert et al., 2024）进行比较来描述人类反馈的可靠性，这些模型作为理想评估者，接受多样化和高质量的数据集训练。这个委员会由多个独立训练的模型组成，提供集体判断，减少个人偏见和错误。通过将人类反馈与这个委员会进行比较，我们可以系统地评估其可靠性，将其归类为更可靠或不太可靠的反馈。我们的分析揭示了超过25%的Anthropic-HH数据集显示出与金牌RMs的一致性低或没有一致性，突出了数据集的重大质量问题。
贡献2：对人类反馈中的不可靠性来源进行定性分析（Sec. 3）。为了深入了解人类反馈中的不可靠性来源及其与金牌RM投票的关系，我们进行了定性分析，解决了文献中缺乏这种理解的显著差距。设计了一种新颖的注释过程，以引出注释者更丰富的思考，并促进分析。分析揭示了六个关键的不可靠性来源：人类错误、主观偏好、不同标准和无害性的帮助标准、评估响应质量的不同阈值，以及两个响应都是有害或不相关的实例。这些发现揭示了为什么人类反馈可能会与金牌RMs不一致，并突出了注释实践和数据清洗方法改进的领域。
贡献3：提出一种自动数据清洗方法，减轻不可靠性来源（Sec. 4）。在我们的定性分析的洞察指导下，我们提出了一种名为Source-Aware Cleaning（SAC）的自动数据清洗方法，它减轻了主要的不可靠性来源，而不需要人类注释。我们通过与10个数据清洗基线进行比较，进行了广泛的实验，并证明了SAC的优越性。特别是，通过使用我们清洗过的版本数据集HH-Clean对Llama-3-8B模型进行对齐，我们实现了对使用原始数据集进行对齐的模型的最高胜率为77%，由GPT-4评估。总的来说，我们的方法与基于启发式驱动且无法以针对性方式减轻不可靠性来源的基线相比，显示出一致的改进。我们在此处链接发布了HH-Clean数据集，该数据集将公开提供。这为研究社区提供了一个更可靠的数据集，用于评估和基准测试未来的对齐方法。

2 人类反馈与金牌回报模型一致吗？

在本节中，我们基于与一组金牌回报模型（Lambert et al., 2024）的一致性来描述人类反馈的可靠性。金牌回报模型作为理想化的评价者，用于评估响应的质量，其中更高的金牌奖励表示响应更好地符合人类偏好。这些模型通常来源于在高质量偏好数据集（如UltraFeedback，Cui et al., 2023）上的广泛训练，捕捉到构成理想行为的细微理解。一组金牌回报模型由多个独立训练的模型组成，每个模型都为集体判断做出贡献，减少了个体偏见和错误。通过将人类反馈与这个委员会进行比较，我们可以系统地评估其可靠性，将其归类为更可靠或不太可靠的反馈。在这个框架中，假设与金牌回报模型更频繁一致的人类反馈具有更高的可靠性水平。相反，与金牌回报模型显著不一致的人类反馈引发了对其可靠性的担忧，反映了人类感知与理想化偏好之间的潜在不一致。

我们首先对人类偏好数据集进行正式定义。我们的分析框架旨在适用于遵循此标准定义的数据集。

定义2.1（人类偏好数据）。 考虑两个响应yc，yr对于输入提示x，如果yc被优先选择，则表示为yc ≻ yr。我们将yc称为被选择或首选的响应，yr称为被拒绝的响应。每个三元组（x，yc，yr）被称为偏好。此外，经验数据集D = {(x(i), y(i) c , y(i) r )}n i=1由n个这样的三元组组成，这些三元组是从偏好分布中采样的。

一组金牌回报模型。为了分析给定的人类偏好数据集D，我们采用了来自RewardBench的八种金牌回报模型。这八种金牌RM是在Lambert等人（2024）的表2中列出的表现最好的模型之一，包括ArmoRM（Wang et al., 2024b），PairRM（Jiang et al., 2023），Starling（Zhu et al., 2024a），Eurus（Yuan et al., 2024）等。特别是，在RewardBench上获得高分的金牌RM被认为在各种领域（包括对话能力、指令遵循、安全性等）与人类偏好更一致。与直接在目标数据集D上训练的回报模型相比，金牌RM更适合评估人类反馈的质量。这是因为金牌RM不太可能过度拟合目标数据集中的错误或偏见。正式地，我们将金牌RM委员会表示为Θ = {rθ1, ..., rθM }。收集模型的详细信息在附录A中提供。

金牌回报模型的偏好。利用每个金牌回报模型rθj ∈ Θ，我们可以计算人类偏好数据集D中被选择和被拒绝响应的奖励，分别表示为rθj(x, yc)和rθj(x, yr)。对于D中的第i个数据点，我们根据指示函数测量人类反馈和金牌回报模型之间的一致性：ai(h, rθj) = 1[rθj(x(i), y(i) c ) ≻ rθj(x(i), y(i) r )]，其中h表示人类反馈。具体来说，ai(h, rθj) = 1表示金牌回报模型rθj更倾向于选择响应而不是拒绝响应，从而与人类反馈一致，而ai(h, rθj) = 0表示不一致。

后记

如果您对我的博客内容感兴趣，欢迎三连击(点赞、收藏、关注和评论)，我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型，深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享，助力您更快更准更系统地了解 AI前沿技术。

【大语言模型】人类反馈在大语言模型对齐中的可靠性有多高？

【大语言模型】人类反馈在大语言模型对齐中的可靠性有多高？

0. 论文信息

后记

大数据与机器学习

热门文章

最新文章

相关课程

相关电子书

相关实验场景