【大语言模型】人类反馈在大语言模型对齐中的可靠性有多高?

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 当今的对齐研究大多集中在设计新的学习算法上,使用的是如Anthropic-HH这样的数据集,这些研究假设人类反馈数据本质上是可靠的。然而,对于人类反馈的定性不可靠性及其对对齐的影响,关注甚少。为了填补这一空白,我们进行了一项全面研究,并提供了对人类反馈数据的深入分析。

【大语言模型】人类反馈在大语言模型对齐中的可靠性有多高?

0. 论文信息

image.png

@article{yeh2024reliable,
  title={How Reliable Is Human Feedback For Aligning Large Language Models?},
  author={Yeh, Min-Hsuan and Tao, Leitian and Wang, Jeffrey and Du, Xuefeng and Li, Yixuan},
  journal={arXiv preprint arXiv:2410.01957},
  year={2024}
}

这篇论文的标题是《人类反馈在大型语言模型对齐中的可靠性有多高?》。由于篇幅较长,我将分部分来翻译。首先,我会翻译摘要部分,然后逐步翻译剩余的部分。

摘要:
当今的对齐研究大多集中在设计新的学习算法上,使用的是如Anthropic-HH这样的数据集,这些研究假设人类反馈数据本质上是可靠的。然而,对于人类反馈的定性不可靠性及其对对齐的影响,关注甚少。为了填补这一空白,我们进行了一项全面研究,并提供了对人类反馈数据的深入分析。我们使用一组金牌奖励模型来评估反馈的可靠性,揭示了超过25%的数据集与这些模型的一致性低或没有一致性,意味着高度的不可靠性。通过定性分析,我们识别了六个关键的不可靠性来源,如错误标记、主观偏好、不同标准和无害性的帮助标准等。最后,为了减轻不可靠性,我们提出了一种自动数据清洗方法——Source-Aware Cleaning(SAC),它由我们的定性分析的洞察指导,显著提高了数据质量。广泛的实验表明,在我们清洗过的数据集HH-Clean上训练的模型,与在原始数据集上训练的模型相比,性能有了显著提升。我们发布了HH-Clean,以支持未来更可靠的大型语言模型对齐评估。

note: 
Anthropic-HH dataset 是由 Anthropic 公司创建并发布的一个数据集,它通常用于研究和开发人工智能系统,特别是那些涉及人类反馈的强化学习(Reinforcement Learning from Human Feedback,简称 RLHF)的系统。这个数据集可能包含了与人类互动相关的数据,用于训练和评估 AI 模型,使其能够更好地理解和响应人类的行为和偏好。

https://huggingface.co/datasets/Anthropic/hh-rlhf
image-1.png

1 引言

人类反馈已被广泛用于通过对齐大型语言模型(LLMs),通过技术如带有人类反馈的强化学习(Christiano et al., 2017; Ziegler et al., 2019; Stiennon et al., 2020b; Ouyang et al., 2022; Bai et al., 2022a)和离线偏好优化(Rafailov et al., 2023; Gheshlaghi Azar et al., 2024; Ethayarajh et al., 2024a)。实现对齐的关键配方是通过收集关于某些目标的二元偏好,例如有帮助性和无害性。在实践中,向人类注释者呈现相同提示的成对响应,并基于响应的质量提供比较判断(例如,首选,非首选)。通过与人类反馈对齐LLM,这些模型可以生成更好地反映人类价值观和偏好的输出。人类反馈在提炼模型行为中的重要性突显了其关键作用,使其成为许多现实世界LLM系统开发中的基石(OpenAI, 2023; Anthropic, 2023; Touvron et al., 2023; Gemini et al., 2023)。

尽管人类反馈被广泛使用,但其可靠性可能是有问题的。人类注释者可能会向反馈过程中引入偏见、不一致性和噪声,这可能损害对齐的有效性(Wang et al., 2024a)。例如,研究表明,注释者可能会根据个人偏好发散他们的评估(Cheng et al., 2023),如果不适当考虑,可能导致次优甚至有害的结果。如今,大多数现有的对齐研究集中在通过在流行的数据集上基准测试来设计新算法,如Anthropic-HH(Bai et al., 2022a),假设它本质上是可靠的。相比之下,对于人类反馈的定性不可靠性及其对对齐的影响的理解非常有限。我们的研究旨在通过提供对用于对齐大型语言模型的人类反馈数据的深入分析来解决这一差距。据我们所知,以前没有在文献中进行过这种性质的研究。具体来说,我们做出以下贡献:

  • 贡献1:通过一组金牌回报模型(Sec. 2)对人类反馈的可靠性进行分类。我们的研究首先通过与一组金牌回报模型(RMs)(Lambert et al., 2024)进行比较来描述人类反馈的可靠性,这些模型作为理想评估者,接受多样化和高质量的数据集训练。这个委员会由多个独立训练的模型组成,提供集体判断,减少个人偏见和错误。通过将人类反馈与这个委员会进行比较,我们可以系统地评估其可靠性,将其归类为更可靠或不太可靠的反馈。我们的分析揭示了超过25%的Anthropic-HH数据集显示出与金牌RMs的一致性低或没有一致性,突出了数据集的重大质量问题。

  • 贡献2:对人类反馈中的不可靠性来源进行定性分析(Sec. 3)。为了深入了解人类反馈中的不可靠性来源及其与金牌RM投票的关系,我们进行了定性分析,解决了文献中缺乏这种理解的显著差距。设计了一种新颖的注释过程,以引出注释者更丰富的思考,并促进分析。分析揭示了六个关键的不可靠性来源:人类错误、主观偏好、不同标准和无害性的帮助标准、评估响应质量的不同阈值,以及两个响应都是有害或不相关的实例。这些发现揭示了为什么人类反馈可能会与金牌RMs不一致,并突出了注释实践和数据清洗方法改进的领域。

  • 贡献3:提出一种自动数据清洗方法,减轻不可靠性来源(Sec. 4)。在我们的定性分析的洞察指导下,我们提出了一种名为Source-Aware Cleaning(SAC)的自动数据清洗方法,它减轻了主要的不可靠性来源,而不需要人类注释。我们通过与10个数据清洗基线进行比较,进行了广泛的实验,并证明了SAC的优越性。特别是,通过使用我们清洗过的版本数据集HH-Clean对Llama-3-8B模型进行对齐,我们实现了对使用原始数据集进行对齐的模型的最高胜率为77%,由GPT-4评估。总的来说,我们的方法与基于启发式驱动且无法以针对性方式减轻不可靠性来源的基线相比,显示出一致的改进。我们在此处链接发布了HH-Clean数据集,该数据集将公开提供。这为研究社区提供了一个更可靠的数据集,用于评估和基准测试未来的对齐方法。

2 人类反馈与金牌回报模型一致吗?

在本节中,我们基于与一组金牌回报模型(Lambert et al., 2024)的一致性来描述人类反馈的可靠性。金牌回报模型作为理想化的评价者,用于评估响应的质量,其中更高的金牌奖励表示响应更好地符合人类偏好。这些模型通常来源于在高质量偏好数据集(如UltraFeedback,Cui et al., 2023)上的广泛训练,捕捉到构成理想行为的细微理解。一组金牌回报模型由多个独立训练的模型组成,每个模型都为集体判断做出贡献,减少了个体偏见和错误。通过将人类反馈与这个委员会进行比较,我们可以系统地评估其可靠性,将其归类为更可靠或不太可靠的反馈。在这个框架中,假设与金牌回报模型更频繁一致的人类反馈具有更高的可靠性水平。相反,与金牌回报模型显著不一致的人类反馈引发了对其可靠性的担忧,反映了人类感知与理想化偏好之间的潜在不一致。

我们首先对人类偏好数据集进行正式定义。我们的分析框架旨在适用于遵循此标准定义的数据集。

定义2.1(人类偏好数据)。 考虑两个响应yc,yr对于输入提示x,如果yc被优先选择,则表示为yc ≻ yr。我们将yc称为被选择或首选的响应,yr称为被拒绝的响应。每个三元组(x,yc,yr)被称为偏好。此外,经验数据集D = {(x(i), y(i) c , y(i) r )}n i=1由n个这样的三元组组成,这些三元组是从偏好分布中采样的。

一组金牌回报模型。为了分析给定的人类偏好数据集D,我们采用了来自RewardBench的八种金牌回报模型。这八种金牌RM是在Lambert等人(2024)的表2中列出的表现最好的模型之一,包括ArmoRM(Wang et al., 2024b),PairRM(Jiang et al., 2023),Starling(Zhu et al., 2024a),Eurus(Yuan et al., 2024)等。特别是,在RewardBench上获得高分的金牌RM被认为在各种领域(包括对话能力、指令遵循、安全性等)与人类偏好更一致。与直接在目标数据集D上训练的回报模型相比,金牌RM更适合评估人类反馈的质量。这是因为金牌RM不太可能过度拟合目标数据集中的错误或偏见。正式地,我们将金牌RM委员会表示为Θ = {rθ1, ..., rθM }。收集模型的详细信息在附录A中提供。

金牌回报模型的偏好。利用每个金牌回报模型rθj ∈ Θ,我们可以计算人类偏好数据集D中被选择和被拒绝响应的奖励,分别表示为rθj(x, yc)和rθj(x, yr)。对于D中的第i个数据点,我们根据指示函数测量人类反馈和金牌回报模型之间的一致性:ai(h, rθj) = 1[rθj(x(i), y(i) c ) ≻ rθj(x(i), y(i) r )],其中h表示人类反馈。具体来说,ai(h, rθj) = 1表示金牌回报模型rθj更倾向于选择响应而不是拒绝响应,从而与人类反馈一致,而ai(h, rθj) = 0表示不一致。


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

目录
相关文章
|
7月前
|
人工智能 安全 数据安全/隐私保护
Sora会给人类的生活带来怎样的影响?
Sora会给人类的生活带来怎样的影响?
456 2
Sora会给人类的生活带来怎样的影响?
|
3天前
|
机器学习/深度学习 人工智能 调度
高效评估多模态预训练对齐质量,中科大提出模态融合率MIR
中国科学技术大学研究团队提出了一种新的评估指标——模态融合率(MIR),用于评估多模态预训练模型的对齐质量。MIR通过衡量不同模态之间的分布距离,有效反映了模型的对齐质量,并在多种训练配置下表现出良好的鲁棒性和通用性。实验结果表明,MIR能够准确评估训练数据选择、训练策略调度和模型架构设计对预训练结果的影响,为多模态学习提供了可靠的方法。
32 22
|
25天前
|
人工智能 开发者
人类自身都对不齐,怎么对齐AI?新研究全面审视偏好在AI对齐中的作用
论文《AI对齐中的超越偏好》挑战了偏好主义AI对齐方法,指出偏好无法全面代表人类价值观,存在冲突和变化,并受社会影响。文章提出基于角色的对齐方案,强调AI应与其社会角色相关的规范标准一致,而非仅关注个人偏好,旨在实现更稳定、适用性更广且更符合社会利益的AI对齐。论文链接:https://arxiv.org/pdf/2408.16984
33 2
|
5月前
|
机器学习/深度学习 自然语言处理 算法
人类偏好对齐训练技术解析
大型语言模型(LLMs)通过在大量文本数据集上进行无监督预训练,获得丰富的语言模式和知识,这一阶段训练后的模型被称为base model。
|
2月前
|
机器学习/深度学习 算法 安全
大模型进阶微调篇(二):基于人类反馈的强化学习RLHF原理、优点介绍,但需要警惕LLMs的拍马屁行为
本文探讨了基于人类反馈的强化学习(RLHF)方法的优缺点。作者指出,虽然RLHF能够使模型更好地满足用户需求,但也存在缺乏多样性、创新不足、偏好固化和难以适应动态变化等问题。文章通过具体实验和示例代码,详细解析了RLHF的工作原理,并强调了其在实际应用中的潜在风险。
238 6
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
扩散引导语言建模(DGLM):一种可控且高效的AI对齐方法
DGLM(Diffusion Guided Language Modeling)是一种新型框架,结合了自回归模型的流畅性和扩散模型的灵活性,解决了现有引导生成方法的局限性。DGLM通过扩散网络生成语义提案,并使用轻量级提示生成器将嵌入转化为软提示,引导自回归解码器生成文本。该方法无需微调模型权重,易于控制新属性,并在多个基准数据集上表现出色。实验结果显示,DGLM在毒性缓解、情感控制和组合控制等方面优于现有方法,为可控文本生成提供了新的方向。
54 10
扩散引导语言建模(DGLM):一种可控且高效的AI对齐方法
|
4月前
长上下文能力只是吹牛?最强GPT-4o正确率仅55.8%,开源模型不如瞎蒙
【8月更文挑战第10天】新研究NoCha挑战显示,即使是顶级的大型语言模型GPT-4o,在处理长篇幅文本时正确率仅55.8%,低于人类直观水平。该挑战基于近作英文小说,检验模型对整本书信息的理解与推理能力。结果显示,模型在全局推理上的表现不佳,倾向于依赖局部信息而非整体上下文,尤其是在复杂推理需求高的科幻小说上表现更弱。这一发现揭示了当前模型在处理长上下文任务上的局限性。论文链接: [https://arxiv.org/pdf/2406.16264](https://arxiv.org/pdf/2406.16264)。
127 65
|
5月前
|
Web App开发
生成式模型不只会模仿!哈佛、UCSB等最新成果:性能可超越训练集专家水平
【7月更文挑战第23天】研究人员从哈佛大学、UC Santa Barbara等机构展示了生成式模型的新突破:在特定任务上实现超越训练集专家水平的性能。通过“低温度采样”减少模型不确定性,实验中一个名为ChessFormer的模型在下棋任务上表现出了超越性,即性能超过了训练集中专家的平均水平。这项工作揭示了生成式模型在特定条件下实现超越的可能性,为该领域的研究和应用提供了新视角。[论文](https://arxiv.org/pdf/2406.11741)
39 2
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
ICML 2024 Spotlight:在解码中重新对齐,让语言模型更少幻觉、更符合人类偏好
【7月更文挑战第13天】ICML 2024 Spotlight: Decoding-time Realignment改善语言模型,减少幻觉,增强人类偏好一致性。研究提出在解码阶段动态调整模型对齐,通过控制参数实现对齐与性能平衡,提高泛化能力。尽管面临参数选择及计算资源挑战,该技术为优化AI文本生成对齐提供了新途径。[论文链接](https://openreview.net/forum?id=n8g6WMxt09&noteId=E3VVDPVOPZ)**
82 9
|
6月前
|
数据采集 机器学习/深度学习 人工智能
可信度超越GPT-4V,清华&面壁揭秘小钢炮模型背后的高效对齐技术
【6月更文挑战第15天】清华大学与面壁智能合作的RLAIF-V框架挑战GPT-4V,通过开源AI反馈增强大语言模型的可信度。该框架利用开放数据和在线学习优化对齐,减少幻觉错误,12B参数模型表现超越GPT-4V。虽有数据质量和稳定性问题,但展示出开源MLLMs潜力。[链接: https://arxiv.org/abs/2405.17220]
132 1