10行代码媲美RLHF,用社交游戏数据训练社会对齐模型

简介: 10行代码媲美RLHF,用社交游戏数据训练社会对齐模型


机器之心编辑部

人类大脑中真的存在一个打分模型负责价值判断吗?


让语言模型的行为符合人类社会价值观是当前语言模型开发的重要环节。相应的训练也被称为价值对齐 (value alignment)。

当前主流的方案是 ChatGPT 所采用的 RLHF (Reinforcenment Learning from Human Feedback),也就是在人类反馈上进行强化学习。这一方案首先先训练一个 reward model (价值模型)作为人类判断的代理。代理模型在强化学习阶段为生成式语言模型的提供奖励作为监督信号。

这一方法存在如下痛点:

1. 代理模型产生的奖励很容易被破解或者篡改。比如如果代理模型的训练语料中,比较长的并且详细的文本大部分被标记为高分,那么代理模型很可能错误奖励冗长但是却不切题的回复。多个显式的奖励目标很可能相互冲突,比如无害的回答很可能没有信息量。

2. 在训练过程中,代理模型需要和生成式模型进行不断交互,而这一过程可能非常耗时且效率不高。为了保证高质量的监督信号,代理模型不应小于生成式模型,这也就意味着在强化学习优化过程中,至少有两个比较大的模型需要交替进行推理(判断得到的奖励)和参数更新(生成式模型参数优化)。这样的设定在大规模分布式训练中可能会非常不便。

3. 价值模型本身并无和人类思考模型上明显的对应。我们脑海中并没有一个单独的打分模型,而且实际上长期维护一个固定的打分标准也非常困难。相反,我们的成长过程中价值判断的形成大部分来自每天的社交 —— 通过对相似场景的不同社交反馈的分析,我们逐渐意识到什么是会被鼓励的,什么是不允许的。这些通过大量 “社交 — 反馈 — 改进” 而逐渐积累的经验和共识成为了人类社会共同的价值判断。

最近一项来自达特茅斯,斯坦福,谷歌 DeepMind 等机构的研究表明,利用社交游戏构造的高质量数据配合简单高效的对齐算法,也许才是实现 alignment 的关键所在。




作者提出一种在多智能体游戏数据上训练的对齐方法。基本思想可以理解为将训练阶段的奖励模型和生成式模型的在线交互 (低采样率,存在奖励破解问题)转移到游戏中大量自主智能体之间的离线交互之中(高采样率,提前预演博弈)。游戏环境的运行独立于训练,并且可以大量并行。监督信号从取决于代理奖励模型的性能变成取决于大量自主智能体的集体智慧。


为此作者设计了一个虚拟社会模型,称之为沙盒 Sandbox。沙盒是一个格点构成的世界,每一个格点是一个 social agent (社交体)。社交体具有记忆系统,用于存储每一次交互的问题,回答,反馈等各种信息。在社交体每一次对于问题做出回答时,都要先从记忆系统中检索并返回和问题最相关的 N 条历史问答,作为这一次回复的上下文参考。通过这一设计,社交体能在多轮互动中的立场不断更新,且更新的立场能和过去保持一定延续性。初始化阶段每一个社交体都有不同的预设立场。

将游戏数据转化为 alignment 数据
在实验中作者使用 10x10 的格点沙盒(一共 100 个社交体)进行社会仿真,且制定了一个社会规则(即所谓 Sandbox Rule):所有社交体必须通过使自己对于问题的回答更加 socially aligned (社交对齐)来给其它社交体留下好的印象。此外沙盒还部署了没有记忆的观察者,在每一次社交前后,给社交体的答复做出打分。打分基于 alignment 和 engagement 两个维度。

使用不同模型在沙盒中的模拟人类社会

作者利用沙盒 Sandbox 测试了不同大小,以及不同训练阶段的语言模型。整体而言,经过 alignment 训练的模型 (即所谓 “对齐后的模型”),比如 davinci-003, GPT-4,和 ChatGPT,能在更少的交互轮次中就能生成符合社会规范的回复。换句话说,alignment 训练的意义就在于让模型在 “开箱即用” 的场景下更加安全,而不需要特别的多轮对话引导。而未经 alignment 训练的模型,不仅需要更多的交互次数使回复达到 alignment 和 engagement 的整体最优,而且这种整体最优的上限显著低于对齐后的模型。


作者同时提出一种简便易行的对齐算法,称为 Stable Alignment (稳定对齐),用于从沙盒的历史数据中学习 alignment。稳定对齐算法在每一个 mini-batch (小批次)中进行打分调制的对比学习 —— 回复的得分越低,对比学习的边界值就会被设定的越大 —— 换句话说,稳定对齐通过不断采样小批次数据,鼓励模型生成更接近高分回复,更不接近低分回复。稳定对齐最终会收敛于 SFT 损失。作者还对稳定对齐和 SFT,RLHF 的差异进行了讨论。


作者特别强调来自沙盒 Sandbox 的游戏的数据,由于机制的设定,大量包含通过修订 (revision)而成为符合社会价值观的数据。作者通过消融实验证明这种大量自带渐进式 (step-by-step)改进的数据是稳定训练的关键。



作者还和当前主流对齐算法性能和训练稳定性进行了性能上的比较,证明稳定对齐不仅比 reward modeling 更稳定,而且在通用性能和 alignment 性能上都足以媲美 RLHF (由于 ChatGPT 使用未公开的模型,数据和算法,因此仅作为参考)。

实例生成结果:


更多细节请参考论文。

相关文章
|
4月前
|
机器学习/深度学习 自然语言处理 算法
人类偏好对齐训练技术解析
大型语言模型(LLMs)通过在大量文本数据集上进行无监督预训练,获得丰富的语言模式和知识,这一阶段训练后的模型被称为base model。
|
4月前
|
Web App开发
生成式模型不只会模仿!哈佛、UCSB等最新成果:性能可超越训练集专家水平
【7月更文挑战第23天】研究人员从哈佛大学、UC Santa Barbara等机构展示了生成式模型的新突破:在特定任务上实现超越训练集专家水平的性能。通过“低温度采样”减少模型不确定性,实验中一个名为ChessFormer的模型在下棋任务上表现出了超越性,即性能超过了训练集中专家的平均水平。这项工作揭示了生成式模型在特定条件下实现超越的可能性,为该领域的研究和应用提供了新视角。[论文](https://arxiv.org/pdf/2406.11741)
34 2
|
3月前
|
机器学习/深度学习 数据采集 存储
【2021 第五届“达观杯” 基于大规模预训练模型的风险事件标签识别】2 DPCNN、HAN、RCNN等传统深度学习方案
参加2021第五届“达观杯”基于大规模预训练模型的风险事件标签识别比赛的经验,包括使用DPCNN、HAN、TextRCNN、CapsuleNet和TextRCNNAttention等传统深度学习模型的方案实现,以及提分技巧,如多个模型的提交文件投票融合和生成伪标签的方法。
37 0
|
4月前
|
机器学习/深度学习 自然语言处理
大模型概念问题之大模型在生成文本方面有哪些革命性突破
大模型概念问题之大模型在生成文本方面有哪些革命性突破
|
4月前
|
图形学
Sora信息问题之使用数据驱动的物理引擎进行训练如何解决
Sora信息问题之使用数据驱动的物理引擎进行训练如何解决
21 0
|
5月前
|
数据采集 机器学习/深度学习 人工智能
可信度超越GPT-4V,清华&面壁揭秘小钢炮模型背后的高效对齐技术
【6月更文挑战第15天】清华大学与面壁智能合作的RLAIF-V框架挑战GPT-4V,通过开源AI反馈增强大语言模型的可信度。该框架利用开放数据和在线学习优化对齐,减少幻觉错误,12B参数模型表现超越GPT-4V。虽有数据质量和稳定性问题,但展示出开源MLLMs潜力。[链接: https://arxiv.org/abs/2405.17220]
117 1
|
5月前
|
机器学习/深度学习 语音技术
多模态大模型不够灵活,谷歌DeepMind创新架构Zipper:分开训练再压缩
【6月更文挑战第12天】谷歌DeepMind的Zipper架构解决了多模态大模型灵活性问题,通过分解为单模态模型并用“压缩”过程组合,实现多模态生成。该方法允许独立训练每个模态,提升灵活性和可扩展性,适用于数据有限或领域特定的模态。Zipper利用交叉注意力机制融合模态输出,适用于图像描述、语音识别等任务。尽管需要更多计算资源且性能受限于单模态模型质量,但已在ASR和TTS领域展现潜力。论文链接:https://arxiv.org/pdf/2405.18669
62 3
|
机器学习/深度学习 人工智能 自然语言处理
FudanNLP团队最新成果,借助RLHF实现人类对齐的MOSS-RLHF来了
FudanNLP团队最新成果,借助RLHF实现人类对齐的MOSS-RLHF来了
114 0
|
存储 机器学习/深度学习 人工智能
热点解读:大模型的突现能力和ChatGPT引爆的范式转变(1)
热点解读:大模型的突现能力和ChatGPT引爆的范式转变
119 0
热点解读:大模型的突现能力和ChatGPT引爆的范式转变(1)
|
机器学习/深度学习 计算机视觉
清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下
清华大学提出LiVT,用视觉Transformer学习长尾数据,解决不平衡标注数据不在话下
151 0