LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题

简介: 谷歌提出了一种名为Evolving Alignment via Asymmetric Self-Play(eva)的新RLHF框架,通过创造者和解决者交替优化,生成具有挑战性的提示,提高模型泛化能力、样本效率和对齐鲁棒性。实验结果显示,eva在多个基准上显著提升性能,展示了其创新性和有效性。然而,eva的实现较为复杂,且实际应用中的长期效果仍待验证。

在人工智能领域,大型语言模型(LLM)的快速发展已经使其在许多任务上的表现超越了人类。然而,如何确保这些模型与人类的价值观和偏好保持一致,即如何实现模型的对齐,仍然是一个重大挑战。

传统的强化学习从人类反馈(RLHF)框架通过优化一个固定的提示分布来对齐LLM,但这存在一些局限性。首先,固定的提示分布可能无法涵盖模型在实际应用中可能遇到的所有情况,导致模型在面对新的任务或环境时表现不佳。其次,由于数据注释和模型训练的成本较高,传统的RLHF框架在效率上也存在问题。

为了解决这些问题,谷歌提出了一种名为Evolving Alignment via Asymmetric Self-Play(eva)的新RLHF框架。该框架通过将对齐问题视为一个非对称的游戏,其中两个玩家(创造者和解决者)交替进行优化,从而实现了对齐的进化。

创造者和解决者的角色

  • 创造者:负责生成越来越有信息量的提示分布,使用奖励模型来评估提示的质量。
  • 解决者:根据创造者生成的提示,学习产生更受偏好的响应。

eva的工作原理

  1. 创造者步骤:创造者根据当前的提示分布和奖励模型,生成新的提示。这些提示被设计为具有挑战性,但又不会超出解决者的能力范围。
  2. 解决者步骤:解决者根据创造者生成的提示,生成响应并进行优化。这包括生成多个响应,并根据奖励模型对它们进行评估和排序。
  3. 交替优化:创造者和解决者交替进行优化,每次迭代都生成新的提示和响应,并根据反馈进行调整。

eva的优势:

  1. 提高模型的泛化能力

通过交替优化创造者和解决者,eva能够生成新的、具有挑战性的提示,促使模型不断学习和改进。这有助于提高模型的泛化能力,使其能够更好地应对新的任务和环境。

  1. 提高样本效率

eva通过生成具有信息量的提示,减少了对大规模人类标注数据的需求。这有助于提高样本效率,降低模型训练的成本。

  1. 提高对齐的鲁棒性

由于eva将对齐问题视为一个非对称的游戏,它能够更好地处理模型在实际应用中可能遇到的各种情况。这有助于提高对齐的鲁棒性,确保模型在各种情况下都能够与人类的价值观和偏好保持一致。

为了验证eva的有效性,谷歌在多个公共对齐基准上进行了实验。结果显示,eva在多个基准上都取得了显著的性能提升,包括Arena-Hard、AlpacaEval 2.0和MT-Bench等。

具体结果

  • Arena-Hard:eva将Gemma2-9b-it模型的获胜率从51.6%提高到60.1%,超过了其27B版本,并匹配了claude-3-opus的性能。
  • AlpacaEval 2.0:eva在805个问题中表现出色,展示了其在一般指令遵循方面的能力。
  • MT-Bench:eva在80个困难的问题中表现出色,涵盖了8个类别,展示了其在多轮指令遵循方面的能力。

积极评价

  • 创新性:eva通过将对齐问题视为一个非对称的游戏,提出了一种新颖的解决方案。
  • 有效性:实验结果显示,eva在多个基准上都取得了显著的性能提升。
  • 可扩展性:eva可以与任何现有的RLHF算法结合使用,具有广泛的应用前景。

消极评价

  • 复杂性:eva的实现相对复杂,可能需要更多的计算资源和时间来训练模型。
  • 不确定性:尽管eva在实验中取得了成功,但其在实际应用中的长期效果仍存在不确定性。

论文地址:https://arxiv.org/pdf/2411.00062

目录
相关文章
|
2月前
|
人工智能 自然语言处理 安全
43_PaLM与Gemma:谷歌LLM演进
在人工智能发展的浪潮中,谷歌一直扮演着关键的技术引领者角色。从最初的神经机器翻译到如今的通用人工智能,谷歌通过持续的技术创新推动着自然语言处理领域的边界不断拓展。2022年,谷歌推出了革命性的PaLM(Pathways Language Model),这一模型不仅在规模上达到了前所未有的5400亿参数,更重要的是其采用了创新的Pathways训练方法,为大型语言模型的发展开辟了新路径。随后,谷歌又推出了Gemma系列开源模型,将先进的AI技术普惠给更广泛的开发者社区。
|
8月前
|
数据采集 算法 数据挖掘
CLIMB自举框架:基于语义聚类的迭代数据混合优化及其在LLM预训练中的应用
英伟达提出的CLIMB框架,是一种自动化优化大型语言模型(LLM)预训练数据混合的创新方法。通过语义嵌入与聚类技术,CLIMB能系统地发现、评估并优化数据混合策略,无需人工干预。该框架包含数据预处理、迭代自举及最优权重确定三大阶段,结合小型代理模型与性能预测器,高效搜索最佳数据比例。实验表明,基于CLIMB优化的数据混合训练的模型,在多项推理任务中显著超越现有方法,展现出卓越性能。此外,研究还构建了高质量的ClimbMix数据集,进一步验证了框架的有效性。
336 0
CLIMB自举框架:基于语义聚类的迭代数据混合优化及其在LLM预训练中的应用
|
9月前
|
人工智能 数据可视化 API
36.7K star!拖拽构建AI流程,这个开源LLM应用框架绝了!
`Flowise` 是一款革命性的低代码LLM应用构建工具,开发者通过可视化拖拽界面,就能快速搭建基于大语言模型的智能工作流。该项目在GitHub上线不到1年就斩获**36.7K星标**,被开发者誉为"AI时代的乐高积木"。
522 8
|
11月前
|
人工智能
谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密
谷歌和苹果的研究揭示了大型语言模型(LLM)的惊人秘密:尽管LLM能自主识别错误,却在生成答案时装作不知情。这一“幻觉”现象背后,模型内部已编码了关于输出真实性的信息,但其外部表现与内部判断常有矛盾,暴露出LLM在实际应用中的局限性。研究为未来开发更有效的错误检测和缓解策略提供了新思路。论文地址:https://arxiv.org/pdf/2410.02707
222 30
|
10月前
|
机器学习/深度学习 存储 人工智能
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用,支持多模态交互、多种主流模型选择、离线运行及性能优化。
7351 80
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
|
8月前
|
机器学习/深度学习 人工智能 算法
RAGEN:RL训练LLM推理新范式!开源强化学习框架让Agent学会多轮决策
RAGEN是一个基于StarPO框架的开源强化学习系统,通过马尔可夫决策过程形式化Agent与环境的交互,支持PPO、GRPO等多种优化算法,显著提升多轮推理训练的稳定性。
868 5
RAGEN:RL训练LLM推理新范式!开源强化学习框架让Agent学会多轮决策
|
9月前
|
机器学习/深度学习 人工智能 算法
SWEET-RL:基于训练时信息的多轮LLM代理强化学习框架
SWEET-RL是一种基于训练时信息的逐步评估算法,显著提升了多轮大型语言模型(LLM)代理在强化学习中的成功率。相比现有方法,SWEET-RL将成功率提高6%,使小型开源模型如Llama-3.1-8B达到甚至超越GPT-4O等大型专有模型性能。通过非对称Actor-Critic结构、创新优势函数参数化及两阶段训练流程,SWEET-RL优化了信用分配机制与泛化能力,降低了计算成本。ColBench基准测试显示,SWEET-RL在后端编程和前端设计任务中表现卓越,为AI代理训练技术带来突破性进展。
309 2
SWEET-RL:基于训练时信息的多轮LLM代理强化学习框架
|
11月前
|
人工智能 知识图谱 Docker
KAG:增强 LLM 的专业能力!蚂蚁集团推出专业领域知识增强框架,支持逻辑推理和多跳问答
KAG 是蚂蚁集团推出的专业领域知识服务框架,通过知识增强提升大型语言模型在特定领域的问答性能,支持逻辑推理和多跳事实问答,显著提升推理和问答的准确性和效率。
3112 46
KAG:增强 LLM 的专业能力!蚂蚁集团推出专业领域知识增强框架,支持逻辑推理和多跳问答
|
10月前
|
人工智能 自然语言处理 数据可视化
Agentic Reasoning:推理界RAG诞生!牛津大学框架让LLM学会『组队打怪』:动态调用搜索/代码代理,复杂任务准确率飙升50%
Agentic Reasoning 是牛津大学推出的增强大型语言模型(LLM)推理能力的框架,通过整合外部工具提升多步骤推理、实时信息检索和复杂逻辑关系组织的能力。
410 1
|
10月前
|
人工智能 机器人
D1net阅闻 | 谷歌DeepMind研究发现LLM新特性
D1net阅闻 | 谷歌DeepMind研究发现LLM新特性

热门文章

最新文章