打破RLHF瓶颈,克服奖励欺骗!Meta发布全新后训练方式CGPO,编程水平直升5%

简介: Meta提出了一种名为约束生成策略优化(CGPO)的新型后训练范式,用于解决基于人类反馈的强化学习(RLHF)在多任务学习中的挑战,如奖励欺骗和极端多目标优化。CGPO通过混合裁判(MoJ)技术,结合成本效益约束策略优化和分层技术,系统化地识别RLHF中的平衡点。与传统方法相比,CGPO在多个任务上表现出色,包括一般聊天、STEM问题、指令遵循、数学、编程和知识等,且具有理论保证。CGPO还能够检测并缓解奖励欺骗行为,显著提升了多任务学习的性能。论文链接:https://arxiv.org/pdf/2409.20370

在人工智能领域,大型语言模型(LLM)的微调技术不断发展,其中,基于人类反馈的强化学习(RLHF)已成为主流方法。然而,RLHF在多任务学习(MTL)中面临诸多挑战,如奖励欺骗和极端多目标优化。为解决这些问题,Meta提出了一种名为约束生成策略优化(CGPO)的新型后训练范式。

CGPO的核心是混合裁判(MoJ),它结合了成本效益约束策略优化和分层技术,能够以系统化的方式识别RLHF中的完美平衡点。与传统RLHF方法相比,CGPO具有以下优势:

  1. 理论保证与实证结果:CGPO在多个任务上表现出色,包括一般聊天、STEM问题、指令遵循、数学、编程和知识等,且具有理论保证。
  2. 无需大量超参数调整:CGPO的设计使其在常见后训练管道中即插即用,减少了对超参数调整的需求。
  3. 检测与缓解奖励欺骗:CGPO能够检测并缓解奖励欺骗行为,确保模型在多目标优化中的性能。

在多任务学习中,CGPO通过独立优化每个任务,避免了因目标冲突而导致的性能妥协。具体而言,CGPO为每个任务定制了政策优化策略,包括混合裁判、奖励模型和超参数设置。这种精细化处理方式使得CGPO在多个任务上的表现优于传统RLHF方法。

  • 一般聊天:在AlpacaEval-2基准测试中,CGPO比PPO提高了7.4%。
  • STEM与推理:在Arena-Hard基准测试中,CGPO比PPO提高了12.5%。
  • 指令遵循:在IFEval基准测试中,CGPO比PPO提高了2%。
  • 数学与推理:在MATH和GSM8K基准测试中,CGPO比PPO提高了2%。
  • 编程:在HumanEval基准测试中,CGPO比PPO提高了5%。
  • 知识:在ARC挑战基准测试中,CGPO比PPO提高了2%。

奖励欺骗是RLHF中一个突出的问题,即模型可能利用奖励模型的不完美之处生成次优输出。CGPO通过引入两种类型的裁判(规则基和LLM基)来解决这一问题。这些裁判在模型的在线生成阶段合作识别奖励欺骗模式,并根据评估结果实施约束RLHF方法来更新模型。

CGPO的提出标志着RLHF领域的重大突破。它不仅解决了奖励欺骗问题,还优化了极端多目标场景,从而推动了通用LLM的发展。CGPO的主要贡献包括:

  1. 新策略应对奖励欺骗:通过创新的约束RL方法,CGPO为多任务LLM后训练提供了新的解决方案。
  2. 新型混合裁判:CGPO引入了两种类型的裁判,能够有效评估模型生成是否违反约束,适用于各种NLP任务。
  3. 多目标RLHF处理策略:CGPO为每个任务定制了优化设置,包括奖励模型、混合裁判和超参数,显著提高了多任务设置中的Pareto前沿。

CGPO的提出为RLHF领域带来了新的希望,其在多任务学习中的表现令人印象深刻。然而,我们也应看到,CGPO仍处于发展阶段,可能存在一些挑战和限制。

  • 复杂性与可扩展性:CGPO的实现可能较为复杂,对于大规模LLM的后训练可能需要进一步优化。
  • 数据需求:CGPO的性能可能受到训练数据质量和多样性的影响,需要足够的高质量数据来支持其训练。
  • 与其他方法的比较:虽然CGPO在多个任务上优于传统RLHF方法,但与其他新兴方法的比较结果仍有待进一步研究。

论文链接:https://arxiv.org/pdf/2409.20370

目录
相关文章
|
9天前
|
存储 人工智能 搜索推荐
整合长期记忆,AI实现自我进化,探索大模型这一可能性
本文探讨了通过整合长期记忆(LTM),AI模型能否实现自我进化,以提升处理新任务和适应环境的能力。LTM能帮助模型存储和利用长期信息,提高决策质量和服务个性化水平。文章还讨论了LTM整合的挑战及解决方案,以及如何借鉴人类记忆机制设计有效的LTM策略。[论文链接](https://arxiv.org/pdf/2410.15665)
52 17
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
深挖大模型幻觉!哈佛大学最新报告:LLM等价于众包,只是在输出网络共识
大型语言模型(LLM)如ChatGPT正改变人机交互,但在生成看似真实的错误信息方面存在“幻觉”问题。这种现象源于LLM依赖统计概率而非语义理解,导致在处理争议或冷门话题时易出错。研究显示,LLM的准确性高度依赖于训练数据的质量和数量。尽管如此,LLM仍具巨大潜力,需持续优化并保持批判性使用。
41 12
|
1月前
|
机器学习/深度学习 人工智能
大模型合成数据机理分析,人大刘勇团队:信息增益影响泛化能力
中国人民大学刘勇团队研究了合成数据对大型语言模型泛化能力的影响,提出逆瓶颈视角,通过“通过互信息的泛化增益”(GGMI)概念,揭示了后训练模型的泛化能力主要取决于从生成模型中获得的信息增益。这一发现为优化合成数据生成和后训练过程提供了重要理论依据。
53 1
|
2月前
|
机器学习/深度学习 PyTorch 算法框架/工具
揭秘深度学习中的微调难题:如何运用弹性权重巩固(EWC)策略巧妙应对灾难性遗忘,附带实战代码详解助你轻松掌握技巧
【10月更文挑战第1天】深度学习中,模型微调虽能提升性能,但常导致“灾难性遗忘”,即模型在新任务上训练后遗忘旧知识。本文介绍弹性权重巩固(EWC)方法,通过在损失函数中加入正则项来惩罚对重要参数的更改,从而缓解此问题。提供了一个基于PyTorch的实现示例,展示如何在训练过程中引入EWC损失,适用于终身学习和在线学习等场景。
122 4
揭秘深度学习中的微调难题:如何运用弹性权重巩固(EWC)策略巧妙应对灾难性遗忘,附带实战代码详解助你轻松掌握技巧
|
2月前
|
人工智能 前端开发
大模型体验体验报告:OpenAI-O1内置思维链和多个llm组合出的COT有啥区别?传统道家理论+中学生物理奥赛题测试,名不虚传还是名副其实?
一个月前,o1发布时,虽然让人提前体验,但自己并未进行测试。近期终于有机会使用,却仍忘记第一时间测试。本文通过两个测试案例展示了o1的强大能力:一是关于丹田及练气的详细解答,二是解决一道复杂的中学生物理奥赛题。o1的知识面广泛、推理迅速,令人印象深刻。未来,或许可以通过赋予o1更多能力,使其在更多领域发挥作用。如果你有好的测试题,欢迎留言,一起探索o1的潜力。
|
3月前
|
机器学习/深度学习 人工智能 安全
针对AI模型的对抗性攻击日益增多:你现在应该怎么做?
针对AI模型的对抗性攻击日益增多:你现在应该怎么做?
|
5月前
|
机器学习/深度学习 搜索推荐 知识图谱
图神经网络加持,突破传统推荐系统局限!北大港大联合提出SelfGNN:有效降低信息过载与数据噪声影响
【7月更文挑战第22天】北大港大联手打造SelfGNN,一种结合图神经网络与自监督学习的推荐系统,专攻信息过载及数据噪声难题。SelfGNN通过短期图捕获实时用户兴趣,利用自增强学习提升模型鲁棒性,实现多时间尺度动态行为建模,大幅优化推荐准确度与时效性。经四大真实数据集测试,SelfGNN在准确性和抗噪能力上超越现有模型。尽管如此,高计算复杂度及对图构建质量的依赖仍是待克服挑战。[详细论文](https://arxiv.org/abs/2405.20878)。
86 5
|
5月前
|
Web App开发
生成式模型不只会模仿!哈佛、UCSB等最新成果:性能可超越训练集专家水平
【7月更文挑战第23天】研究人员从哈佛大学、UC Santa Barbara等机构展示了生成式模型的新突破:在特定任务上实现超越训练集专家水平的性能。通过“低温度采样”减少模型不确定性,实验中一个名为ChessFormer的模型在下棋任务上表现出了超越性,即性能超过了训练集中专家的平均水平。这项工作揭示了生成式模型在特定条件下实现超越的可能性,为该领域的研究和应用提供了新视角。[论文](https://arxiv.org/pdf/2406.11741)
38 2
|
7月前
|
数据采集 机器学习/深度学习 自然语言处理
数据更多更好还是质量更高更好?这项研究能帮你做出选择
【5月更文挑战第28天】研究探索了在机器学习中数据质量与规模的权衡,提出质量-数量权衡(QQT)概念和神经网络可扩展定律,考虑数据非同质性、效用衰减及多数据池交互。结果表明预训练时数据质量和规模同等重要,应根据情况权衡。但研究局限于模型预训练、特定类型模型和模拟数据验证。[[链接](https://arxiv.org/pdf/2404.07177.pdf)]
59 1
|
7月前
|
机器学习/深度学习 数据可视化 算法
PACNet & CellNet(代码开源)|bulk数据作细胞分类,评估细胞命运性能的一大利器
PACNet和CellNet都是强大的工具,分别用于研究细胞命运工程和细胞类型保真度,它们在细胞类型分类和网络分析方面有所不同,可以根据研究需求选择合适的工具。
122 1