在人工智能领域,大型语言模型(LLM)的微调技术不断发展,其中,基于人类反馈的强化学习(RLHF)已成为主流方法。然而,RLHF在多任务学习(MTL)中面临诸多挑战,如奖励欺骗和极端多目标优化。为解决这些问题,Meta提出了一种名为约束生成策略优化(CGPO)的新型后训练范式。
CGPO的核心是混合裁判(MoJ),它结合了成本效益约束策略优化和分层技术,能够以系统化的方式识别RLHF中的完美平衡点。与传统RLHF方法相比,CGPO具有以下优势:
- 理论保证与实证结果:CGPO在多个任务上表现出色,包括一般聊天、STEM问题、指令遵循、数学、编程和知识等,且具有理论保证。
- 无需大量超参数调整:CGPO的设计使其在常见后训练管道中即插即用,减少了对超参数调整的需求。
- 检测与缓解奖励欺骗:CGPO能够检测并缓解奖励欺骗行为,确保模型在多目标优化中的性能。
在多任务学习中,CGPO通过独立优化每个任务,避免了因目标冲突而导致的性能妥协。具体而言,CGPO为每个任务定制了政策优化策略,包括混合裁判、奖励模型和超参数设置。这种精细化处理方式使得CGPO在多个任务上的表现优于传统RLHF方法。
- 一般聊天:在AlpacaEval-2基准测试中,CGPO比PPO提高了7.4%。
- STEM与推理:在Arena-Hard基准测试中,CGPO比PPO提高了12.5%。
- 指令遵循:在IFEval基准测试中,CGPO比PPO提高了2%。
- 数学与推理:在MATH和GSM8K基准测试中,CGPO比PPO提高了2%。
- 编程:在HumanEval基准测试中,CGPO比PPO提高了5%。
- 知识:在ARC挑战基准测试中,CGPO比PPO提高了2%。
奖励欺骗是RLHF中一个突出的问题,即模型可能利用奖励模型的不完美之处生成次优输出。CGPO通过引入两种类型的裁判(规则基和LLM基)来解决这一问题。这些裁判在模型的在线生成阶段合作识别奖励欺骗模式,并根据评估结果实施约束RLHF方法来更新模型。
CGPO的提出标志着RLHF领域的重大突破。它不仅解决了奖励欺骗问题,还优化了极端多目标场景,从而推动了通用LLM的发展。CGPO的主要贡献包括:
- 新策略应对奖励欺骗:通过创新的约束RL方法,CGPO为多任务LLM后训练提供了新的解决方案。
- 新型混合裁判:CGPO引入了两种类型的裁判,能够有效评估模型生成是否违反约束,适用于各种NLP任务。
- 多目标RLHF处理策略:CGPO为每个任务定制了优化设置,包括奖励模型、混合裁判和超参数,显著提高了多任务设置中的Pareto前沿。
CGPO的提出为RLHF领域带来了新的希望,其在多任务学习中的表现令人印象深刻。然而,我们也应看到,CGPO仍处于发展阶段,可能存在一些挑战和限制。
- 复杂性与可扩展性:CGPO的实现可能较为复杂,对于大规模LLM的后训练可能需要进一步优化。
- 数据需求:CGPO的性能可能受到训练数据质量和多样性的影响,需要足够的高质量数据来支持其训练。
- 与其他方法的比较:虽然CGPO在多个任务上优于传统RLHF方法,但与其他新兴方法的比较结果仍有待进一步研究。