在人工智能领域,大型语言模型(LLM)的快速发展已经使其在许多任务上的表现超越了人类。然而,如何确保这些模型与人类的价值观和偏好保持一致,即如何实现模型的对齐,仍然是一个重大挑战。
传统的强化学习从人类反馈(RLHF)框架通过优化一个固定的提示分布来对齐LLM,但这存在一些局限性。首先,固定的提示分布可能无法涵盖模型在实际应用中可能遇到的所有情况,导致模型在面对新的任务或环境时表现不佳。其次,由于数据注释和模型训练的成本较高,传统的RLHF框架在效率上也存在问题。
为了解决这些问题,谷歌提出了一种名为Evolving Alignment via Asymmetric Self-Play(eva)的新RLHF框架。该框架通过将对齐问题视为一个非对称的游戏,其中两个玩家(创造者和解决者)交替进行优化,从而实现了对齐的进化。
创造者和解决者的角色
- 创造者:负责生成越来越有信息量的提示分布,使用奖励模型来评估提示的质量。
- 解决者:根据创造者生成的提示,学习产生更受偏好的响应。
eva的工作原理
- 创造者步骤:创造者根据当前的提示分布和奖励模型,生成新的提示。这些提示被设计为具有挑战性,但又不会超出解决者的能力范围。
- 解决者步骤:解决者根据创造者生成的提示,生成响应并进行优化。这包括生成多个响应,并根据奖励模型对它们进行评估和排序。
- 交替优化:创造者和解决者交替进行优化,每次迭代都生成新的提示和响应,并根据反馈进行调整。
eva的优势:
- 提高模型的泛化能力
通过交替优化创造者和解决者,eva能够生成新的、具有挑战性的提示,促使模型不断学习和改进。这有助于提高模型的泛化能力,使其能够更好地应对新的任务和环境。
- 提高样本效率
eva通过生成具有信息量的提示,减少了对大规模人类标注数据的需求。这有助于提高样本效率,降低模型训练的成本。
- 提高对齐的鲁棒性
由于eva将对齐问题视为一个非对称的游戏,它能够更好地处理模型在实际应用中可能遇到的各种情况。这有助于提高对齐的鲁棒性,确保模型在各种情况下都能够与人类的价值观和偏好保持一致。
为了验证eva的有效性,谷歌在多个公共对齐基准上进行了实验。结果显示,eva在多个基准上都取得了显著的性能提升,包括Arena-Hard、AlpacaEval 2.0和MT-Bench等。
具体结果
- Arena-Hard:eva将Gemma2-9b-it模型的获胜率从51.6%提高到60.1%,超过了其27B版本,并匹配了claude-3-opus的性能。
- AlpacaEval 2.0:eva在805个问题中表现出色,展示了其在一般指令遵循方面的能力。
- MT-Bench:eva在80个困难的问题中表现出色,涵盖了8个类别,展示了其在多轮指令遵循方面的能力。
积极评价
- 创新性:eva通过将对齐问题视为一个非对称的游戏,提出了一种新颖的解决方案。
- 有效性:实验结果显示,eva在多个基准上都取得了显著的性能提升。
- 可扩展性:eva可以与任何现有的RLHF算法结合使用,具有广泛的应用前景。
消极评价
- 复杂性:eva的实现相对复杂,可能需要更多的计算资源和时间来训练模型。
- 不确定性:尽管eva在实验中取得了成功,但其在实际应用中的长期效果仍存在不确定性。