近年来,随着自监督学习的进展、预训练语料库中数万亿标记的可用性、指令微调的发展以及数十亿参数的大型Transformer的开发,大型语言模型(LLMs)现在能够生成对人类查询既具有事实性又具有连贯性的响应。然而,训练数据质量参差不齐可能导致生成不希望的响应,这是一个重大挑战。在过去的两年中,从不同角度提出了各种方法来增强LLMs,特别是在使它们与人类期望保持一致方面。尽管做出了这些努力,但尚未有全面的综述论文来分类和详细说明这些方法。本文旨在通过将这些论文分类为不同的主题,并详细解释每种对齐方法,从而填补这一空白,帮助读者全面了解该领域的现状。
在过去的几十年里,通过自监督学习对LLMs进行预训练取得了显著进展。这些改进是由更大的解码器唯一Transformer的发展、数万亿标记的使用以及计算在多个GPU上的并行化所推动的。在预训练阶段之后,使用指令调整来指导LLMs响应人类查询。尽管取得了这些进展,但一个关键问题仍然没有解决:LLMs可以生成不希望的响应,例如提供如何进行非法活动的说明。为了减轻这种风险,使LLMs与人类价值观保持一致至关重要。
强化学习从人类反馈(RLHF)作为一种使LLMs与人类价值观保持一致的开创性技术出现。这种方法导致了像GPT-4、Claude和Gemini这样的强大模型的发展。在RLHF引入之后,许多研究探索了各种方法来进一步使LLMs与人类价值观保持一致。然而,尚未对使LLMs与人类偏好保持一致的方法进行全面回顾。本文旨在通过分类回顾现有文献并提供对个别论文的详细分析来填补这一空白。
本文将回顾分为四个主要主题:1. 奖励模型;2. 反馈;3. 强化学习(RL);和4. 优化。每个主题进一步分为子主题,如图1所示。对于奖励模型,子主题包括:1. 显式奖励模型与隐式奖励模型;2. 点式奖励模型与偏好模型;3. 响应级奖励与标记级奖励;和4. 负偏好优化。关于反馈,子主题包括:1. 偏好反馈与二进制反馈;2. 成对反馈与列表反馈;和3. 人类反馈与AI反馈。在RL部分中,子主题包括:1. 基于参考的RL与无参考的RL;2. 长度控制RL;3. RL中的不同散度;和4. 在线策略RL与离线策略RL。对于优化,子主题包括:1. 在线/迭代偏好优化与离线/非迭代偏好优化;和3. 分离SFT和对齐与合并SFT和对齐。
本文详细回顾了各种对齐技术,包括RLHF、RLAIF、PPO、DPO等。每种方法都根据其在奖励模型、反馈、RL和优化方面的创新进行了分析。此外,还讨论了每种方法的优缺点,以及它们在实际应用中的适用性。