一文看尽LLM对齐技术：RLHF、RLAIF、PPO、DPO……-阿里云开发者社区

一文看尽LLM对齐技术：RLHF、RLAIF、PPO、DPO……

2024-08-27 201

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【8月更文挑战第27天】本文全面回顾了近期大型语言模型（LLMs）领域内提升模型与人类价值观一致性的重要进展与挑战。尽管自监督学习及大规模预训练等技术推动了LLMs的快速发展，但如何避免生成不当内容仍是难题。文中系统地将现有研究分为奖励模型、反馈机制、强化学习策略及优化方法四大主题，并深入探讨各技术路径的创新点与局限性，如RLHF、RLAIF等方法。旨在为读者提供清晰的领域概览，促进未来研究发展。[论文链接](https://arxiv.org/pdf/2407.16216)

近年来，随着自监督学习的进展、预训练语料库中数万亿标记的可用性、指令微调的发展以及数十亿参数的大型Transformer的开发，大型语言模型（LLMs）现在能够生成对人类查询既具有事实性又具有连贯性的响应。然而，训练数据质量参差不齐可能导致生成不希望的响应，这是一个重大挑战。在过去的两年中，从不同角度提出了各种方法来增强LLMs，特别是在使它们与人类期望保持一致方面。尽管做出了这些努力，但尚未有全面的综述论文来分类和详细说明这些方法。本文旨在通过将这些论文分类为不同的主题，并详细解释每种对齐方法，从而填补这一空白，帮助读者全面了解该领域的现状。

在过去的几十年里，通过自监督学习对LLMs进行预训练取得了显著进展。这些改进是由更大的解码器唯一Transformer的发展、数万亿标记的使用以及计算在多个GPU上的并行化所推动的。在预训练阶段之后，使用指令调整来指导LLMs响应人类查询。尽管取得了这些进展，但一个关键问题仍然没有解决：LLMs可以生成不希望的响应，例如提供如何进行非法活动的说明。为了减轻这种风险，使LLMs与人类价值观保持一致至关重要。

强化学习从人类反馈（RLHF）作为一种使LLMs与人类价值观保持一致的开创性技术出现。这种方法导致了像GPT-4、Claude和Gemini这样的强大模型的发展。在RLHF引入之后，许多研究探索了各种方法来进一步使LLMs与人类价值观保持一致。然而，尚未对使LLMs与人类偏好保持一致的方法进行全面回顾。本文旨在通过分类回顾现有文献并提供对个别论文的详细分析来填补这一空白。

本文将回顾分为四个主要主题：1. 奖励模型；2. 反馈；3. 强化学习（RL）；和4. 优化。每个主题进一步分为子主题，如图1所示。对于奖励模型，子主题包括：1. 显式奖励模型与隐式奖励模型；2. 点式奖励模型与偏好模型；3. 响应级奖励与标记级奖励；和4. 负偏好优化。关于反馈，子主题包括：1. 偏好反馈与二进制反馈；2. 成对反馈与列表反馈；和3. 人类反馈与AI反馈。在RL部分中，子主题包括：1. 基于参考的RL与无参考的RL；2. 长度控制RL；3. RL中的不同散度；和4. 在线策略RL与离线策略RL。对于优化，子主题包括：1. 在线/迭代偏好优化与离线/非迭代偏好优化；和3. 分离SFT和对齐与合并SFT和对齐。

本文详细回顾了各种对齐技术，包括RLHF、RLAIF、PPO、DPO等。每种方法都根据其在奖励模型、反馈、RL和优化方面的创新进行了分析。此外，还讨论了每种方法的优缺点，以及它们在实际应用中的适用性。

论文地址：https://arxiv.org/pdf/2407.16216

一文看尽LLM对齐技术：RLHF、RLAIF、PPO、DPO……

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

一文看尽LLM对齐技术：RLHF、RLAIF、PPO、DPO……

热门文章

最新文章

相关课程

相关电子书

相关实验场景