一文看尽LLM对齐技术:RLHF、RLAIF、PPO、DPO……

简介: 【8月更文挑战第27天】本文全面回顾了近期大型语言模型(LLMs)领域内提升模型与人类价值观一致性的重要进展与挑战。尽管自监督学习及大规模预训练等技术推动了LLMs的快速发展,但如何避免生成不当内容仍是难题。文中系统地将现有研究分为奖励模型、反馈机制、强化学习策略及优化方法四大主题,并深入探讨各技术路径的创新点与局限性,如RLHF、RLAIF等方法。旨在为读者提供清晰的领域概览,促进未来研究发展。[论文链接](https://arxiv.org/pdf/2407.16216)

近年来,随着自监督学习的进展、预训练语料库中数万亿标记的可用性、指令微调的发展以及数十亿参数的大型Transformer的开发,大型语言模型(LLMs)现在能够生成对人类查询既具有事实性又具有连贯性的响应。然而,训练数据质量参差不齐可能导致生成不希望的响应,这是一个重大挑战。在过去的两年中,从不同角度提出了各种方法来增强LLMs,特别是在使它们与人类期望保持一致方面。尽管做出了这些努力,但尚未有全面的综述论文来分类和详细说明这些方法。本文旨在通过将这些论文分类为不同的主题,并详细解释每种对齐方法,从而填补这一空白,帮助读者全面了解该领域的现状。

在过去的几十年里,通过自监督学习对LLMs进行预训练取得了显著进展。这些改进是由更大的解码器唯一Transformer的发展、数万亿标记的使用以及计算在多个GPU上的并行化所推动的。在预训练阶段之后,使用指令调整来指导LLMs响应人类查询。尽管取得了这些进展,但一个关键问题仍然没有解决:LLMs可以生成不希望的响应,例如提供如何进行非法活动的说明。为了减轻这种风险,使LLMs与人类价值观保持一致至关重要。

强化学习从人类反馈(RLHF)作为一种使LLMs与人类价值观保持一致的开创性技术出现。这种方法导致了像GPT-4、Claude和Gemini这样的强大模型的发展。在RLHF引入之后,许多研究探索了各种方法来进一步使LLMs与人类价值观保持一致。然而,尚未对使LLMs与人类偏好保持一致的方法进行全面回顾。本文旨在通过分类回顾现有文献并提供对个别论文的详细分析来填补这一空白。

本文将回顾分为四个主要主题:1. 奖励模型;2. 反馈;3. 强化学习(RL);和4. 优化。每个主题进一步分为子主题,如图1所示。对于奖励模型,子主题包括:1. 显式奖励模型与隐式奖励模型;2. 点式奖励模型与偏好模型;3. 响应级奖励与标记级奖励;和4. 负偏好优化。关于反馈,子主题包括:1. 偏好反馈与二进制反馈;2. 成对反馈与列表反馈;和3. 人类反馈与AI反馈。在RL部分中,子主题包括:1. 基于参考的RL与无参考的RL;2. 长度控制RL;3. RL中的不同散度;和4. 在线策略RL与离线策略RL。对于优化,子主题包括:1. 在线/迭代偏好优化与离线/非迭代偏好优化;和3. 分离SFT和对齐与合并SFT和对齐。

本文详细回顾了各种对齐技术,包括RLHF、RLAIF、PPO、DPO等。每种方法都根据其在奖励模型、反馈、RL和优化方面的创新进行了分析。此外,还讨论了每种方法的优缺点,以及它们在实际应用中的适用性。

论文地址:https://arxiv.org/pdf/2407.16216

目录
相关文章
|
4月前
|
机器学习/深度学习 人工智能 Rust
Grok-1:史上最大开源LLM的技术解析
Grok-1:史上最大开源LLM的技术解析
1418 1
|
9天前
|
机器学习/深度学习
【LLM提示技术:零样本提示、少样本提示】
本文介绍了零样本和少样本提示技术在大型语言模型中的应用。零样本提示指模型无需示例即可完成任务,而少样本提示则通过提供少量示例提升模型的表现。文中详细探讨了这两种技术的特点与限制,并通过具体示例说明了其在不同任务中的效果。研究表明,指令调整和人类反馈可增强模型性能,而对于复杂任务,则需更高级的提示工程,如思维链提示。
【LLM提示技术:零样本提示、少样本提示】
|
3月前
|
存储 人工智能 自然语言处理
LLM技术全景图:技术人必备的技术指南,一张图带你掌握从基础设施到AI应用的全面梳理
LLM技术全景图:技术人必备的技术指南,一张图带你掌握从基础设施到AI应用的全面梳理
LLM技术全景图:技术人必备的技术指南,一张图带你掌握从基础设施到AI应用的全面梳理
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能技术专题】「入门到精通系列教程」零基础带你进军人工智能领域的全流程技术体系和实战指南(LLM、AGI和AIGC都是什么)(一)
【人工智能技术专题】「入门到精通系列教程」零基础带你进军人工智能领域的全流程技术体系和实战指南(LLM、AGI和AIGC都是什么)
368 0
|
3月前
|
存储 人工智能 安全
使用‘消除’技术绕过LLM的安全机制,不用训练就可以创建自己的nsfw模型
本文探讨了一种名为“abliteration”的技术,该技术能够在不重新训练大型语言模型(LLM)的情况下移除其内置的安全审查机制。通常,LLM在接收到潜在有害输入时会拒绝执行,但这一安全特性牺牲了模型的灵活性。通过对模型残差流的分析,研究人员发现可以识别并消除导致拒绝行为的特定方向,从而允许模型响应所有类型的提示。
376 1
|
4月前
|
并行计算 算法 物联网
LLM 大模型学习必知必会系列(六):量化技术解析、QLoRA技术、量化库介绍使用(AutoGPTQ、AutoAWQ)
LLM 大模型学习必知必会系列(六):量化技术解析、QLoRA技术、量化库介绍使用(AutoGPTQ、AutoAWQ)
LLM 大模型学习必知必会系列(六):量化技术解析、QLoRA技术、量化库介绍使用(AutoGPTQ、AutoAWQ)
|
4月前
|
SQL 自然语言处理 数据挖掘
NL2SQL技术方案系列(1):NL2API、NL2SQL技术路径选择;LLM选型与Prompt工程技巧,揭秘项目落地优化之道
NL2SQL技术方案系列(1):NL2API、NL2SQL技术路径选择;LLM选型与Prompt工程技巧,揭秘项目落地优化之道
NL2SQL技术方案系列(1):NL2API、NL2SQL技术路径选择;LLM选型与Prompt工程技巧,揭秘项目落地优化之道
|
4月前
|
存储 安全 机器人
【LLM】智能学生顾问构建技术学习(Lyrz SDK + OpenAI API )
【5月更文挑战第13天】智能学生顾问构建技术学习(Lyrz SDK + OpenAI API )
89 1
|
4月前
|
存储 人工智能 API
【AIGC】基于检索增强技术(RAG)构建大语言模型(LLM)应用程序
【5月更文挑战第7天】基于检索增强技术(RAG)构建大语言模型(LLM)应用程序实践
407 1
|
4月前
|
存储 自然语言处理 PyTorch
​5种常用于LLM的令牌遮蔽技术介绍以及Pytorch的实现
本文将介绍大语言模型中使用的不同令牌遮蔽技术,并比较它们的优点,以及使用Pytorch实现以了解它们的底层工作原理。
46 1