一文看尽LLM对齐技术:RLHF、RLAIF、PPO、DPO……

简介: 【8月更文挑战第27天】本文全面回顾了近期大型语言模型(LLMs)领域内提升模型与人类价值观一致性的重要进展与挑战。尽管自监督学习及大规模预训练等技术推动了LLMs的快速发展,但如何避免生成不当内容仍是难题。文中系统地将现有研究分为奖励模型、反馈机制、强化学习策略及优化方法四大主题,并深入探讨各技术路径的创新点与局限性,如RLHF、RLAIF等方法。旨在为读者提供清晰的领域概览,促进未来研究发展。[论文链接](https://arxiv.org/pdf/2407.16216)

近年来,随着自监督学习的进展、预训练语料库中数万亿标记的可用性、指令微调的发展以及数十亿参数的大型Transformer的开发,大型语言模型(LLMs)现在能够生成对人类查询既具有事实性又具有连贯性的响应。然而,训练数据质量参差不齐可能导致生成不希望的响应,这是一个重大挑战。在过去的两年中,从不同角度提出了各种方法来增强LLMs,特别是在使它们与人类期望保持一致方面。尽管做出了这些努力,但尚未有全面的综述论文来分类和详细说明这些方法。本文旨在通过将这些论文分类为不同的主题,并详细解释每种对齐方法,从而填补这一空白,帮助读者全面了解该领域的现状。

在过去的几十年里,通过自监督学习对LLMs进行预训练取得了显著进展。这些改进是由更大的解码器唯一Transformer的发展、数万亿标记的使用以及计算在多个GPU上的并行化所推动的。在预训练阶段之后,使用指令调整来指导LLMs响应人类查询。尽管取得了这些进展,但一个关键问题仍然没有解决:LLMs可以生成不希望的响应,例如提供如何进行非法活动的说明。为了减轻这种风险,使LLMs与人类价值观保持一致至关重要。

强化学习从人类反馈(RLHF)作为一种使LLMs与人类价值观保持一致的开创性技术出现。这种方法导致了像GPT-4、Claude和Gemini这样的强大模型的发展。在RLHF引入之后,许多研究探索了各种方法来进一步使LLMs与人类价值观保持一致。然而,尚未对使LLMs与人类偏好保持一致的方法进行全面回顾。本文旨在通过分类回顾现有文献并提供对个别论文的详细分析来填补这一空白。

本文将回顾分为四个主要主题:1. 奖励模型;2. 反馈;3. 强化学习(RL);和4. 优化。每个主题进一步分为子主题,如图1所示。对于奖励模型,子主题包括:1. 显式奖励模型与隐式奖励模型;2. 点式奖励模型与偏好模型;3. 响应级奖励与标记级奖励;和4. 负偏好优化。关于反馈,子主题包括:1. 偏好反馈与二进制反馈;2. 成对反馈与列表反馈;和3. 人类反馈与AI反馈。在RL部分中,子主题包括:1. 基于参考的RL与无参考的RL;2. 长度控制RL;3. RL中的不同散度;和4. 在线策略RL与离线策略RL。对于优化,子主题包括:1. 在线/迭代偏好优化与离线/非迭代偏好优化;和3. 分离SFT和对齐与合并SFT和对齐。

本文详细回顾了各种对齐技术,包括RLHF、RLAIF、PPO、DPO等。每种方法都根据其在奖励模型、反馈、RL和优化方面的创新进行了分析。此外,还讨论了每种方法的优缺点,以及它们在实际应用中的适用性。

论文地址:https://arxiv.org/pdf/2407.16216

目录
相关文章
|
3天前
|
机器学习/深度学习 人工智能 算法
LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题
谷歌提出了一种名为Evolving Alignment via Asymmetric Self-Play(eva)的新RLHF框架,通过创造者和解决者交替优化,生成具有挑战性的提示,提高模型泛化能力、样本效率和对齐鲁棒性。实验结果显示,eva在多个基准上显著提升性能,展示了其创新性和有效性。然而,eva的实现较为复杂,且实际应用中的长期效果仍待验证。
14 5
|
19天前
|
机器学习/深度学习 存储 缓存
ORCA:基于持续批处理的LLM推理性能优化技术详解
大语言模型(LLMs)的批处理优化面临诸多挑战,尤其是由于推理过程的迭代性导致的资源利用不均问题。ORCA系统通过引入迭代级调度和选择性批处理技术,有效解决了这些问题,大幅提高了GPU资源利用率和系统吞吐量,相比FasterTransformer实现了最高37倍的性能提升。
87 26
|
25天前
|
自然语言处理 资源调度 并行计算
从本地部署到企业级服务:十种主流LLM推理框架的技术介绍与对比
本文深入探讨了十种主流的大语言模型(LLM)服务引擎和工具,涵盖从轻量级本地部署到高性能企业级解决方案,详细分析了它们的技术特点、优势及局限性,旨在为研究人员和工程团队提供适合不同应用场景的技术方案。内容涉及WebLLM、LM Studio、Ollama、vLLM、LightLLM、OpenLLM、HuggingFace TGI、GPT4ALL、llama.cpp及Triton Inference Server与TensorRT-LLM等。
115 7
|
1月前
|
JSON 数据可视化 NoSQL
基于LLM Graph Transformer的知识图谱构建技术研究:LangChain框架下转换机制实践
本文介绍了LangChain的LLM Graph Transformer框架,探讨了文本到图谱转换的双模式实现机制。基于工具的模式利用结构化输出和函数调用,简化了提示工程并支持属性提取;基于提示的模式则为不支持工具调用的模型提供了备选方案。通过精确定义图谱模式(包括节点类型、关系类型及其约束),显著提升了提取结果的一致性和可靠性。LLM Graph Transformer为非结构化数据的结构化表示提供了可靠的技术方案,支持RAG应用和复杂查询处理。
135 2
基于LLM Graph Transformer的知识图谱构建技术研究:LangChain框架下转换机制实践
|
2月前
|
存储 机器学习/深度学习 人工智能
文档智能与RAG技术在LLM中的应用评测
本文介绍了阿里云在大型语言模型(LLM)中应用文档智能与检索增强生成(RAG)技术的解决方案,通过文档预处理、知识库构建、高效检索和生成模块,显著提升了LLM的知识获取和推理能力,尤其在法律、医疗等专业领域表现突出。
150 1
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
企业内训|LLM大模型技术在金融领域的应用及实践-某商业银行分行IT团队
本企业培训是TsingtaoAI技术团队专们为某商业银行分行IT团队开发的LLM大模型技术课程。课程深入分析大模型在金融行业中的发展趋势、底层技术及应用场景,重点提升学员在大模型应用中的实际操作能力与业务场景适应力。通过对全球商用 LLM 产品及国内外技术生态的深度对比,学员将了解大模型在不同企业中的发展路径,掌握如 GPT 系列、Claude 系列、文心一言等大模型的前沿技术。针对金融行业的业务需求,学员将学会如何结合多模态技术改进用户体验、数据分析等服务流程,并掌握大模型训练与工具链的实操技术,尤其是模型的微调、迁移学习与压缩技术。
90 2
|
3月前
|
机器学习/深度学习
【LLM提示技术:零样本提示、少样本提示】
本文介绍了零样本和少样本提示技术在大型语言模型中的应用。零样本提示指模型无需示例即可完成任务,而少样本提示则通过提供少量示例提升模型的表现。文中详细探讨了这两种技术的特点与限制,并通过具体示例说明了其在不同任务中的效果。研究表明,指令调整和人类反馈可增强模型性能,而对于复杂任务,则需更高级的提示工程,如思维链提示。
383 0
|
6月前
|
存储 人工智能 自然语言处理
LLM技术全景图:技术人必备的技术指南,一张图带你掌握从基础设施到AI应用的全面梳理
LLM技术全景图:技术人必备的技术指南,一张图带你掌握从基础设施到AI应用的全面梳理
LLM技术全景图:技术人必备的技术指南,一张图带你掌握从基础设施到AI应用的全面梳理
|
6月前
|
存储 人工智能 安全
使用‘消除’技术绕过LLM的安全机制,不用训练就可以创建自己的nsfw模型
本文探讨了一种名为“abliteration”的技术,该技术能够在不重新训练大型语言模型(LLM)的情况下移除其内置的安全审查机制。通常,LLM在接收到潜在有害输入时会拒绝执行,但这一安全特性牺牲了模型的灵活性。通过对模型残差流的分析,研究人员发现可以识别并消除导致拒绝行为的特定方向,从而允许模型响应所有类型的提示。
473 1
|
7月前
|
并行计算 算法 物联网
LLM 大模型学习必知必会系列(六):量化技术解析、QLoRA技术、量化库介绍使用(AutoGPTQ、AutoAWQ)
LLM 大模型学习必知必会系列(六):量化技术解析、QLoRA技术、量化库介绍使用(AutoGPTQ、AutoAWQ)
LLM 大模型学习必知必会系列(六):量化技术解析、QLoRA技术、量化库介绍使用(AutoGPTQ、AutoAWQ)

热门文章

最新文章