ICML 2024 Oral:DPO是否比PPO更适合LLM,清华吴翼团队最新揭秘

简介: 【8月更文挑战第13天】在自然语言处理领域,大型语言模型的对齐日益重要。直接偏好优化(DPO)作为无需奖励模型的新方法,虽在学术界受关注,但在实践中,如ChatGPT等应用仍青睐近端策略优化(PPO)。清华大学吴翼团队通过理论分析与实证研究发现DPO潜在局限性,并揭示PPO在LLM微调中取得优异性能的关键因素,如优势归一化、大批量大小及指数移动平均更新等。实验表明,PPO在多个任务中超越DPO,特别是在代码生成任务中取得领先成果。然而,这些发现需更多研究验证。论文详情见: https://arxiv.org/pdf/2404.10719

在自然语言处理领域,大型语言模型(LLMs)的广泛应用和显著性能提升,使得对这些模型进行更精确的人类偏好对齐变得尤为重要。为此,研究人员提出了多种微调方法,其中一种备受关注的方法是强化学习从人类反馈(RLHF)。RLHF方法主要分为基于奖励和无奖励两种类型,而最近,一种名为直接偏好优化(DPO)的无奖励方法因其在学术基准测试中的出色表现而备受瞩目。

然而,尽管DPO在学术领域取得了成功,但在实际应用中,如ChatGPT和Claude等最成功的应用,却采用了基于奖励的方法,如近端策略优化(PPO)。这引发了一个问题:DPO是否真的比PPO更适合LLM?为什么PPO在学术基准测试中表现不佳?

为了回答这些问题,清华大学的吴翼团队进行了一项深入的研究,他们对DPO和PPO的算法特性进行了理论和实证研究,并揭示了PPO在微调LLM时取得最佳性能的关键因素。

首先,吴翼团队通过理论分析发现,DPO可能存在一些基本的局限性。他们发现,DPO可能会找到有偏差的解决方案,这些解决方案利用了模型输出和偏好数据集之间的分布偏移。此外,他们还发现,DPO的性能在很大程度上受到模型输出和偏好数据集之间分布偏移的影响。

这些发现表明,尽管DPO在学术基准测试中表现良好,但在实际应用中,它可能无法提供与基于奖励的方法(如PPO)相同的性能。

为了提高PPO在RLHF中的实际性能,吴翼团队对PPO的算法组件进行了消融研究,并发现了一些关键因素,这些因素对于PPO的最佳性能至关重要。

首先,他们发现优势归一化对于提高PPO的性能至关重要。通过将优势值归一化到一个固定范围内,可以帮助PPO更好地学习到有用的特征,从而提高其性能。

其次,他们发现大批量大小对于提高PPO的性能也很重要。通过使用更大的批量大小,可以增加PPO的样本效率,从而提高其性能。

最后,他们发现使用指数移动平均更新参考模型对于提高PPO的性能也很重要。通过使用指数移动平均更新参考模型,可以帮助PPO更好地跟踪模型的变化,从而提高其性能。

为了验证他们的发现,吴翼团队在一系列RLHF测试平台上对DPO和PPO进行了广泛的实验,包括对话生成任务和更具挑战性的代码生成任务。

实验结果表明,PPO在所有情况下都能够超越其他对齐方法,并在具有挑战性的代码竞赛任务中取得了最先进的结果。特别是,在CodeContest数据集上,他们的34B参数PPO模型在10@1k指标上从16.4%提高到22.4%,超过了41B参数的AlphaCode模型。

然而,需要注意的是,这项研究的结果可能受到所使用的特定数据集和实验设置的影响。因此,在将这些结果应用于实际应用之前,需要进行更多的研究来验证这些发现。此外,尽管PPO在这项研究中表现良好,但其他基于奖励的方法也可能具有类似的优势,需要进一步研究来确定最佳的RLHF方法。

论文地址:https://arxiv.org/pdf/2404.10719

目录
相关文章
|
1月前
|
缓存 算法 关系型数据库
MIT韩松团队长上下文LLM推理高效框架DuoAttention:单GPU实现330万Token上下文推理
麻省理工学院韩松团队提出DuoAttention框架,旨在提高大型语言模型(LLM)处理长上下文的效率。该框架通过区分检索头和流式头,仅对检索头应用全键值缓存,减少内存消耗和计算时间,同时保持模型长上下文处理能力。实验结果显示,DuoAttention在多种模型架构上显著提升了推理效率,为LLM的实际应用提供了新可能。
76 14
|
2月前
|
SQL 人工智能 JSON
XGrammar:陈天奇团队推出的LLM结构化生成引擎
XGrammar是由陈天奇团队推出的开源软件库,专为大型语言模型(LLM)设计,提供高效、灵活且可移植的结构化数据生成能力。基于上下文无关语法(CFG),XGrammar支持递归组合以表示复杂结构,适用于生成JSON、SQL等格式数据,并通过字节级下推自动机优化解释CFG,实现百倍加速。
102 0
XGrammar:陈天奇团队推出的LLM结构化生成引擎
|
3月前
|
自然语言处理
杨笛一团队最新百页论文:首次统计学上证明,LLM生成的idea新颖性优于人类
【10月更文挑战第12天】斯坦福大学杨笛一团队发布百页论文,首次通过统计学方法证明大型语言模型(LLMs)在生成研究想法的新颖性上优于人类专家。研究招募100多名NLP专家进行盲评,结果显示LLM在新颖性方面显著胜出,但在可行性上稍逊。研究揭示了LLM在科研创新中的潜力与局限。
67 2
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
企业内训|LLM大模型技术在金融领域的应用及实践-某商业银行分行IT团队
本企业培训是TsingtaoAI技术团队专们为某商业银行分行IT团队开发的LLM大模型技术课程。课程深入分析大模型在金融行业中的发展趋势、底层技术及应用场景,重点提升学员在大模型应用中的实际操作能力与业务场景适应力。通过对全球商用 LLM 产品及国内外技术生态的深度对比,学员将了解大模型在不同企业中的发展路径,掌握如 GPT 系列、Claude 系列、文心一言等大模型的前沿技术。针对金融行业的业务需求,学员将学会如何结合多模态技术改进用户体验、数据分析等服务流程,并掌握大模型训练与工具链的实操技术,尤其是模型的微调、迁移学习与压缩技术。
114 2
|
4月前
|
测试技术
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
【9月更文挑战第14天】微软研究团队发布了一篇介绍新型框架"AgentInstruct"的论文,该框架旨在通过自动生成高质量合成数据,推动语言模型发展。AgentInstruct仅需原始数据源即可创建多样化的合成数据,减少人工工作量。研究团队基于此框架构建了含2500万训练对的数据集,展示了其在多种技能教学中的潜力。经微调后的Mistral-7b模型演进为Orca-3,在多个基准测试中显著超越同类模型。尽管如此,AgentInstruct仍面临创建流程耗时及合成数据复杂性不足等问题。论文详情见:https://arxiv.org/pdf/2407.03502
100 2
|
6月前
|
编解码 文字识别 计算机视觉
寒武纪1号诞生:谢赛宁Yann LeCun团队发布最强开源多模态LLM
【7月更文挑战第10天】【寒武纪1号】- 谢赛宁、Yann LeCun团队发布开源多模态LLM,含8B至34B规模模型,创新空间视觉聚合器(SVA)提升视觉-语言集成,建立新基准CV-Bench及大规模训练数据集Cambrian-7M。在多模态任务中表现出色,尤其在高分辨率图像处理上,但面临高分辨率信息处理和部分视觉任务评估的局限。[链接](https://arxiv.org/pdf/2406.16860)
150 1
|
人工智能 自然语言处理 数据挖掘
为多模态LLM指明方向,邱锡鹏团队提出具有内生跨模态能力的SpeechGPT
为多模态LLM指明方向,邱锡鹏团队提出具有内生跨模态能力的SpeechGPT
193 0
|
3月前
|
前端开发 机器人 API
前端大模型入门(一):用 js+langchain 构建基于 LLM 的应用
本文介绍了大语言模型(LLM)的HTTP API流式调用机制及其在前端的实现方法。通过流式调用,服务器可以逐步发送生成的文本内容,前端则实时处理并展示这些数据块,从而提升用户体验和实时性。文章详细讲解了如何使用`fetch`发起流式请求、处理响应流数据、逐步更新界面、处理中断和错误,以及优化用户交互。流式调用特别适用于聊天机器人、搜索建议等应用场景,能够显著减少用户的等待时间,增强交互性。
801 2
|
3月前
|
机器学习/深度学习 人工智能 运维
企业内训|LLM大模型在服务器和IT网络运维中的应用-某日企IT运维部门
本课程是为某在华日资企业集团的IT运维部门专门定制开发的企业培训课程,本课程旨在深入探讨大型语言模型(LLM)在服务器及IT网络运维中的应用,结合当前技术趋势与行业需求,帮助学员掌握LLM如何为运维工作赋能。通过系统的理论讲解与实践操作,学员将了解LLM的基本知识、模型架构及其在实际运维场景中的应用,如日志分析、故障诊断、网络安全与性能优化等。
112 2
|
3月前
|
机器学习/深度学习 数据采集 人工智能
文档智能 & RAG 让AI大模型更懂业务 —— 阿里云LLM知识库解决方案评测
随着数字化转型的深入,企业对文档管理和知识提取的需求日益增长。阿里云推出的文档智能 & RAG(Retrieval-Augmented Generation)解决方案,通过高效的内容清洗、向量化处理、精准的问答召回和灵活的Prompt设计,帮助企业构建强大的LLM知识库,显著提升企业级文档管理的效率和准确性。

热门文章

最新文章