ICML 2024 Oral:DPO是否比PPO更适合LLM,清华吴翼团队最新揭秘

简介: 【8月更文挑战第13天】在自然语言处理领域,大型语言模型的对齐日益重要。直接偏好优化(DPO)作为无需奖励模型的新方法,虽在学术界受关注,但在实践中,如ChatGPT等应用仍青睐近端策略优化(PPO)。清华大学吴翼团队通过理论分析与实证研究发现DPO潜在局限性,并揭示PPO在LLM微调中取得优异性能的关键因素,如优势归一化、大批量大小及指数移动平均更新等。实验表明,PPO在多个任务中超越DPO,特别是在代码生成任务中取得领先成果。然而,这些发现需更多研究验证。论文详情见: https://arxiv.org/pdf/2404.10719

在自然语言处理领域,大型语言模型(LLMs)的广泛应用和显著性能提升,使得对这些模型进行更精确的人类偏好对齐变得尤为重要。为此,研究人员提出了多种微调方法,其中一种备受关注的方法是强化学习从人类反馈(RLHF)。RLHF方法主要分为基于奖励和无奖励两种类型,而最近,一种名为直接偏好优化(DPO)的无奖励方法因其在学术基准测试中的出色表现而备受瞩目。

然而,尽管DPO在学术领域取得了成功,但在实际应用中,如ChatGPT和Claude等最成功的应用,却采用了基于奖励的方法,如近端策略优化(PPO)。这引发了一个问题:DPO是否真的比PPO更适合LLM?为什么PPO在学术基准测试中表现不佳?

为了回答这些问题,清华大学的吴翼团队进行了一项深入的研究,他们对DPO和PPO的算法特性进行了理论和实证研究,并揭示了PPO在微调LLM时取得最佳性能的关键因素。

首先,吴翼团队通过理论分析发现,DPO可能存在一些基本的局限性。他们发现,DPO可能会找到有偏差的解决方案,这些解决方案利用了模型输出和偏好数据集之间的分布偏移。此外,他们还发现,DPO的性能在很大程度上受到模型输出和偏好数据集之间分布偏移的影响。

这些发现表明,尽管DPO在学术基准测试中表现良好,但在实际应用中,它可能无法提供与基于奖励的方法(如PPO)相同的性能。

为了提高PPO在RLHF中的实际性能,吴翼团队对PPO的算法组件进行了消融研究,并发现了一些关键因素,这些因素对于PPO的最佳性能至关重要。

首先,他们发现优势归一化对于提高PPO的性能至关重要。通过将优势值归一化到一个固定范围内,可以帮助PPO更好地学习到有用的特征,从而提高其性能。

其次,他们发现大批量大小对于提高PPO的性能也很重要。通过使用更大的批量大小,可以增加PPO的样本效率,从而提高其性能。

最后,他们发现使用指数移动平均更新参考模型对于提高PPO的性能也很重要。通过使用指数移动平均更新参考模型,可以帮助PPO更好地跟踪模型的变化,从而提高其性能。

为了验证他们的发现,吴翼团队在一系列RLHF测试平台上对DPO和PPO进行了广泛的实验,包括对话生成任务和更具挑战性的代码生成任务。

实验结果表明,PPO在所有情况下都能够超越其他对齐方法,并在具有挑战性的代码竞赛任务中取得了最先进的结果。特别是,在CodeContest数据集上,他们的34B参数PPO模型在10@1k指标上从16.4%提高到22.4%,超过了41B参数的AlphaCode模型。

然而,需要注意的是,这项研究的结果可能受到所使用的特定数据集和实验设置的影响。因此,在将这些结果应用于实际应用之前,需要进行更多的研究来验证这些发现。此外,尽管PPO在这项研究中表现良好,但其他基于奖励的方法也可能具有类似的优势,需要进一步研究来确定最佳的RLHF方法。

论文地址:https://arxiv.org/pdf/2404.10719

目录
相关文章
|
5天前
|
测试技术
LLM数学性能暴涨168%,微软14人团队力作!合成数据2.0秘诀曝光,智能体生成教学
【9月更文挑战第14天】微软研究团队发布了一篇介绍新型框架"AgentInstruct"的论文,该框架旨在通过自动生成高质量合成数据,推动语言模型发展。AgentInstruct仅需原始数据源即可创建多样化的合成数据,减少人工工作量。研究团队基于此框架构建了含2500万训练对的数据集,展示了其在多种技能教学中的潜力。经微调后的Mistral-7b模型演进为Orca-3,在多个基准测试中显著超越同类模型。尽管如此,AgentInstruct仍面临创建流程耗时及合成数据复杂性不足等问题。论文详情见:https://arxiv.org/pdf/2407.03502
16 2
|
人工智能 自然语言处理 数据挖掘
为多模态LLM指明方向,邱锡鹏团队提出具有内生跨模态能力的SpeechGPT
为多模态LLM指明方向,邱锡鹏团队提出具有内生跨模态能力的SpeechGPT
170 0
|
1月前
|
人工智能 自然语言处理
公理训练让LLM学会因果推理:6700万参数模型比肩万亿参数级GPT-4
【8月更文挑战第3天】新论文提出“公理训练”法,使仅有6700万参数的语言模型掌握因果推理,性能媲美万亿级GPT-4。研究通过大量合成数据示例教授模型因果公理,实现有效推理并泛化至复杂图结构。尽管面临合成数据需求大及复杂关系处理限制,此法仍为语言模型的因果理解开辟新途径。[链接: https://arxiv.org/pdf/2407.07612]
41 1
|
5天前
|
安全 测试技术
世界模型又近了?MIT惊人研究:LLM已模拟现实世界,绝非随机鹦鹉!
【9月更文挑战第14天】麻省理工学院最近的研究揭示了大型语言模型(LLM)展现出的新潜能,其不仅能模仿真实环境,更在一定程度上理解并模拟程序在特定环境下的运作。通过使用Transformer模型并结合特定探测分类器,研究团队发现模型能逐步掌握程序的形式语义。为了验证这一发现,团队创建了一个独特的干预基准测试,进一步证实了模型的仿真能力,为世界模型的发展提供了新方向。尽管存在模型可能仅习得统计规律而非真正理解语义的争议,这项研究依然为理解复杂系统提供了新工具与视角。论文详情见:https://arxiv.org/abs/2305.11169。
13 1
|
2月前
|
人工智能 JSON 自然语言处理
国内大模型LLM选择以及主流大模型快速使用教程[GLM4/Qwen/Baichuan/Coze/Kimi]
【7月更文挑战第7天】国内大模型LLM选择以及主流大模型快速使用教程[GLM4/Qwen/Baichuan/Coze/Kimi]
166 10
国内大模型LLM选择以及主流大模型快速使用教程[GLM4/Qwen/Baichuan/Coze/Kimi]
|
2月前
|
自然语言处理 API 开发工具
初识langchain:LLM大模型+Langchain实战[qwen2.1、GLM-4]+Prompt工程
【7月更文挑战第6天】初识langchain:LLM大模型+Langchain实战[qwen2.1、GLM-4]+Prompt工程
初识langchain:LLM大模型+Langchain实战[qwen2.1、GLM-4]+Prompt工程
|
2月前
|
搜索推荐 人工智能
人工智能LLM问题之大模型特殊能力如何解决
人工智能LLM问题之大模型特殊能力如何解决
|
2月前
|
存储 人工智能 前端开发
基于LLM大模型Agent的适用范围和困境
基于LLM大模型Agent的适用范围和困境
|
2月前
|
搜索推荐 人工智能
人工智能LLM问题之大模型的涌现能力如何解决
人工智能LLM问题之大模型的涌现能力如何解决
|
2月前
|
机器学习/深度学习 存储 人工智能
ACL 2024|D2LLM:将Causal LLM改造成向量搜索模型的黑科技
D2LLM:一种针对语义搜索任务的新颖方法,它结合了大语言模型(LLM)的准确性与双编码器的高效性。实验表明,D2LLM在多项任务上的性能超越了五个领先基准模型,尤其是在自然语言推理任务中,相对于最佳基准模型的提升达到了6.45%
67 1