全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型

简介: 【6月更文挑战第4天】普林斯顿大学陈丹琦团队推出SimPO,一种超越DPO的强化学习优化算法,旨在优化大型语言模型以符合人类价值观。SimPO通过序列平均对数概率作为奖励,提高计算效率并减少对参考模型的依赖。在多基准测试中,SimPO表现优秀,尤其在AlpacaEval 2和Arena-Hard上大幅超越现有方法。团队还基于Llama3-8B-Instruct创建了最强8B开源模型,推动AI技术发展。尽管存在超参数敏感性等挑战,SimPO仍为AI优化提供新途径。[论文链接](https://arxiv.org/pdf/2405.14734)

在人工智能领域,尤其是在强化学习与人类反馈相结合的研究中,如何优化大型语言模型(LLMs)以更好地符合人类的价值观和意图,始终是一个核心议题。近期,普林斯顿大学陈丹琦团队提出了一种全新的优化算法——简单偏好优化(SimPO),旨在简化和提升现有算法的性能。这项研究不仅在理论上取得了突破,而且在实践中也炼就了最强的8B开源模型,为AI领域带来了一股新风。

陈丹琦团队的这项工作,是在直接偏好优化(DPO)算法的基础上进行的改进。DPO作为一种流行的离线偏好优化方法,通过重新参数化奖励函数,直接从偏好数据中学习策略模型,省去了显式奖励模型的需求,因其简单和稳定而获得了广泛的实际应用。然而,DPO在奖励公式的设计上,并未与模型生成的度量标准直接对齐,这可能导致性能上的不理想。

针对这一问题,SimPO算法提出了一种新的奖励公式——使用序列的平均对数概率作为隐式奖励。这种设计更加符合模型生成的过程,并且消除了对参考模型的需求,从而在计算和内存效率上都有显著提升。此外,SimPO还引入了一个目标奖励边际,鼓励获胜响应与失败响应之间的奖励差异超过这一边际,进一步提升了算法的性能。

为了验证SimPO的有效性,陈丹琦团队将其与DPO及其最新变体在多种最先进的训练设置下进行了比较,包括基础和指令调整模型,如Mistral和Llama3。在广泛的指令跟随基准测试中,包括AlpacaEval 2、MT-Bench和最近的Arena-Hard基准测试中进行了评估。结果显示,SimPO在各个基准测试中均显著且一致地超越了现有方法,且没有显著增加响应长度。特别是在AlpacaEval 2上,SimPO的得分比DPO高出6.4个百分点,在Arena-Hard上高出7.5个百分点。

在开源模型方面,基于Llama3-8B-Instruct构建的顶尖模型,在AlpacaEval 2上实现了44.7%的受控胜率,超越了排行榜上的Claude 3 Opus,成为最强的8B开源模型。这一成果不仅证明了SimPO算法的有效性,也为开源社区提供了一个强大的工具,有助于推动AI技术的进一步发展。

肯定的是,SimPO算法在简化模型训练、提升效率和性能方面做出了显著贡献。它的提出,为AI领域带来了一种更为高效、直观的优化方法,有助于解决现有算法在处理人类反馈时的复杂性和低效性问题。此外,通过消除对参考模型的依赖,SimPO还降低了模型训练的资源消耗,使得研究和应用更为可行。

然而,任何新技术的提出都不是完美无缺的。SimPO虽然在多个方面表现出色,但在实际应用中可能还会遇到一些挑战。比如,算法对于超参数的敏感性较高,需要精心调整以达到最佳性能。此外,算法的普适性和泛化能力还需要在更多场景下进行测试和验证。尽管如此,SimPO的出现无疑为AI领域提供了新的思路和工具,其潜力和价值值得期待。

论文地址:https://arxiv.org/pdf/2405.14734

目录
相关文章
|
2月前
|
自然语言处理 物联网 异构计算
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA
【4月更文挑战第3天】伊利诺伊大学香槟分校和LMFlow团队推出LISA,一种新型微调技术,用于解决大型语言模型的内存消耗问题。LISA基于层重要性采样,随机冻结中间层,降低内存使用,同时提供比LoRA更快的训练速度和更高性能。实验显示,LISA在相似或更低的GPU内存消耗下,超越LoRA和全参数调优。该方法提高了资源受限环境下的微调效率,有望成为LoRA的有效替代,但仍然面临内存限制和随机性影响的问题。
120 4
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA
|
10天前
|
机器学习/深度学习 算法 安全
【机器学习与大模型】开源大模型和闭源大模型:技术发展与社会责任的平衡点
【机器学习与大模型】开源大模型和闭源大模型:技术发展与社会责任的平衡点
19 0
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【大模型】如何向非技术受众解释LLM的概念及其能力?
【5月更文挑战第7天】【大模型】如何向非技术受众解释LLM的概念及其能力?
|
2月前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
39 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
2月前
|
人工智能 自然语言处理 安全
【大模型】 基于AI和全球化进程的权衡:开源大模型与闭源大模型
【大模型】 基于AI和全球化进程的权衡:开源大模型与闭源大模型
62 0
|
2月前
|
机器学习/深度学习 数据采集 人工智能
ICLR 2024:RLHF有了通用平台和基准,天大开源,专攻现实决策场景
【4月更文挑战第21天】天津大学在ICLR 2024发布RLHF新框架Uni-RLHF,以人类反馈引导强化学习,降低奖励函数设计需求,适应现实决策场景。该框架提供通用平台和基准,支持大规模众包注释,促进研究。尽管面临准确捕捉人类反馈、数据质量和多任务处理等挑战,但开源特性加速了学术进步。[链接](https://arxiv.org/abs/2402.02423)
40 0
|
2月前
|
存储 数据安全/隐私保护 C++
向他人分享你的模型设计成果
在模型设计或交付工作过程中,经常需要为你的团队成员或甲方客户分享你的模型设计成果。在分享过程中,文件大小和复杂性、版本控制问题、权限和访问控制、网络和存储限制、数据安全和隐私等因素,都会影响最终的效果。
64 0
向他人分享你的模型设计成果
|
2月前
|
机器学习/深度学习 自然语言处理 安全
18LLM4SE革命性技术揭秘:大型语言模型LLM在软件工程SE领域的全景解析与未来展望 - 探索LLM的多维应用、优化策略与软件管理新视角【网安AIGC专题11.15】作者汇报 综述
18LLM4SE革命性技术揭秘:大型语言模型LLM在软件工程SE领域的全景解析与未来展望 - 探索LLM的多维应用、优化策略与软件管理新视角【网安AIGC专题11.15】作者汇报 综述
435 0
|
2月前
|
机器学习/深度学习 存储 人工智能
极智AI | 谈谈模型量化组织方式
本文主要聊一下深度学习模型量化组织方式。
184 0
|
数据采集 自然语言处理 达摩院
四年了,基础开源模型没有真正进步,指令调优大模型评估惊人发现
四年了,基础开源模型没有真正进步,指令调优大模型评估惊人发现
108 0

热门文章

最新文章