全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型

简介: 【6月更文挑战第4天】普林斯顿大学陈丹琦团队推出SimPO,一种超越DPO的强化学习优化算法,旨在优化大型语言模型以符合人类价值观。SimPO通过序列平均对数概率作为奖励,提高计算效率并减少对参考模型的依赖。在多基准测试中,SimPO表现优秀,尤其在AlpacaEval 2和Arena-Hard上大幅超越现有方法。团队还基于Llama3-8B-Instruct创建了最强8B开源模型,推动AI技术发展。尽管存在超参数敏感性等挑战,SimPO仍为AI优化提供新途径。[论文链接](https://arxiv.org/pdf/2405.14734)

在人工智能领域,尤其是在强化学习与人类反馈相结合的研究中,如何优化大型语言模型(LLMs)以更好地符合人类的价值观和意图,始终是一个核心议题。近期,普林斯顿大学陈丹琦团队提出了一种全新的优化算法——简单偏好优化(SimPO),旨在简化和提升现有算法的性能。这项研究不仅在理论上取得了突破,而且在实践中也炼就了最强的8B开源模型,为AI领域带来了一股新风。

陈丹琦团队的这项工作,是在直接偏好优化(DPO)算法的基础上进行的改进。DPO作为一种流行的离线偏好优化方法,通过重新参数化奖励函数,直接从偏好数据中学习策略模型,省去了显式奖励模型的需求,因其简单和稳定而获得了广泛的实际应用。然而,DPO在奖励公式的设计上,并未与模型生成的度量标准直接对齐,这可能导致性能上的不理想。

针对这一问题,SimPO算法提出了一种新的奖励公式——使用序列的平均对数概率作为隐式奖励。这种设计更加符合模型生成的过程,并且消除了对参考模型的需求,从而在计算和内存效率上都有显著提升。此外,SimPO还引入了一个目标奖励边际,鼓励获胜响应与失败响应之间的奖励差异超过这一边际,进一步提升了算法的性能。

为了验证SimPO的有效性,陈丹琦团队将其与DPO及其最新变体在多种最先进的训练设置下进行了比较,包括基础和指令调整模型,如Mistral和Llama3。在广泛的指令跟随基准测试中,包括AlpacaEval 2、MT-Bench和最近的Arena-Hard基准测试中进行了评估。结果显示,SimPO在各个基准测试中均显著且一致地超越了现有方法,且没有显著增加响应长度。特别是在AlpacaEval 2上,SimPO的得分比DPO高出6.4个百分点,在Arena-Hard上高出7.5个百分点。

在开源模型方面,基于Llama3-8B-Instruct构建的顶尖模型,在AlpacaEval 2上实现了44.7%的受控胜率,超越了排行榜上的Claude 3 Opus,成为最强的8B开源模型。这一成果不仅证明了SimPO算法的有效性,也为开源社区提供了一个强大的工具,有助于推动AI技术的进一步发展。

肯定的是,SimPO算法在简化模型训练、提升效率和性能方面做出了显著贡献。它的提出,为AI领域带来了一种更为高效、直观的优化方法,有助于解决现有算法在处理人类反馈时的复杂性和低效性问题。此外,通过消除对参考模型的依赖,SimPO还降低了模型训练的资源消耗,使得研究和应用更为可行。

然而,任何新技术的提出都不是完美无缺的。SimPO虽然在多个方面表现出色,但在实际应用中可能还会遇到一些挑战。比如,算法对于超参数的敏感性较高,需要精心调整以达到最佳性能。此外,算法的普适性和泛化能力还需要在更多场景下进行测试和验证。尽管如此,SimPO的出现无疑为AI领域提供了新的思路和工具,其潜力和价值值得期待。

论文地址:https://arxiv.org/pdf/2405.14734

目录
相关文章
|
3月前
|
机器学习/深度学习 数据采集 人工智能
揭秘大型机器学习模型背后的秘密:如何在技术深度与广度之间找到完美平衡点,探索那些鲜为人知的设计、训练与部署技巧,让你的作品脱颖而出!
【8月更文挑战第21天】大型机器学习模型是人工智能的关键方向,借助不断增强的计算力和海量数据,已实现在学术与产业上的重大突破。本文深入探讨大型模型从设计到部署的全过程,涉及数据预处理、模型架构(如Transformer)、训练技巧及模型压缩技术,旨在面对挑战时提供解决方案,促进AI技术的实用化进程。
65 1
|
4月前
|
Web App开发
生成式模型不只会模仿!哈佛、UCSB等最新成果:性能可超越训练集专家水平
【7月更文挑战第23天】研究人员从哈佛大学、UC Santa Barbara等机构展示了生成式模型的新突破:在特定任务上实现超越训练集专家水平的性能。通过“低温度采样”减少模型不确定性,实验中一个名为ChessFormer的模型在下棋任务上表现出了超越性,即性能超过了训练集中专家的平均水平。这项工作揭示了生成式模型在特定条件下实现超越的可能性,为该领域的研究和应用提供了新视角。[论文](https://arxiv.org/pdf/2406.11741)
34 2
|
4月前
|
搜索推荐 人工智能
人工智能LLM问题之大模型特殊能力如何解决
人工智能LLM问题之大模型特殊能力如何解决
|
4月前
|
搜索推荐 人工智能
人工智能LLM问题之大模型的涌现能力如何解决
人工智能LLM问题之大模型的涌现能力如何解决
|
5月前
|
机器学习/深度学习 算法 安全
【机器学习与大模型】开源大模型和闭源大模型:技术发展与社会责任的平衡点
【机器学习与大模型】开源大模型和闭源大模型:技术发展与社会责任的平衡点
70 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
【大模型】如何向非技术受众解释LLM的概念及其能力?
【5月更文挑战第7天】【大模型】如何向非技术受众解释LLM的概念及其能力?
|
6月前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
88 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
6月前
|
人工智能 自然语言处理 安全
【大模型】 基于AI和全球化进程的权衡:开源大模型与闭源大模型
【大模型】 基于AI和全球化进程的权衡:开源大模型与闭源大模型
117 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
【大模型】LLM研究和开发的一些新兴趋势
【5月更文挑战第7天】【大模型】LLM研究和开发的一些新兴趋势
|
6月前
|
机器学习/深度学习 数据采集 人工智能
ICLR 2024:RLHF有了通用平台和基准,天大开源,专攻现实决策场景
【4月更文挑战第21天】天津大学在ICLR 2024发布RLHF新框架Uni-RLHF,以人类反馈引导强化学习,降低奖励函数设计需求,适应现实决策场景。该框架提供通用平台和基准,支持大规模众包注释,促进研究。尽管面临准确捕捉人类反馈、数据质量和多任务处理等挑战,但开源特性加速了学术进步。[链接](https://arxiv.org/abs/2402.02423)
92 0