全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型

简介: 【6月更文挑战第4天】普林斯顿大学陈丹琦团队推出SimPO,一种超越DPO的强化学习优化算法,旨在优化大型语言模型以符合人类价值观。SimPO通过序列平均对数概率作为奖励,提高计算效率并减少对参考模型的依赖。在多基准测试中,SimPO表现优秀,尤其在AlpacaEval 2和Arena-Hard上大幅超越现有方法。团队还基于Llama3-8B-Instruct创建了最强8B开源模型,推动AI技术发展。尽管存在超参数敏感性等挑战,SimPO仍为AI优化提供新途径。[论文链接](https://arxiv.org/pdf/2405.14734)

在人工智能领域,尤其是在强化学习与人类反馈相结合的研究中,如何优化大型语言模型(LLMs)以更好地符合人类的价值观和意图,始终是一个核心议题。近期,普林斯顿大学陈丹琦团队提出了一种全新的优化算法——简单偏好优化(SimPO),旨在简化和提升现有算法的性能。这项研究不仅在理论上取得了突破,而且在实践中也炼就了最强的8B开源模型,为AI领域带来了一股新风。

陈丹琦团队的这项工作,是在直接偏好优化(DPO)算法的基础上进行的改进。DPO作为一种流行的离线偏好优化方法,通过重新参数化奖励函数,直接从偏好数据中学习策略模型,省去了显式奖励模型的需求,因其简单和稳定而获得了广泛的实际应用。然而,DPO在奖励公式的设计上,并未与模型生成的度量标准直接对齐,这可能导致性能上的不理想。

针对这一问题,SimPO算法提出了一种新的奖励公式——使用序列的平均对数概率作为隐式奖励。这种设计更加符合模型生成的过程,并且消除了对参考模型的需求,从而在计算和内存效率上都有显著提升。此外,SimPO还引入了一个目标奖励边际,鼓励获胜响应与失败响应之间的奖励差异超过这一边际,进一步提升了算法的性能。

为了验证SimPO的有效性,陈丹琦团队将其与DPO及其最新变体在多种最先进的训练设置下进行了比较,包括基础和指令调整模型,如Mistral和Llama3。在广泛的指令跟随基准测试中,包括AlpacaEval 2、MT-Bench和最近的Arena-Hard基准测试中进行了评估。结果显示,SimPO在各个基准测试中均显著且一致地超越了现有方法,且没有显著增加响应长度。特别是在AlpacaEval 2上,SimPO的得分比DPO高出6.4个百分点,在Arena-Hard上高出7.5个百分点。

在开源模型方面,基于Llama3-8B-Instruct构建的顶尖模型,在AlpacaEval 2上实现了44.7%的受控胜率,超越了排行榜上的Claude 3 Opus,成为最强的8B开源模型。这一成果不仅证明了SimPO算法的有效性,也为开源社区提供了一个强大的工具,有助于推动AI技术的进一步发展。

肯定的是,SimPO算法在简化模型训练、提升效率和性能方面做出了显著贡献。它的提出,为AI领域带来了一种更为高效、直观的优化方法,有助于解决现有算法在处理人类反馈时的复杂性和低效性问题。此外,通过消除对参考模型的依赖,SimPO还降低了模型训练的资源消耗,使得研究和应用更为可行。

然而,任何新技术的提出都不是完美无缺的。SimPO虽然在多个方面表现出色,但在实际应用中可能还会遇到一些挑战。比如,算法对于超参数的敏感性较高,需要精心调整以达到最佳性能。此外,算法的普适性和泛化能力还需要在更多场景下进行测试和验证。尽管如此,SimPO的出现无疑为AI领域提供了新的思路和工具,其潜力和价值值得期待。

论文地址:https://arxiv.org/pdf/2405.14734

目录
相关文章
|
7月前
|
人工智能 自然语言处理 算法
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620
105 1
|
7月前
|
自然语言处理 物联网 异构计算
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA
【4月更文挑战第3天】伊利诺伊大学香槟分校和LMFlow团队推出LISA,一种新型微调技术,用于解决大型语言模型的内存消耗问题。LISA基于层重要性采样,随机冻结中间层,降低内存使用,同时提供比LoRA更快的训练速度和更高性能。实验显示,LISA在相似或更低的GPU内存消耗下,超越LoRA和全参数调优。该方法提高了资源受限环境下的微调效率,有望成为LoRA的有效替代,但仍然面临内存限制和随机性影响的问题。
208 4
比LoRA还快50%的微调方法来了!一张3090性能超越全参调优,UIUC联合LMFlow团队提出LISA
|
23小时前
|
数据采集 人工智能 自动驾驶
VSI-Bench:李飞飞谢赛宁团队推出视觉空间智能基准测试集,旨在评估多模态大语言模型在空间认知和理解方面的能力
VSI-Bench是由李飞飞和谢赛宁团队推出的视觉空间智能基准测试集,旨在评估多模态大型语言模型(MLLMs)在空间认知和理解方面的能力。该基准测试集包含超过5000个问题-答案对,覆盖近290个真实室内场景视频,涉及多种环境,能够系统地测试和提高MLLMs在视觉空间智能方面的表现。
30 16
VSI-Bench:李飞飞谢赛宁团队推出视觉空间智能基准测试集,旨在评估多模态大语言模型在空间认知和理解方面的能力
|
5月前
|
Web App开发
生成式模型不只会模仿!哈佛、UCSB等最新成果:性能可超越训练集专家水平
【7月更文挑战第23天】研究人员从哈佛大学、UC Santa Barbara等机构展示了生成式模型的新突破:在特定任务上实现超越训练集专家水平的性能。通过“低温度采样”减少模型不确定性,实验中一个名为ChessFormer的模型在下棋任务上表现出了超越性,即性能超过了训练集中专家的平均水平。这项工作揭示了生成式模型在特定条件下实现超越的可能性,为该领域的研究和应用提供了新视角。[论文](https://arxiv.org/pdf/2406.11741)
39 2
|
5月前
|
人工智能 数据安全/隐私保护 开发者
开源大模型与闭源大模型那个更好?
开源大模型与闭源大模型那个更好?
|
7月前
|
机器学习/深度学习 物联网 数据处理
社区供稿 | 封神榜团队提出首个引入视觉细化器的多模态大模型Ziya-Visual-Lyrics,多个任务SOTA
封神榜大模型团队基于在多模态领域积累的先进技术,首次在多模态大模型上加入图像标记、目标检测、语义分割模块,推出了多模态大模型Ziya-Visual-Lyrics。
|
7月前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
107 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
6月前
|
机器学习/深度学习 算法 安全
【机器学习与大模型】开源大模型和闭源大模型:技术发展与社会责任的平衡点
【机器学习与大模型】开源大模型和闭源大模型:技术发展与社会责任的平衡点
78 0
|
7月前
|
人工智能 自然语言处理 安全
【大模型】 基于AI和全球化进程的权衡:开源大模型与闭源大模型
【大模型】 基于AI和全球化进程的权衡:开源大模型与闭源大模型
139 0
|
7月前
|
机器学习/深度学习 数据采集 人工智能
ICLR 2024:RLHF有了通用平台和基准,天大开源,专攻现实决策场景
【4月更文挑战第21天】天津大学在ICLR 2024发布RLHF新框架Uni-RLHF,以人类反馈引导强化学习,降低奖励函数设计需求,适应现实决策场景。该框架提供通用平台和基准,支持大规模众包注释,促进研究。尽管面临准确捕捉人类反馈、数据质量和多任务处理等挑战,但开源特性加速了学术进步。[链接](https://arxiv.org/abs/2402.02423)
108 0