全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型

简介: 【6月更文挑战第4天】普林斯顿大学陈丹琦团队推出SimPO,一种超越DPO的强化学习优化算法,旨在优化大型语言模型以符合人类价值观。SimPO通过序列平均对数概率作为奖励,提高计算效率并减少对参考模型的依赖。在多基准测试中,SimPO表现优秀,尤其在AlpacaEval 2和Arena-Hard上大幅超越现有方法。团队还基于Llama3-8B-Instruct创建了最强8B开源模型,推动AI技术发展。尽管存在超参数敏感性等挑战,SimPO仍为AI优化提供新途径。[论文链接](https://arxiv.org/pdf/2405.14734)

在人工智能领域,尤其是在强化学习与人类反馈相结合的研究中,如何优化大型语言模型(LLMs)以更好地符合人类的价值观和意图,始终是一个核心议题。近期,普林斯顿大学陈丹琦团队提出了一种全新的优化算法——简单偏好优化(SimPO),旨在简化和提升现有算法的性能。这项研究不仅在理论上取得了突破,而且在实践中也炼就了最强的8B开源模型,为AI领域带来了一股新风。

陈丹琦团队的这项工作,是在直接偏好优化(DPO)算法的基础上进行的改进。DPO作为一种流行的离线偏好优化方法,通过重新参数化奖励函数,直接从偏好数据中学习策略模型,省去了显式奖励模型的需求,因其简单和稳定而获得了广泛的实际应用。然而,DPO在奖励公式的设计上,并未与模型生成的度量标准直接对齐,这可能导致性能上的不理想。

针对这一问题,SimPO算法提出了一种新的奖励公式——使用序列的平均对数概率作为隐式奖励。这种设计更加符合模型生成的过程,并且消除了对参考模型的需求,从而在计算和内存效率上都有显著提升。此外,SimPO还引入了一个目标奖励边际,鼓励获胜响应与失败响应之间的奖励差异超过这一边际,进一步提升了算法的性能。

为了验证SimPO的有效性,陈丹琦团队将其与DPO及其最新变体在多种最先进的训练设置下进行了比较,包括基础和指令调整模型,如Mistral和Llama3。在广泛的指令跟随基准测试中,包括AlpacaEval 2、MT-Bench和最近的Arena-Hard基准测试中进行了评估。结果显示,SimPO在各个基准测试中均显著且一致地超越了现有方法,且没有显著增加响应长度。特别是在AlpacaEval 2上,SimPO的得分比DPO高出6.4个百分点,在Arena-Hard上高出7.5个百分点。

在开源模型方面,基于Llama3-8B-Instruct构建的顶尖模型,在AlpacaEval 2上实现了44.7%的受控胜率,超越了排行榜上的Claude 3 Opus,成为最强的8B开源模型。这一成果不仅证明了SimPO算法的有效性,也为开源社区提供了一个强大的工具,有助于推动AI技术的进一步发展。

肯定的是,SimPO算法在简化模型训练、提升效率和性能方面做出了显著贡献。它的提出,为AI领域带来了一种更为高效、直观的优化方法,有助于解决现有算法在处理人类反馈时的复杂性和低效性问题。此外,通过消除对参考模型的依赖,SimPO还降低了模型训练的资源消耗,使得研究和应用更为可行。

然而,任何新技术的提出都不是完美无缺的。SimPO虽然在多个方面表现出色,但在实际应用中可能还会遇到一些挑战。比如,算法对于超参数的敏感性较高,需要精心调整以达到最佳性能。此外,算法的普适性和泛化能力还需要在更多场景下进行测试和验证。尽管如此,SimPO的出现无疑为AI领域提供了新的思路和工具,其潜力和价值值得期待。

论文地址:https://arxiv.org/pdf/2405.14734

目录
相关文章
|
6月前
|
人工智能 自然语言处理 算法
谷歌推出”自我发现“框架,极大增强GPT-4等大模型推理能力
【4月更文挑战第20天】谷歌DeepMind团队推出了SELF-DISCOVER框架,让大型语言模型能自我发现并构建推理结构,提升在复杂任务中的性能。该框架模仿人类解决问题方式,分两阶段选择和适应原子推理模块,以解决挑战。在多任务测试中,SELF-DISCOVER相比传统方法表现出色,性能提升42%,计算量减少10至40倍。它具有跨模型应用的普适性,并与人类思维方式相通。然而,它在某些任务类型上仍有优化空间,且需解决计算成本问题。论文链接:https://arxiv.org/abs/2402.03620
93 1
|
9天前
|
人工智能 自然语言处理 算法
更快、更强、更经济!港大开源大模型RAG系统LightRAG
香港大学研究团队推出LightRAG,一款新型检索增强生成系统。LightRAG通过引入图结构优化文本索引和检索,克服了传统RAG系统在上下文感知、数据表示和更新效率方面的局限。其双级检索系统、图结构与向量表示的融合及增量更新算法,显著提升了检索准确性和效率,适用于智能客服、知识问答和智能搜索等多个领域。
46 3
|
4月前
|
搜索推荐 人工智能
人工智能LLM问题之大模型特殊能力如何解决
人工智能LLM问题之大模型特殊能力如何解决
|
4月前
|
Web App开发
生成式模型不只会模仿!哈佛、UCSB等最新成果:性能可超越训练集专家水平
【7月更文挑战第23天】研究人员从哈佛大学、UC Santa Barbara等机构展示了生成式模型的新突破:在特定任务上实现超越训练集专家水平的性能。通过“低温度采样”减少模型不确定性,实验中一个名为ChessFormer的模型在下棋任务上表现出了超越性,即性能超过了训练集中专家的平均水平。这项工作揭示了生成式模型在特定条件下实现超越的可能性,为该领域的研究和应用提供了新视角。[论文](https://arxiv.org/pdf/2406.11741)
35 2
|
4月前
|
搜索推荐 人工智能
人工智能LLM问题之大模型的涌现能力如何解决
人工智能LLM问题之大模型的涌现能力如何解决
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AI大模型的核心成功因素
AI大模型的核心成功因素
|
5月前
|
数据采集 机器学习/深度学习 人工智能
可信度超越GPT-4V,清华&面壁揭秘小钢炮模型背后的高效对齐技术
【6月更文挑战第15天】清华大学与面壁智能合作的RLAIF-V框架挑战GPT-4V,通过开源AI反馈增强大语言模型的可信度。该框架利用开放数据和在线学习优化对齐,减少幻觉错误,12B参数模型表现超越GPT-4V。虽有数据质量和稳定性问题,但展示出开源MLLMs潜力。[链接: https://arxiv.org/abs/2405.17220]
126 1
|
5月前
|
机器学习/深度学习 算法 安全
【机器学习与大模型】开源大模型和闭源大模型:技术发展与社会责任的平衡点
【机器学习与大模型】开源大模型和闭源大模型:技术发展与社会责任的平衡点
73 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
【大模型】如何向非技术受众解释LLM的概念及其能力?
【5月更文挑战第7天】【大模型】如何向非技术受众解释LLM的概念及其能力?
|
6月前
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
93 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率