SWEET-RL:基于训练时信息的多轮LLM代理强化学习框架

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,5000CU*H 3个月
简介: SWEET-RL是一种基于训练时信息的逐步评估算法,显著提升了多轮大型语言模型(LLM)代理在强化学习中的成功率。相比现有方法,SWEET-RL将成功率提高6%,使小型开源模型如Llama-3.1-8B达到甚至超越GPT-4O等大型专有模型性能。通过非对称Actor-Critic结构、创新优势函数参数化及两阶段训练流程,SWEET-RL优化了信用分配机制与泛化能力,降低了计算成本。ColBench基准测试显示,SWEET-RL在后端编程和前端设计任务中表现卓越,为AI代理训练技术带来突破性进展。

SWEET-RL(Step-WisE Evaluation from Training-time information,基于训练时信息的逐步评估)是多轮大型语言模型(LLM)代理强化学习领域的重要技术进展。该算法相较于现有最先进的方法,成功率提升了6%,使Llama-3.1-8B等小型开源模型能够达到甚至超越GPT-4O等大型专有模型的性能水平。本文将深入分析SWEET-RL如何改进AI代理在复杂协作任务中的训练方法。

LLM代理与多轮交互机制

LLM代理是经过特定任务微调的大型语言模型,能够作为决策实体与环境或人类进行交互以完成预定目标。多轮交互过程本质上是一系列连续的信息交换,类似于结构化对话,每个交互步骤都朝着最终解决方案递进。这种交互模式可类比于协作规划过程:例如在共同规划旅行时,一方提出目的地建议,另一方提出问题或顾虑,然后初始建议被逐步完善直至形成完整计划。在此类情境中,代理需要学习如何有效贡献,而反馈往往仅在整个交互序列结束时才能获得,这显著增加了训练的复杂性。

强化学习在此情境中发挥关键作用,它使代理能够通过试错方法进行学习,以最大化累积奖励。然而,多轮交互环境中的传统强化学习面临信用分配问题——即难以准确判定长期序列中哪些特定行动导致了最终的成功或失败。对于已经通过大规模文本数据预训练的LLM而言,这一挑战尤为明显,因为它们需要在保持通用泛化能力的同时适应特定任务的要求。

ColBench:协作推理任务的评估基准

ColBench是专为验证LLM代理在协作产物创建过程中的多轮强化学习算法而设计的基准。该基准主要关注后端编程和前端设计两个关键领域,遵循以下核心原则:

ColBench确保任务具有足够的复杂性,要求代理具备推理和泛化能力,从而真实反映实际应用场景。同时,它采用LLM作为人类模拟器和功能评估器,实现了低开销的快速原型设计。

在后端编程任务中,代理最多可与人类模拟器进行10轮交互,从高级需求描述和函数签名开始,最终通过通过全部10个单元测试(二元奖励制:0或1)评估性能。该数据集包含10,000个训练任务和1,000个测试任务,以及来自Llama-3.1-8B/70B-Instruct的15,000个离线交互轨迹。前端设计任务则要求代理设计网页界面,通过计算与参考设计的余弦相似度评估效果,包含10,000个训练任务和500个测试任务,以及来自Llama-3.1-8B和Qwen2-VL-72B的6,000个交互轨迹。

通过与现有多轮LLM代理基准的比较可知,ColBench是唯一同时满足三个关键标准的评估框架:1)具备充分的任务多样性,确保强化学习训练不会过度拟合;2)拥有足够的任务复杂性,能够挑战代理的推理和泛化能力;3)工程开销最小化,适合快速研究原型开发。

多轮LLM代理面临的核心挑战

在当前快速发展的AI技术生态中,构建高效多轮LLM代理是最具挑战性的前沿研究领域之一。这类代理必须能够参与持续的交互过程,做出连贯一致的决策序列,同时保持对长期目标的导向性。传统强化学习方法在应对此类复杂性时面临诸多困难,主要体现在三个方面:跨回合的信用分配问题、对不同任务的泛化能力,以及如何高效利用有限训练数据。

SWEET-RL作为一种创新解决方案,通过根本性改变LLM代理在协作推理任务中的训练方法,有效应对了上述挑战。

图左展示了ColBench框架概览,包括后端编程和前端设计两个评估任务,支持在真实环境中对代理多轮强化学习算法进行低成本且可靠的评估。图右阐述了SWEET-RL的核心理念,即利用额外的训练时信息结合适当的Bradley-Terry(BT)目标函数实现有效的信用分配。

SWEET-RL的技术创新:核心组件与架构

非对称Actor-Critic结构

SWEET-RL的核心创新在于其非对称actor-critic架构,该架构从根本上改变了代理从经验中学习的方式:

Critic(评估器)可以访问额外的训练时信息,从而提供更精确的行动评估,实现更有效的跨回合信用分配。而Actor(策略网络)则在有限观察条件下运作,根据交互历史做出决策,保持在实际应用场景中的泛化能力。

这种非对称设计使SWEET-RL能够同时获得两种优势:Critic在训练阶段的全面深入理解能力,以及Actor在实际部署中的适用性。

创新的优势函数参数化

SWEET-RL引入了一种新型优势函数参数化方法,显著区别于传统强化学习方法。该方法直接建模优势函数,与LLM预训练目标保持一致,提高了训练稳定性和泛化能力,同时增强了信用分配效率。

两阶段训练流程

该算法实现了精心设计的两阶段训练过程:

第一阶段:回合式Critic训练 - 使用Bradley-Terry目标函数训练Critic,利用训练时信息进行准确评估,根据偏好对优势函数进行优化。

第二阶段:策略改进 - 利用训练好的Critic指导策略更新,实施直接偏好优化的变体算法,确保学习过程稳定高效。

SWEET-RL训练流程概述。在宏观层面,我们首先应用Bradley-Terry目标函数直接训练一个能够访问额外训练时信息的逐步优势函数。优势函数训练完成后,通过将其作为每个回合的奖励模型执行策略改进。

实验性能与应用效果

后端编程任务性能

SWEET-RL在后端编程任务中展现出卓越性能,达到了40.4%的成功率,而多轮DPO方法仅为34.4%;单元测试通过率达到56.8%,显著高于竞争方法的48.0%。

前端设计任务性能

在前端设计场景中,SWEET-RL同样取得了显著进步,与参考解决方案的余弦相似度达到77.7%,对基线方法的胜率为48.2%。

ColBench基准上不同LLM和多轮强化学习算法的性能比较。SWEET-RL相较于其他多轮强化学习算法实现了超过6%的性能提升,使Llama-3.1-8B-Instruct模型能够达到与更大规模专有模型相当的性能水平。

技术优势与创新特点

增强的信用分配机制

SWEET-RL的创新信用分配方法解决了多轮强化学习中最具挑战性的问题之一,通过有效利用训练时信息,提供准确的回合级奖励信号,减少学习信号的方差。

优化的泛化能力

该算法通过与LLM预训练目标保持一致性,展现出卓越的泛化能力,在未见过的任务上表现强劲,并能随训练数据增加而有效扩展。

计算效率优化

SWEET-RL在实现性能提升的同时保持了较高的计算效率,通过直接优势函数建模、稳定的训练动态以及有效利用训练数据实现这一目标。

性能比较图表:(a)展示了不同步进奖励模型在后端编程任务上Best-of-N采样的扩展曲线。结果表明SWEET能够在回合基础上最优判断高质量行动,从而实现Best-of-N采样的最佳扩展性能。需注意,此曲线区别于测试时扩展曲线,因为SWEET利用了额外的训练时信息。(b)展示了不同多轮强化学习算法在后端编程任务上随微调数据量增加的性能扩展情况。尽管SWEET-RL初期需要更多数据以学习可靠的Critic,但它能迅速赶上并最终实现更优的收敛性能。

实验表明,利用训练时信息显著增强了信用分配能力,这一点从SWEET-RL与不使用训练时信息的SWEET-RL之间的性能差距得到证实。虽然相对于固定的LLM-as-a-Judge的Best-of-N采样可在零样本成功率上带来一定改进,但这种改进有限。从质性分析看,固定的LLM评判器容易被响应的长度和格式影响,而未能真正关注其对任务成功的实际效用。最后,尽管在深度强化学习文献中较为常见,但价值函数的使用与SWEET-RL相比未能实现相当的扩展性能,这凸显了SWEET-RL在强化学习算法选择上的精心设计,同时表明训练价值函数的常规做法可能在未见过任务上泛化能力较差。

总结

SWEET-RL代表了多轮LLM代理训练技术的重大进展。其在信用分配、优势函数参数化和非对称actor-critic结构方面的创新为该领域确立了新的基准。该算法使小型模型能够实现与大型专有模型相当的性能,成为AI能力民主化进程中的关键一步。

展望未来,SWEET-RL的影响可能超越其当前应用范围,影响更复杂AI系统的开发,特别是需要复杂推理和协作能力的系统。其成功证明了强化学习的持续发展价值及其在构建更强大、更高效AI代理中的重要性。

SWEET-RL通过技术创新、实用性和卓越性能的结合,成为人工智能领域的关键发展,可能深刻影响未来多轮LLM代理和强化学习的研究与发展方向。

代码

https://avoid.overfit.cn/post/8ff83734c2fb4745a6894e2dcf7308fc

作者:Jenray

目录
相关文章
|
7天前
|
数据采集 算法 数据挖掘
CLIMB自举框架:基于语义聚类的迭代数据混合优化及其在LLM预训练中的应用
英伟达提出的CLIMB框架,是一种自动化优化大型语言模型(LLM)预训练数据混合的创新方法。通过语义嵌入与聚类技术,CLIMB能系统地发现、评估并优化数据混合策略,无需人工干预。该框架包含数据预处理、迭代自举及最优权重确定三大阶段,结合小型代理模型与性能预测器,高效搜索最佳数据比例。实验表明,基于CLIMB优化的数据混合训练的模型,在多项推理任务中显著超越现有方法,展现出卓越性能。此外,研究还构建了高质量的ClimbMix数据集,进一步验证了框架的有效性。
31 0
CLIMB自举框架:基于语义聚类的迭代数据混合优化及其在LLM预训练中的应用
|
1月前
|
人工智能 数据可视化 API
36.7K star!拖拽构建AI流程,这个开源LLM应用框架绝了!
`Flowise` 是一款革命性的低代码LLM应用构建工具,开发者通过可视化拖拽界面,就能快速搭建基于大语言模型的智能工作流。该项目在GitHub上线不到1年就斩获**36.7K星标**,被开发者誉为"AI时代的乐高积木"。
143 8
|
4天前
|
机器学习/深度学习 人工智能 算法
RAGEN:RL训练LLM推理新范式!开源强化学习框架让Agent学会多轮决策
RAGEN是一个基于StarPO框架的开源强化学习系统,通过马尔可夫决策过程形式化Agent与环境的交互,支持PPO、GRPO等多种优化算法,显著提升多轮推理训练的稳定性。
50 5
RAGEN:RL训练LLM推理新范式!开源强化学习框架让Agent学会多轮决策
|
2月前
|
机器学习/深度学习 人工智能 计算机视觉
MILS:无需对LLM进行额外训练就能处理多模态任务,Meta AI提出零样本生成多模态描述方法
MILS 是 Meta AI 推出的零样本生成高质量多模态描述方法,支持图像、视频和音频的描述生成,无需额外训练。
189 34
MILS:无需对LLM进行额外训练就能处理多模态任务,Meta AI提出零样本生成多模态描述方法
|
2月前
|
机器学习/深度学习 存储 人工智能
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用,支持多模态交互、多种主流模型选择、离线运行及性能优化。
2357 20
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
|
3月前
|
机器学习/深度学习 人工智能 NoSQL
记忆层增强的 Transformer 架构:通过可训练键值存储提升 LLM 性能的创新方法
Meta研究团队开发的记忆层技术通过替换Transformer中的前馈网络(FFN),显著提升了大语言模型的性能。记忆层使用可训练的固定键值对,规模达百万级别,仅计算最相似的前k个键值,优化了计算效率。实验显示,记忆层使模型在事实准确性上提升超100%,且在代码生成和通用知识领域表现优异,媲美4倍计算资源训练的传统模型。这一创新对下一代AI架构的发展具有重要意义。
161 11
记忆层增强的 Transformer 架构:通过可训练键值存储提升 LLM 性能的创新方法
|
2月前
|
人工智能 自然语言处理 数据可视化
Agentic Reasoning:推理界RAG诞生!牛津大学框架让LLM学会『组队打怪』:动态调用搜索/代码代理,复杂任务准确率飙升50%
Agentic Reasoning 是牛津大学推出的增强大型语言模型(LLM)推理能力的框架,通过整合外部工具提升多步骤推理、实时信息检索和复杂逻辑关系组织的能力。
133 1
|
7天前
|
人工智能 算法 数据库
美团面试:LLM大模型存在哪些问题?RAG 优化有哪些方法?_
美团面试:LLM大模型存在哪些问题?RAG 优化有哪些方法?_
|
6月前
|
机器学习/深度学习 人工智能 运维
企业内训|LLM大模型在服务器和IT网络运维中的应用-某日企IT运维部门
本课程是为某在华日资企业集团的IT运维部门专门定制开发的企业培训课程,本课程旨在深入探讨大型语言模型(LLM)在服务器及IT网络运维中的应用,结合当前技术趋势与行业需求,帮助学员掌握LLM如何为运维工作赋能。通过系统的理论讲解与实践操作,学员将了解LLM的基本知识、模型架构及其在实际运维场景中的应用,如日志分析、故障诊断、网络安全与性能优化等。
192 2
|
6月前
|
机器学习/深度学习 数据采集 人工智能
文档智能 & RAG 让AI大模型更懂业务 —— 阿里云LLM知识库解决方案评测
随着数字化转型的深入,企业对文档管理和知识提取的需求日益增长。阿里云推出的文档智能 & RAG(Retrieval-Augmented Generation)解决方案,通过高效的内容清洗、向量化处理、精准的问答召回和灵活的Prompt设计,帮助企业构建强大的LLM知识库,显著提升企业级文档管理的效率和准确性。
下一篇
oss创建bucket