RAGEN:RL训练LLM推理新范式!开源强化学习框架让Agent学会多轮决策

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: RAGEN是一个基于StarPO框架的开源强化学习系统,通过马尔可夫决策过程形式化Agent与环境的交互,支持PPO、GRPO等多种优化算法,显著提升多轮推理训练的稳定性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎯 「RL训练LLM推理新范式!开源框架让Agent学会多轮决策,GitHub已标星2k+」

大家好,我是蚝油菜花。当大多数团队还在用单轮提示优化LLM时,这个来自学术界的强化学习框架正在重新定义Agent训练方式!你是否也遇到过这些AI训练困境——

  • 🤖 微调后的模型在简单问答表现良好,遇到多轮交互就"失忆"
  • 🔄 传统RL方法训练LLM时,reward设计像玄学,收敛曲线堪比心电图
  • 🧩 想尝试多环境并行训练,但PPO实现复杂度让人望而却步...

今天要解剖的 RAGEN ,用三大突破解决这些痛点:

  • 轨迹级优化:StarPO框架直接优化完整交互轨迹,告别短视决策
  • 模块化架构:环境管理器/上下文管理器/Agent代理解耦,扩展性拉满
  • 稳定训练黑科技:渐进式奖励归一化+方差过滤,让loss曲线不再蹦极

已有团队用它训练出能玩转Sokoban解谜的AI,金融领域正在测试自动报告生成——你的LLM准备好升级为「多轮推理大师」了吗?

🚀 快速阅读

RAGEN是专为LLM设计的强化学习训练框架。

  1. 功能:通过MDP形式化多轮交互,支持完整轨迹优化
  2. 技术:StarPO框架整合PPO/GRPO算法,采用渐进式奖励归一化策略

RAGEN 是什么

RAGEN

RAGEN是开源的强化学习框架,用于在交互式、随机环境中训练大型语言模型(LLM)推理Agent。基于StarPO(State-Thinking-Action-Reward Policy Optimization)框架,通过多轮交互优化整个轨迹,支持PPO、GRPO等多种优化策略。

RAGEN通过MDP形式化Agent与环境的交互,引入渐进式奖励归一化策略,有效解决了多轮强化学习中的不稳定性。RAGEN的代码结构经过优化,分为环境管理器、上下文管理器和代理代理三个模块,方便扩展和实验。支持多种环境,如Sokoban、FrozenLake等,展示了良好的泛化能力。

RAGEN 的主要功能

  • 多轮交互与轨迹优化:通过StarPO框架将Agent与环境的交互形式化为马尔可夫决策过程(MDP),优化整个交互轨迹
  • 强化学习算法支持:支持PPO、GRPO和BRPO等多种强化学习算法
  • 易于扩展的环境支持:提供添加自定义环境的接口,已支持Sokoban、FrozenLake等环境
  • 稳定性和效率提升:通过基于方差的轨迹过滤、引入"评论家"以及解耦裁剪等技术提高训练稳定性

RAGEN 的技术原理

  • MDP形式化:将Agent与环境的交互形式化为马尔可夫决策过程(MDP),状态和动作是token序列
  • StarPO框架:包含Rollout阶段(生成推理引导的交互轨迹)和Update阶段(优化整个轨迹的预期奖励)
  • 优化策略:支持PPO、GRPO等多种强化学习算法,适应不同训练需求
  • 渐进式奖励归一化策略:引入基于不确定性的过滤、移除KL惩罚和不对称PPO裁剪等策略
  • 模块化设计:采用环境状态管理器、上下文管理器和Agent代理的三模块架构

如何运行 RAGEN

环境配置

bash scripts/setup_ragen.sh
AI 代码解读

若自动配置失败,可参考scripts/setup_ragen.md进行手动设置

模型训练

基础配置文件为config/base.yaml,包含:

  • config/ppo_trainer.yaml
  • config/envs.yaml

执行训练命令:

python train.py --config-name base
AI 代码解读

模型评估

python -m ragen.llm_agent.agent_proxy --config-name <eval_config>
AI 代码解读

需在config/<eval_config>.yaml中设置模型和环境参数

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

目录
打赏
0
5
5
0
383
分享
相关文章
能够双向推理的LLM!Dream-7B:港大联合华为开源的扩散推理模型,能够同时考虑前后文信息
Dream-7B是由香港大学与华为诺亚方舟实验室联合研发的开源扩散大语言模型,采用独特的掩码扩散范式,在文本生成、数学推理和代码编写等任务中展现出卓越性能。
85 3
能够双向推理的LLM!Dream-7B:港大联合华为开源的扩散推理模型,能够同时考虑前后文信息
CLIMB自举框架:基于语义聚类的迭代数据混合优化及其在LLM预训练中的应用
英伟达提出的CLIMB框架,是一种自动化优化大型语言模型(LLM)预训练数据混合的创新方法。通过语义嵌入与聚类技术,CLIMB能系统地发现、评估并优化数据混合策略,无需人工干预。该框架包含数据预处理、迭代自举及最优权重确定三大阶段,结合小型代理模型与性能预测器,高效搜索最佳数据比例。实验表明,基于CLIMB优化的数据混合训练的模型,在多项推理任务中显著超越现有方法,展现出卓越性能。此外,研究还构建了高质量的ClimbMix数据集,进一步验证了框架的有效性。
36 0
CLIMB自举框架:基于语义聚类的迭代数据混合优化及其在LLM预训练中的应用
36.7K star!拖拽构建AI流程,这个开源LLM应用框架绝了!
`Flowise` 是一款革命性的低代码LLM应用构建工具,开发者通过可视化拖拽界面,就能快速搭建基于大语言模型的智能工作流。该项目在GitHub上线不到1年就斩获**36.7K星标**,被开发者誉为"AI时代的乐高积木"。
145 8
加速LLM大模型推理,KV缓存技术详解与PyTorch实现
大型语言模型(LLM)的推理效率是AI领域的重要挑战。本文聚焦KV缓存技术,通过存储复用注意力机制中的Key和Value张量,减少冗余计算,显著提升推理效率。文章从理论到实践,详细解析KV缓存原理、实现与性能优势,并提供PyTorch代码示例。实验表明,该技术在长序列生成中可将推理时间降低近60%,为大模型优化提供了有效方案。
42 15
加速LLM大模型推理,KV缓存技术详解与PyTorch实现
SWEET-RL:基于训练时信息的多轮LLM代理强化学习框架
SWEET-RL是一种基于训练时信息的逐步评估算法,显著提升了多轮大型语言模型(LLM)代理在强化学习中的成功率。相比现有方法,SWEET-RL将成功率提高6%,使小型开源模型如Llama-3.1-8B达到甚至超越GPT-4O等大型专有模型性能。通过非对称Actor-Critic结构、创新优势函数参数化及两阶段训练流程,SWEET-RL优化了信用分配机制与泛化能力,降低了计算成本。ColBench基准测试显示,SWEET-RL在后端编程和前端设计任务中表现卓越,为AI代理训练技术带来突破性进展。
56 2
SWEET-RL:基于训练时信息的多轮LLM代理强化学习框架
27.4K Star!这个LLM应用宝库让你秒变AI全栈高手,RAG和AI Agent一网打尽!
想要快速入门LLM应用开发?想要了解最新的RAG和AI Agent技术?这个收获27.4K Star的开源项目集合了当下最热门的LLM应用案例,从简单的PDF对话到复杂的多智能体系统应该有尽有。无论你是AI开发新手还是经验丰富的工程师,这里都能找到适合你的项目!
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用,支持多模态交互、多种主流模型选择、离线运行及性能优化。
2384 20
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
企业内训|LLM大模型在服务器和IT网络运维中的应用-某日企IT运维部门
本课程是为某在华日资企业集团的IT运维部门专门定制开发的企业培训课程,本课程旨在深入探讨大型语言模型(LLM)在服务器及IT网络运维中的应用,结合当前技术趋势与行业需求,帮助学员掌握LLM如何为运维工作赋能。通过系统的理论讲解与实践操作,学员将了解LLM的基本知识、模型架构及其在实际运维场景中的应用,如日志分析、故障诊断、网络安全与性能优化等。
194 2
文档智能 & RAG 让AI大模型更懂业务 —— 阿里云LLM知识库解决方案评测
随着数字化转型的深入,企业对文档管理和知识提取的需求日益增长。阿里云推出的文档智能 & RAG(Retrieval-Augmented Generation)解决方案,通过高效的内容清洗、向量化处理、精准的问答召回和灵活的Prompt设计,帮助企业构建强大的LLM知识库,显著提升企业级文档管理的效率和准确性。

热门文章

最新文章