❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦
🎯 「RL训练LLM推理新范式!开源框架让Agent学会多轮决策,GitHub已标星2k+」
大家好,我是蚝油菜花。当大多数团队还在用单轮提示优化LLM时,这个来自学术界的强化学习框架正在重新定义Agent训练方式!你是否也遇到过这些AI训练困境——
- 🤖 微调后的模型在简单问答表现良好,遇到多轮交互就"失忆"
- 🔄 传统RL方法训练LLM时,reward设计像玄学,收敛曲线堪比心电图
- 🧩 想尝试多环境并行训练,但PPO实现复杂度让人望而却步...
今天要解剖的 RAGEN ,用三大突破解决这些痛点:
- ✅ 轨迹级优化:StarPO框架直接优化完整交互轨迹,告别短视决策
- ✅ 模块化架构:环境管理器/上下文管理器/Agent代理解耦,扩展性拉满
- ✅ 稳定训练黑科技:渐进式奖励归一化+方差过滤,让loss曲线不再蹦极
已有团队用它训练出能玩转Sokoban解谜的AI,金融领域正在测试自动报告生成——你的LLM准备好升级为「多轮推理大师」了吗?
🚀 快速阅读
RAGEN是专为LLM设计的强化学习训练框架。
- 功能:通过MDP形式化多轮交互,支持完整轨迹优化
- 技术:StarPO框架整合PPO/GRPO算法,采用渐进式奖励归一化策略
RAGEN 是什么
RAGEN是开源的强化学习框架,用于在交互式、随机环境中训练大型语言模型(LLM)推理Agent。基于StarPO(State-Thinking-Action-Reward Policy Optimization)框架,通过多轮交互优化整个轨迹,支持PPO、GRPO等多种优化策略。
RAGEN通过MDP形式化Agent与环境的交互,引入渐进式奖励归一化策略,有效解决了多轮强化学习中的不稳定性。RAGEN的代码结构经过优化,分为环境管理器、上下文管理器和代理代理三个模块,方便扩展和实验。支持多种环境,如Sokoban、FrozenLake等,展示了良好的泛化能力。
RAGEN 的主要功能
- 多轮交互与轨迹优化:通过StarPO框架将Agent与环境的交互形式化为马尔可夫决策过程(MDP),优化整个交互轨迹
- 强化学习算法支持:支持PPO、GRPO和BRPO等多种强化学习算法
- 易于扩展的环境支持:提供添加自定义环境的接口,已支持Sokoban、FrozenLake等环境
- 稳定性和效率提升:通过基于方差的轨迹过滤、引入"评论家"以及解耦裁剪等技术提高训练稳定性
RAGEN 的技术原理
- MDP形式化:将Agent与环境的交互形式化为马尔可夫决策过程(MDP),状态和动作是token序列
- StarPO框架:包含Rollout阶段(生成推理引导的交互轨迹)和Update阶段(优化整个轨迹的预期奖励)
- 优化策略:支持PPO、GRPO等多种强化学习算法,适应不同训练需求
- 渐进式奖励归一化策略:引入基于不确定性的过滤、移除KL惩罚和不对称PPO裁剪等策略
- 模块化设计:采用环境状态管理器、上下文管理器和Agent代理的三模块架构
如何运行 RAGEN
环境配置
bash scripts/setup_ragen.sh
AI 代码解读
若自动配置失败,可参考scripts/setup_ragen.md
进行手动设置
模型训练
基础配置文件为config/base.yaml
,包含:
config/ppo_trainer.yaml
config/envs.yaml
执行训练命令:
python train.py --config-name base
AI 代码解读
模型评估
python -m ragen.llm_agent.agent_proxy --config-name <eval_config>
AI 代码解读
需在config/<eval_config>.yaml
中设置模型和环境参数
资源
- GitHub 仓库:https://github.com/RAGEN-AI/RAGEN
- 项目主页:https://ragen-ai.github.io/
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!
🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦