近期,强化学习的任务形态正从以reasoningtask为主,逐步演进为更复杂的Agentictask。这类任务引入了agentframework,更加复杂的数据生成流程与稳定性挑战,对RL训练框架提出了全新要求。本次演讲将聚焦slime框架,系统介绍其针对AgenticRL场景所做的一系列关键优化设计,包括灵活的rollout机制、解耦的agent接入方式、高效的并行与同步策略等,全面展示slime如何显著提升AgenticRL训练的scalability。
龙蜥社区(OpenAnolis)是面向国际的 Linux 服务器操作系统开源根社区及创新平台,秉承“平等、开放、协作、创新”的原则,理事会由阿里云、统信软件、龙芯、Arm 、Intel 等 24 家国内外头部企业共同组成,有超过 1000 家来自芯片厂商、软件厂商、整机厂商、操作系统厂商等覆盖操作系统全产业链的合作伙伴参与生态共建。