大模型时代,强化学习正从“锦上添花”变成“不可或缺”。在千亿参数成为标配的当下,单纯依赖 Next-Token Prediction 的预训练范式已经触及了能力天花板。现在的核心工程难题,不再是如何让模型吐出流畅的文本,而是如何将其内部错综复杂的表征空间,收敛到符合人类逻辑与偏好的狭窄子集中。强化学习(RL)由此成为了跨越这道鸿沟的核心组件,它不仅在做对齐,更是在尝试将单步的概率预测,升维成一种具备多步规划属性的系统决策。
一、算法演进:从PPO的显存困境到GRPO的工程解法
从早期的 RLHF 开始,业界尝试了多种策略梯度路线。以 PPO 为例,其初衷是通过裁剪策略的更新幅度,来解决传统 TRPO 每次迭代计算 Hessian 矩阵带来的高昂成本,从而在模型权重剧烈震荡崩溃与缓慢收敛之间找到一个工程上的甜点。但在实际的大语言模型训练集群中,PPO 带来的显存负担是极其沉重的。为了计算优势函数(Advantage),我们不得不在显存里常驻一个与策略网络体积相当的价值模型(Critic)作为 Baseline。更尴尬的是,在生成式任务的马尔可夫链里,往往只有最后一个 Token 才会得到环境的真实奖励信号,这就导致庞大的价值模型在大部分时间里只是在拟合极其稀疏的信号,计算性价比极低。
二、Agentic RL的核心挑战:长程决策与可验证奖励
从数学抽象上看,传统的 RLHF 本质上处理的是一个近似单步的马尔可夫决策过程(MDP)。模型根据当前的 Prompt 状态,生成一段完整的序列,然后统一结算一次反馈。但在 Agentic RL 的语境下,环境变成了部分可观测的(POMDP)。模型需要规划长时程的动作序列,中间穿插着与外部工具的多次状态交换。当前做出的代码调用决策,其好坏往往要在几轮物理环境交互之后,才能在最终结果中体现出来。
……
点击标题可阅读全文。