图解强化学习 |手算GRPO

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: GRPO(分组相对策略优化)是PPO的无Critic简化版,仅用单一Actor网络,通过组内候选回答的相对奖励归一化替代优势函数估计;引入裁剪机制与KL正则,显著降低显存开销、提升训练稳定性与长链推理能力。(239字)

 GRPO 算法的基础认识

GRPO = Group Relative Policy Optimization(分组相对策略优化算法)

GRPO(Group Relative Policy Optimization)可以看作是 PPO 的无 Critic 简化版本。

它不再额外训练价值网络,而是通过同一组候选回答之间的相对奖励进行归一化,来替代 PPO 中

的优势函数估计。同时,GRPO 保留了 PPO 的裁剪机制,以限制策略更新幅度,保证训练稳定

性,并加入 KL 正则项,防止模型过度偏离原始策略。其核心目的在于降低 LLM-RLHF 训练中的

显存与计算开销,同时提升训练稳定性和长链推理能力。



GRPO 算法的网络结构

Actor网络

唯一网络:Actor —— 策略网络

输入:状态 / 文本提示词 s

输出:动作 / 文本序列 a、动作对数概率、与参考模型的 KL 散度

作用:根据输入内容生成输出,同时计算概率用于损失更新,全程仅依靠这一个网络完成训练补充

说明:

不再单独设计 Q 网络、价值网络、目标网络,也无可学习的温度参数,网络结构极简

训练阶段会引入参考模型(固定参数,不参与梯度更新),仅用来计算 KL 正则

项,不属于训练网络。

image.gif


网络更新

使用:GRPO-Clip 裁剪损失 + KL 散度正则损失

目的:更新策略,让组内更好的输出概率变高,同时限制更新幅度,不崩模型、不偏离原始能力。

输入:

状态 / 提示词 s

旧策略动作概率 π_old

新策略动作概率 π_new

组内归一化优势 A(来自同一提示词的多个回答奖励)

参考模型概率 π_ref(固定不动,用来算 KL)

计算:

求概率比 r = π_new / π_old

裁剪到安全区间 [1-ε, 1+ε]

取 min (r*A, clip (r)*A) → 得到裁剪损失

计算 KL 散度(新策略 ↔ 参考模型)

总损失 = 裁剪损失 + β * KL 散度

反向传播更新唯一的 Actor

特点:

只有一个网络更新,显存占用极低

无价值网络,无预测误差,训练极稳

KL 散度约束,模型不会学歪、不会退化

组内归一化优势,自动平衡奖励尺度,不用调参

image.gif

image.gif

image.gif

目录
相关文章
|
1天前
|
机器学习/深度学习 人工智能 算法
图解人工智能的数学基础(高数)
本文系统讲解微积分核心概念:数列与递推、极限(含无穷小/大)、导数(含中值定理、泰勒公式)、积分(不定/定/变上限/反常)及微分方程,并延伸至多元函数、偏导数、链式法则与二重积分,结合Sigmoid函数、药物衰减等实例及SymPy代码演示,突出其在AI与工程中的应用基础。
43 5
|
1天前
|
人工智能 知识图谱
图解人工智能的数学基础(概率论)
本内容系统讲解概率论与数理统计核心知识:从随机事件、古典/几何概型、条件概率、贝叶斯公式,到一维随机变量及其分布(离散型/连续型)、数字特征(期望、方差、协方差、相关系数),再到大数定律、中心极限定理及卡方/t/F分布,最后涵盖最大似然估计方法。理论结合水果店、掷骰子等生活实例,图文并茂,深入浅出。
36 2
|
1天前
|
机器学习/深度学习 人工智能 算法
图解强化学习 |手算近端策略优化算法(PPO)
PPO(近端策略优化)是当前最主流的强化学习算法,以训练稳定、上手简单、泛化性强著称。它通过Actor-Critic双网络架构,结合PPO-Clip损失函数限制策略更新幅度,并利用GAE优势估计提升样本效率,广泛应用于游戏AI、机器人控制、大模型对齐等领域。
38 3
|
1天前
|
机器学习/深度学习 存储 人工智能
图解人工智能的数学基础(线性代数)
本文系统讲解线性代数核心概念,涵盖向量(定义、几何/坐标表示、内积)、矩阵(含义、运算、秩、逆、相似、分解)、行列式(几何意义与变换关系)、线性方程组、特征值与特征向量、二次型、向量空间及范数等,强调其在AI与神经网络中的实际应用。
40 7
|
1天前
|
人工智能 安全 PHP
周一上线|Claude Code 有了避坑指南,GitHub 内部仓库遭未授权访问
本周AI/开发者圈“工具与玩具齐飞”:Cursor、Warp、Codex、Qwen等密集升级;Google开源Agent Runtime,Perplexity发布安全扫描器;老式钻床变游戏手柄、耳机成陀螺发射器、3D猫追鼠标等创意玩出花。
周一上线|Claude Code 有了避坑指南,GitHub 内部仓库遭未授权访问
|
1天前
|
编解码 人工智能 自然语言处理
从 VALL-E 到 MaskGCT:零样本声音克隆技术演进
本文梳理零样本声音克隆从VALL-E(自回归)到MaskGCT(非自回归掩码生成)的技术演进,聚焦视频翻译配音这一高要求场景:需兼顾多角色一致性、跨语种音色保真、副语言细节(笑/叹气/情绪)、时间轴对齐与批量稳定性。工程落地重于单句demo,核心在于长视频中“像角色说话”,而非仅“读准文本”。
|
1天前
|
SQL 人工智能 关系型数据库
【MySQL百日打怪升级第24天】EXPLAIN 执行计划解读 —— type/key/rows/Extra
本文详解MySQL执行计划核心字段:type(访问类型,ALL/index需警惕)、rows(扫描行数,重在比例)、Extra(性能关键,关注Using index/filesort等)。结合实战案例与索引优化技巧,助DBA及开发者快速定位慢查根源,直击面试高频考点。
43 5
|
1天前
|
人工智能 前端开发 数据可视化
向量空间JBoltAI v4.4:ReAct推理链走向全透明
向量空间JBoltAI v4.4聚焦“可解释性”痛点,重构Agent架构:拆分AgentRAG与DataChatChain,统一推理基座;新增实时推理可视化(Thought/Action/Observation),全程可追溯;强化图表生成、安全认证与SDK模型生态。让AI从黑盒走向透明、可信、可管可控。(239字)
30 0
|
1天前
|
人工智能 自然语言处理 数据挖掘
一人公司办公必备
一人公司办公必备,是任务拆解+AI协同+智能体辅助+知识沉淀+工作流复用的个人系统。告别单点工具堆砌,聚焦流程化、可复用、能进化的高效办公范式。
42 2
|
1天前
|
机器学习/深度学习 数据采集 人工智能
水稻病害检测数据集分享(适用于YOLO系列深度学习分类检测任务)
本数据集含7000+张水稻病害图像,覆盖细菌性叶斑病、褐斑病、叶霉病三类,标注规范(YOLO格式),已划分训练/验证/测试集(8:1:1),支持YOLO系列等主流检测模型,助力智慧农业病害识别研究与落地。(239字)
45 7