卿云阁_个人页

卿云阁
个人头像照片
1
1
0

个人介绍

果壳小学生

擅长的技术

  • 人工智能
获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
暂无更多信息

2026年05月

  • 05.23 14:19:45
    发表了文章 2026-05-23 14:19:45

    图解强化学习 |手算PG算法

    PG(Policy Gradient)策略梯度算法直接优化策略网络,输出动作概率而非价值,适用于离散/连续动作空间。需整回合采样后计算折扣回报Gₜ,以-logπ·G为损失函数更新参数,提升高回报动作概率。可引入基线(如平均回报)构建优势函数,提升训练稳定性与效率。(239字)
  • 05.23 10:51:49
    发表了文章 2026-05-23 10:51:49

    图解强化学习 |手算Actor-Critic

    Actor-Critic是一种融合策略优化(Actor)与价值评估(Critic)的强化学习算法:Actor负责选动作,Critic实时打分(如TD误差),实现单步更新、低方差、高效率,兼顾离散/连续动作空间。(239字)
  • 05.23 09:29:06
    发表了文章 2026-05-23 09:29:06

    图解强化学习 |手算DDPG

    DDPG(深度确定性策略梯度)是一种面向连续动作空间的Actor-Critic强化学习算法。它采用4网络结构(Actor/Critic及其对应目标网络),结合经验回放与软更新,通过确定性策略梯度优化策略,广泛应用于机器人控制、自动驾驶等场景。(239字)

2022年02月

  • 发表了文章 2026-05-23

    图解强化学习 |手算PG算法

  • 发表了文章 2026-05-23

    图解强化学习 |手算Actor-Critic

  • 发表了文章 2026-05-23

    图解强化学习 |手算DDPG

  • 发表了文章 2022-02-22

    ECS使用体验

正在加载, 请稍后...
滑动查看更多
  • 提交了问题 2022-02-11

    宝塔面板突然打不开了(就是今天早上用宝塔下载东西的时候,不小心把页面退出了,然后再也登不上去了。)

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息