【RLchina第五讲】Control as Inference(下)

简介: 【RLchina第五讲】Control as Inference(下)
  • QV 之间的关系


  到这我们已经得到了策略,更进一步我们考虑Q V 之间的关系。考虑对动作空间下的边缘概率分布积分有:

image.png

但是往往环境是随机的,所以我们有:

image.png

 上述的这个反向传播值函数是很特别的,与以往的Q 值函数更新公式不同的地方在于,对于未来状态的状态值函数做了一个softmax这样的东西,这就使得不会突出考虑最大的那个值函数,也能够增加更多的探索。对于随机环境来说会有比较好的效果。


隐目标函数下的最大熵强化学习

image.png


优化目标为这两者的KL散度:


image.png

两边取负号,并将其展开可得:

image.png

此时最小化KL散度变成了最大化期望奖励和策略的熵。对于最后一步T TT,把末尾项展开,把策略扔到计算期望的函数里面,可以得到如下形式:


image.png

image.pngimage.png


整理可得:

image.png

image.png

可以看出,基于图概率下的策略搜索和基于变分推断做KL散度得到的策略结果是一样的。这也充分说明之前做的police inference就是在解决这个潜在目标函数下的优化问题。


随机环境下的优化

image.png

此时的KL散度优化目标可以写为:

image.pngimage.png

由于存在image.png这一项,在无模型的设定里,这一项是比较难优化的。

最大熵强化学习与变分推断


  变分推断是用一个简单的变分分布去近似后验分布,在最大熵RL里面的轨迹概率为:


image.png

这里我们将需要去近似这个分布的概率设置为:


image.png


最后一个不等式是通过Jensen’s inequality推导得到的。再依据p ( τ ) q ( τ )的定义,带入上述方程中,我们可以得到如下不等式:

image.png

上述用图模型思考强化学习问题的时候,目标函数会带一个entropy


Soft Q-Learning

image.png

image.pngimage.png


为了与标准的Q-Learning算法对比,我们给出标准的Q-Learning算法的更新公式:

image.png

  • Liu Q , Wang D . Stein Variational Gradient Descent: A General Purpose Bayesian Inference Algorithm[C]// 2016.
  • Haarnoja, T., Tang, H., Abbeel, P., and Levine, S. (2017). Reinforcement learning with deep energy- based policies. In International Conference on Machine Learning (ICML).


最大熵策略梯度

image.png

目标函数可以定义为:


image.png

对其求梯度有:


image.pngimage.png

image.png

Soft Actor-Critic


  SAC就是将优势函数也进行参数化,变成一个off-policy的算法。优化目标为:

image.png

 对Q 值函数一样,有:

image.png

对其求导有:


image.png

策略优化目标为:

image.png

伪代码:

参考文献


  1. Pattern recognition and machine learning by Bishop 2006
  2. Levine, S., 2018. Reinforcement learning and control as probabilistic inference: Tutorial and review. arXiv preprint arXiv:1805.00909
  3. Haarnoja, T., Tang, H., Abbeel, P., and Levine, S. (2017). Reinforcement learning with deep energy- based policies. In International Conference on Machine Learning (ICML).
  4. Tuomas Haarnoja*, Aurick Zhou*, Kristian Hartikainen*, George Tucker, Sehoon Ha, Jie Tan, Vikash Kumar, Henry Zhu, Abhishek Gupta, Pieter Abbeel, Sergey Levine. Soft Actor-Critic Algorithms and Applications. arXiv preprint, 2018.
  5. Kappen. (2009). Optimal control as a graphical model inference problem: frames control as an inference problem in a graphical model
  6. Ziebart. (2010). Modeling interaction via the principle of maximal causal entropy: connection between soft optimality and maximum entropy modeling.
相关文章
|
机器学习/深度学习 算法 安全
密码学系列之五:MD5、SHA1——一文搞懂哈希函数
密码学系列之五:MD5、SHA1——一文搞懂哈希函数
10182 113
|
搜索推荐 Java 数据库
基于SpringBoot校园二手书交易管理系统
基于SpringBoot校园二手书交易管理系统
|
6月前
|
存储 缓存 资源调度
# Qwen3-8B 的 TTFT 性能分析:16K 与 32K 输入 Prompt 的推算公式与底层原理详解
Qwen3-8B 是通义实验室推出的 80 亿参数大模型,支持最长 32,768 token 上下文,适用于长文本处理场景。通过 FP8 量化、CUDA Kernel 优化及 RoPE 位置编码技术,提升推理效率与稳定性。模型在 16K 输入下 TTFT 约 150-200ms,32K 输入下约 250-300ms,适用于文档摘要与长对话交互。
1822 8
|
7月前
|
存储 编解码 Prometheus
大模型推理加速实战:vLLM 部署 Llama3 的量化与批处理优化指南
本文详解如何通过量化与批处理优化,在vLLM中高效部署Llama3大模型。涵盖内存管理、推理加速及混合策略,提升吞吐量并降低延迟,适用于大规模语言模型部署实践。
1735 2
|
机器学习/深度学习 人工智能 算法
黑科技上线!AI帮你一眼看穿真实面貌
本文介绍了一种利用多模态文件信息抽取技术识别图片中物品材质的方法。通过深度学习算法和大量训练数据,该技术能精确区分不同材料的纹理、颜色等特征,广泛应用于电商、设计等领域。教程详细讲解了如何使用百炼模型服务、对象存储OSS及函数计算部署应用,帮助用户轻松提取图片中的材质信息。跟随步骤实践,人人都能成为鉴宝大师。点击阅读原文,体验图片视觉理解与属性信息提取的强大功能。
|
机器学习/深度学习 并行计算 数据挖掘
请详细介绍GPU加速
【10月更文挑战第20天】请详细介绍GPU加速
|
自然语言处理 算法 开发工具
ModelScope Release Notes 2024-08
ModelScope社区八月上新!平台与社区一系列新功能对外开放,为广大开发者提供一系列新特性与更丰富的功能,欢迎广大开发者使用反馈,与我们共建ModelScope开源社区!
|
文字识别 Linux Swift
多图理解,更懂中文,支持function call的Phi-3.5来了!
微软继今年4月推出Phi-3系列小型语言模型后,又一鼓作气三连发布并开源其「小而美」系列 Phi-3.5模型!
|
Rust 安全 物联网
30天拿下Rust之前世今生
Rust 是一种关注安全与效能的系统级编程语言,由 Mozilla 研究员 Graydon Hoare 于 2006 年发起,旨在解决 C++ 的内存安全与并发难题。通过独特的所有权模型和借用检查机制,Rust 消除了传统语言中的许多安全隐患,实现了内存安全且无运行时垃圾回收。Rust 在 2015 年发布 1.0 版本后迅速崛起,被广泛应用于系统编程、网络服务、浏览器引擎乃至游戏开发等多个领域。其高效的性能、强大的类型系统及丰富的生态系统使其成为开发者心中的新宠。随着技术的进步,Rust 预计将在更多项目中获得应用,并逐渐成为主流选择,特别是在云服务、分布式系统和安全性要求极高的场景中。
250 5
|
开发工具 git iOS开发
服务器配置Huggingface并git clone模型和文件
该博客提供了在服务器上配置Huggingface、安装必要的工具(如git-lfs和huggingface_hub库)、登录Huggingface以及使用git clone命令克隆模型和文件的详细步骤。
2170 1

热门文章

最新文章