如何通俗易懂地理解基于模型的强化学习?

简介: 如何通俗易懂地理解基于模型的强化学习?

  Model Free Reinforcement Learning(MFRL)算法:MFRL中无须知道Transition或者Reward Models。解决这类问题的方法大体上有三种:

  1. Value-Based Method (Q-Learning)。
  2. Policy-Based Method (Policy Gradient)。
  3. Policy and Value Based Method(Actor Critic)。

Model-Based基本思想

  在model-basedRL方法中,需要学transition或者reward model,基于这个所学的model,我们做plan。由于我们可以和所学的model交互,这种做法我们会增加采样的效率。而这种方法的缺点在于使得问题变得更加复杂,并且还存在model-bias的问题。

  • 举例说明:

  设有三条轨迹,其状态用二元组位置坐标( a , d ) 表示,轨迹表示如下

image.png


状态转移概率可表示为:


image.png

 由上述状态转移概率,依据贝尔曼方程,可得最优值函数:


image.png  所以在更新智能体算法参数之前,我们需要更新Transition或者Reward Model。采用值迭代的方法来做MBRL,可以得到MBRL-VI算法伪代码:

20200518102359518.png

  上述基于值迭代的算法能够计算比较简单的transition,对于Complex models可以采用function approximate的方式:

image.png 在知道了transition的情况下,我们可以采用更加高效率的算法来做MBRL,之前是基于值迭代得到model-based强化学习算法,如果用Q-Learning算法来做的话,我们可以得到MBRL-QL算法伪代码:

  与model free的强化学习算法相比,MBRL由于要学一个model,因此更复杂,利用数据的方式更加高效,是利用交互数据学一个model,而不是只用来更新agent,因此泛化能力也会更强。 Partial PlanningReplay Buffer具体对比如下所示:

  1. Replay buffer: Simple, real samples , no generalization to other sate-action pairs.
  2. Partial planning with a model: Complex, simulated samples, generalization to other state -action pairs (can help or hurt)

Dyna-Q算法

  MBRL的问题在于如何学一个好的model,由此有了Dyna算法,也能够直接从real experience中学。

  与之前的方法不同之处在于这里还用statereward function去更新策略或者值函数(与model-free方法一样,之前所述的MBRL算法中,这些信息只用于更新model)。可以得到Dyna-Q算法伪代码:

Model-Based中的Planning

  在Dyna-Q算法中,Planning是从任意状态开始规划的,但是我们完全没有必要说从任意的状态开始规划,我们可以从当前状态(current state)开始规划。可以从当前状态展开一个tree,遍历所有的action

  用Tree Search算法主要是基于三个思想:

  1. Leaf nodes:Approximate leaf values with value of default policy π \piπ.


image.png

  1. Chance nodes:Approximate expectation by sampling from transition model.


image.png

  1. Decision nodes:Expand only most promising actions.

image.png

第一种方法当蒙特卡洛树中的分支因子比较大的时候计算量比较大,第二种方法相当于是一种递增式的方法。第三种方式就是一种剪枝的方法。对上述分析,Monte Carlo Tree Search(MCTS)是一种比较好的选择。

Monte Carlo Tree Search

  Monte Carlo Tree Search(with upper confidence bound)算法主流程如下:

  根据UCT算法的主要流程框架可以看出,里面的核心三步是TreePolicyDefaultPolicyBackup三个函数,其主要功能可总结为:

  1. TreePolicy:主要是选择下一个节点,如果有未展开的节点,选择未展开的;如果全部都有被展开过,选择BestChild节点。当然依据具体情况,也不是什么时候都能完全展开,所以这里是整个MCTS树的策略部分,依据具体问题会有稍许不同。
  2. DefaultPolicy:给定一个策略用于计算当前节点的估值,大多数时候是随机rollout策略
  3. Backup:拿到结果之后往回传,将TreePolicy选中的那个节点的信息进行更新,主要是更新估值和访问次数。

  下面依次对这三个部分进行详细解析:

  首先是TreePolicy(node)函数主要实现节点的选择功能,依据是否展开,和是否是最好的孩子节点进行选择,这里会涉及探索和利用的平衡:

  上述Expand(n o d e nodenode)针对的是确定性情况,也就是说在当前的状态s ss下,选择不同的a aa,会有一个确定的s ′ s^{\prime}s与之对应。而如果是不确定的情况下,下一个状态s ′ s^{\prime}s是按照一个概率分布给定的。也就是拿下一个节点是通过概率拿的。

  DefaultPolicy(n o d e nodenode)主要是基于某个给定策略进行rollout,拿到最后的返回结果。主要是模拟仿真评估当前节点的好坏,需要返回对当前节点的评估信息。

  而对于最后一步Backup,拿DefaultPolicy(n o d e nodenode)返回的节点评估信息(奖励),用于更新之前被TreePolicy选定的节点的值和访问次数等统计信息。依据建模过程不同,可以分为Single PlayerTwo Players(adversarial):



相关文章
|
运维 监控 Linux
Linux Rsync服务详解(二)——Rsync服务实战
Linux Rsync服务详解(二)——Rsync服务实战
447 1
|
人工智能 Java 测试技术
通义灵码2.0·AI程序员加持下的智能编码实践与测评
通义灵码2.0是阿里云推出的新一代智能编程助手,集成DeepSeek模型并新增多项功能,显著提升开发效率。本文通过实际项目体验新功能开发、跨语言编程、单元测试自动生成和图生代码等功能,展示其在代码生成、质量内建和人机协作方面的优势。相比1.0版本,2.0在模型选择、代码质量和用户体验上均有显著提升。尽管存在依赖网络和多语言混合项目中的不足,但整体表现优异,极大优化了开发流程。[了解更多](https://lingma.aliyun.com/)
1634 59
|
编解码 开发工具 Android开发
数据推送选择GB28181、RTSP还是RTMP?
国标GB/T28181协议全称《安全防范视频监控联网系统信息传输、交换、控制技术要求》,是一个定义视频联网传输和设备控制标准的白皮书,由公安部科技信息化局提出,该标准规定了城市监控报警联网系统中信息传输、交换、控制的互联结构、通信协议结构,传输、交换、控制的基本要求和安全性要求,以及控制、传输流程和协议接口等技术要求。解决了视频间互联互通,数据共享,以及设备控制的问题,这个问题从顶层解决了视频信息各自为战的问题,打通了视频联网的信息孤岛。
1212 1
|
JSON Oracle 关系型数据库
|
存储 Kubernetes 数据安全/隐私保护
kubernetes 中pv的回收策略
在Kubernetes中,持久卷(Persistent Volume,PV)的回收策略可以通过`persistentVolumeReclaimPolicy`字段来定义。这个字段有以下几个可选值:1. `Retain`:保留持久卷,不进行自动回收。当持久卷使用完成后,需要手动进行清理和释放。2. `Delete`:删除持久卷,当持久卷不再被使用时,Kubernetes会自动删除并释放它。3. `Recycle`:回收持久卷,当持久卷不再被使用时,Kubernetes会自动进行回收操作。这种回收策略主要适用于一些旧的存储后端,它会尝试清空持久卷中的数据,但不会保证数据安全。需要注意的是,`Recy
912 0
|
人工智能 自然语言处理 物联网
智能体进化发展了一年,现在的RPA Agent迭代到什么程度了?
智能体技术在过去一年迅速发展,RPA Agent已成为连接多种应用系统的关键工具。实在智能推出的实在Agent 7.0,通过自然语言处理和屏幕识别技术,实现了从需求输入到任务执行的全流程自动化,大幅降低了智能体构建门槛。该平台不仅能在企业级应用中提供专业服务,还能满足个人用户的多样化需求,真正实现了端到端的自动化解决方案。
593 6
智能体进化发展了一年,现在的RPA Agent迭代到什么程度了?
|
存储 安全 数据库
阿里云最新域名注册和续费、企业邮箱、云虚拟主机收费标准与价格参考
域名注册和续费以及企业邮箱和云虚拟主机是很多用户上云第一步需要购买的产品,从2024年9月1日开始,全球域名又迎来了一波价格上调,目前阿里云的.com英文域名的注册价格由原来的78元涨价到了83元,续费价格也涨到了90元,不过企业新用户注册有1元购等活动。企业邮箱目前活动价540.00元/1年起,云虚拟主机独享基础增强版月付49元/1个月起,年付588元/1年起。本文为大家整理汇总了截止目前,阿里云域名注册和续费及转入收费标准、企业邮箱收费标准与活动价格、云虚拟主机最新收费标准,以供参考。
|
分布式计算 资源调度 Hadoop
Hadoop YARN资源管理-容量调度器(Yahoo!的Capacity Scheduler)
详细讲解了Hadoop YARN资源管理中的容量调度器(Yahoo!的Capacity Scheduler),包括队列和子队列的概念、Apache Hadoop的容量调度器默认队列、队列的命名规则、分层队列、容量保证、队列弹性、容量调度器的元素、集群如何分配资源、限制用户容量、限制应用程序数量、抢占申请、启用容量调度器以及队列状态管理等方面的内容。
718 3
|
人工智能 算法 前端开发
打破传统叙事逻辑,构建基于原子化任务的人机交互
在复杂中后台设计中,为解决配置变更影响多场景问题,提出结合正向和逆向信息架构,采用原子化任务,动态组合任务,降低用户和开发成本,优化体验并改变已有的产品迭代和人机交互模式。未来可能发展为AI自动根据业务规则和用户行为生成最佳方案。
|
机器学习/深度学习 自然语言处理 开发者
大语言模型应用框架介绍
大型语言模型(LLM)是在大规模文本数据上训练而成,用于执行自然语言处理任务的深度学习模型,如文本分类、问答、总结和生成等。尽管LLM如ChatGPT、GPT-3、LaMDA等备受关注,但其泛化能力和特定任务优化方面仍有限制。为此,应用框架如LangChain应运而生,提供了更优化的解决方案。学习LLM应用框架可循序渐进,掌握其应用场景及常见框架,构建具体应用。

热门文章

最新文章