【5分钟paper】基于近似动态规划的学习、规划和反应的集成架构

简介: 【5分钟paper】基于近似动态规划的学习、规划和反应的集成架构
  • 论文题目:Integrated architectures for learning, planning, and reacting based on approximating dynamic programming

所解决的问题?

  提出Dyna-PI结构和Dyna-Q结构。

背景

  Dyna结构是用机器学习的方法逼近动态规划算法,动态规划算法本身并不是一种学习算法,是一种居于模型的最优策略计算方法。它与state-space search算法非常像,但是与之不同的是动态规划是一种增量式的学习算法,并不考虑action sequences。正是这种增量式的学习算法,使得其更容易处理随机环境和非完美信息问题。对于learned world model问题,通常都是随机的和不确定的,因此动态规划算法就非常合适。Dyna框架就是learn a world model online,与此同时,用动态规划算法学习规划最优行为。

所采用的方法?

Dyna-PI:Dyna by Approximating Policy Iteration

  Dyna-PI中的PI表示的是Policy Iteration,其由四大组成部分:

  1. policy:接收一个当前状态,产生一个动作。
  2. world:接收一个动作,产生下一个状态和奖励信息。
  3. world model:与real model类似,接收状态动作,输出下一个状态
  4. evaluation function:评估状态的好坏。

  其结构如下所示:

  Evaluation Function和Policy可以用函数近似的方法来拟合:决策树、K-D tree,神经网络或者符号规则。

  算法流程

  但是当world model发生改变之后,算法需要很长一段时间才能去适应改变了的model。产生这类问题的原因在于,算法收敛之后,对于非最优策略下的action是很少去选择的,概率基本为0,因此当model改变之后,需要大量的采样才能知道新的最优策略。

Dyna-Q:Dyna by Q-Learning

  将Q-Learning算法融入进来,其实也就是max那一步引入进来,并且作者在选择动作的时候用的玻尔兹曼分布,并且在奖励函数上加噪声来增加探索。

总结

  算法分为两步:1. 使用当前策略与环境互动产生数据,并用这些数据学一个world model出来。2. 基于learned model产生的数据也用来做策略改进,进而减少与真实model的交互。

其它参考链接

相关文章
|
6月前
|
Dubbo Java 应用服务中间件
Apache ShenYu 架构学习指南
Apache ShenYu 是一款高性能、插件化的微服务API网关,基于Spring WebFlux + Reactor 构建,支持多协议、动态配置与实时数据同步。本指南以通俗类比和实战路径,带你深入理解其架构设计、核心流程与源码实现,助力快速掌握并参与贡献。
1020 12
|
6月前
|
Kubernetes Go API
Kubeflow-Model-Registry-架构学习指南
Kubeflow Model Registry 是一个用于管理机器学习模型元数据的基础设施,采用 Go、Python、React 和 Kubernetes 技术栈,支持模型版本、注册与存储追踪。本指南系统解析其分层架构、核心流程与代码结构,提供从环境搭建到贡献代码的完整学习路径,助力开发者深入掌握模型管理实践。
381 0
|
6月前
|
Kubernetes Go 调度
Kubeflow-Trainer-架构学习指南
本指南系统解析Kubeflow Trainer架构,涵盖核心设计、目录结构与代码逻辑,结合学习路径与实战建议,助你掌握这一Kubernetes原生机器学习训练平台的原理与应用。
798 139
|
6月前
|
Kubernetes API 开发工具
Kubeflow-Pipelines-架构学习指南
本指南带你深入 Kubeflow Pipelines 架构,从零掌握 ML 工作流编排。涵盖核心组件、代码结构、开发调试及贡献流程,结合实战练习与学习路径,助你由使用者进阶为贡献者。
1072 139
|
6月前
|
Kubernetes Cloud Native Go
Kubeflow-KServe-架构学习指南
KServe是基于Kubernetes的生产级AI推理平台,支持多框架模型部署与管理。本指南从架构解析、代码结构到实战部署,系统讲解其核心组件如InferenceService、控制器模式及与Knative、Istio集成原理,并提供学习路径与贡献指南,助你快速掌握云原生AI服务技术。
970 139
|
6月前
|
负载均衡 Java API
grpc-java 架构学习指南
本指南系统解析 grpc-java 架构,涵盖分层设计、核心流程与源码结构,结合实战路径与调试技巧,助你从入门到精通,掌握高性能 RPC 开发精髓。
621 8
|
6月前
|
机器学习/深度学习 人工智能 搜索推荐
拔俗AI学伴智能体系统:基于大模型与智能体架构的下一代个性化学习引擎
AI学伴智能体系统融合大模型、多模态理解与自主决策,打造具备思考能力的个性化学习伙伴。通过动态推理、长期记忆、任务规划与教学逻辑优化,实现千人千面的自适应教育,助力因材施教落地,推动教育公平与效率双提升。(238字)
822 0
|
6月前
|
分布式计算 Kubernetes 调度
Kubeflow-Spark-Operator-架构学习指南
本指南系统解析 Spark Operator 架构,涵盖 Kubebuilder 开发、控制器设计与云原生集成。通过四阶段学习路径,助你从部署到贡献,掌握 Kubernetes Operator 核心原理与实战技能。
356 0

热门文章

最新文章

下一篇
开通oss服务