I2A、MBMF、MVE、DMVE…你都掌握了吗？一文总结强化学习必备经典模型（二）-阿里云开发者社区

I2A、MBMF、MVE、DMVE…你都掌握了吗？一文总结强化学习必备经典模型（二）

2023-05-18 554

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型训练 PAI-DLC，100CU*H 3个月

交互式建模 PAI-DSW，每月250计算时 3个月

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

简介： I2A、MBMF、MVE、DMVE…你都掌握了吗？一文总结强化学习必备经典模型（二）

机器之心专栏

本专栏由机器之心SOTA！模型资源站出品，每周日于机器之心公众号持续更新。

本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务，并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。

本文将分 2 期进行连载，共介绍 13 个在强化学习任务上曾取得 SOTA 的经典模型。

第 1 期：DQN、DDQN、DDPG、A3C、PPO、HER、DPPO、IQN
第 2 期：I2A、MBMF、MVE、ME-TRPO、DMVE

您正在阅读的是其中的第 1 期。前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。

第1期回顾：I2A、MBMF、MVE、DMVE…你都掌握了吗？一文总结强化学习必备经典模型（一）

本期收录模型速览

模型	SOTA！模型资源站收录情况	模型来源论文
I2A	https://sota.jiqizhixin.com/project/i2a 收录实现数量：2 支持框架：PyTorch、TensorFlow	Imagination-Augmented Agents for Deep Reinforcement Learning
MBMF	https://sota.jiqizhixin.com/project/mbmf 收录实现数量：4 支持框架：PyTorch、TensorFlow	Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning
MVE	https://sota.jiqizhixin.com/project/mve	Model-based value estimation for efficient model-free reinforcement learning
ME-TRPO	https://sota.jiqizhixin.com/project/me-trpo 收录实现数量：2 支持框架：TensorFlow	Model-ensemble trust-region policy optimization
DMVE	https://sota.jiqizhixin.com/project/dmve	Dynamic Horizon Value Estimation for Model-based Reinforcement Learning

强化学习（Reinforcement Learning, RL）是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成奖励最大化或实现特定目标的问题。不同于监督学习和非监督学习，强化学习不要求预先给定任何数据，而是通过接收环境对动作的奖励（反馈）获得学习信息并更新模型参数。“强化学习”学习的是从环境状态到行为的映射，使得智能体选择的行为能够获得环境最大的奖励，使得外部环境对学习系统在某种意义下的评价（或整个系统的运行性能）为最佳。因此，强化学习也被称为是和监督学习、非监督学习并列的第三种机器学习方法。强化学习特别是深度强化学习近年来取得了令人瞩目的成就，除了应用于模拟器和游戏领域，在工业领域也正取得长足的进步。

强化学习有四个基本组件：环境（States）、动作（Actions）、奖励（Rewards）、策略（Policy）。其中，前三项为输入，最后一项为输出。

强化学习一种普遍的分类方式是根据询问环境会否响应agent的行为进行分类，即无模型（model-free）和基于模型（model-based）两类。其中，model-free RL算法通过agent反复测试选择最佳策略，这也是研究比较多的领域，这些算法是agent直接和环境互动获得数据，不需要拟合环境模型，agent对环境的认知只能通过和环境大量的交互来实现。这样做的优点是通过无数次与环境的交互可以保证agent得到最优解。往往在游戏这样的没有采样成本的环境中都可以用model-free；model-based RL算法根据环境的学习模型来选择最佳策略，agent通过与环境进行交互获得数据，根据这些数据对环境进行建模拟合出一个模型，然后agent根据模型来生成样本并利用RL算法优化自身。一旦模型拟合出来，agent就可以根据该模型来生成样本，因此agent和环境直接的交互次数会急剧减少，缺点是拟合的模型往往存在偏差，因此model-based的算法通常不保证能收敛到最优解。但是在现实生活中是需要一定的采样成本的，采样效率至关重要，因此，向model-based方法引入model-free是一个提升采样效率的重要方式。在model-based RL中不仅仅有原来model-free中的结构，还多了一个model，原本在model-free中用来训练值函数和策略函数的经验有了第二个用处，那就是model learning，拟合出一个适当的环境模型。

本文对经典的强化学习模型是分别从model-free和model-based这两个类别进行介绍的。除了经典的强化学习问题外，还有多个不同的强化学习分支方法，包括分层强化学习、多任务强化学习、分布式强化学习、可解释的强化学习、安全强化学习、迁移学习强化学习、元学习强化学习、多智能体强化学习，以及强化学习在特定领域中的应用等等，这些方法均不在本文讨论范围内。我们将在后续其它专题中具体探讨。

I2A、MBMF、MVE、DMVE…你都掌握了吗？一文总结强化学习必备经典模型（二）

ModelScope模型即服务

热门文章

最新文章

相关电子书