【NIPS 2017】基于深度强化学习的想象力增强智能体

简介: 【NIPS 2017】基于深度强化学习的想象力增强智能体
  • 论文题目:Imagination-Augmented Agents for Deep Reinforcement Learning

所解决的问题?

背景

最近也是有很多文章聚焦于基于模型的强化学习算法,一种常见的做法就是学一个model,然后用轨迹优化的方法求解一下,而这种方法并没有考虑与真实环境的差异,导致你求解的只是在你所学model上的求解。解决这种问题就是Dyna架构通过切换world model和real model来实现在real model上具有好的泛化能力。

模型的学习准确精度也很大程度决定了最终算法的性能。并且模型很多时候本身就具有不确定性,那神经网络这种确定性的输出去拟合不确定性的标签是不合适的。因此有了另外一个分支基于概率的。

所采用的方法?

主要就是在model-free的框架下增加了一个想象的过程,预想未来将会发生什么,然后将这个想象信息作为辅助决策变量。既然有想象部分,那就一定会有对未来的预测,因为预测就是想象,而换一个名词再引用几篇神经学科的文章,就能瞬间提高文章档次。

Enviorment Model

基于动作条件的模型预测结构如下图所示。

接收当前观测和动作,预测下一帧观测和奖励。动作的选取来自rollout policy,这个policy通过模仿智能体与真实环境得到的轨迹所得到,这种非完美的近似对平衡探索和利用也具有潜力。

整体框架

动作的选择来自rollout policyπ ^ \widehat{\pi}π ,基于这个策略预测下一个时候的观测和奖励,组成Imagination core模块(下图中左图部分)。基于这个模块预测n nn 条轨迹 T ^ 1 , … , T ^ n \hat{\mathcal{T}}_{1}, \ldots, \hat{\mathcal{T}}_{n}T^1,,T^n,每条trajectory都由一系列特征组成( f ^ t + 1 , … , f ^ t + τ ) \left(\hat{f}_{t+1}, \ldots, \hat{f}_{t+\tau}\right)(f^t+1,,f^t+τ) ,其中t tt 表示的是当前时刻,τ \tauτ表示rollout的长度,f ^ t + i \hat{f}_{t+i}f^t+i表示环境模型的输出(下一帧观测/奖励)。

尽管有很多很好的训练环境模型的方法,但是一个很关键的问题就是不可能得到与真实环境模型一样的完美预测模型。因此作者这里这里使用的是trajectories进行编码,这是因为一个轨迹中所包含的信息比单步决策所得到的信息要更多。每条轨迹编码可表示为:e i = E ( T ~ i ) e_{i}=\mathcal{E}\left(\tilde{\mathcal{T}}_{i}\right)ei=E(T~i),最终将其集成,得到:c i a = A ( e 1 , … , e n ) c_{\mathrm{ia}}=\mathcal{A}\left(e_{1}, \ldots, e_{n}\right)cia=A(e1,,en)

基于当前的观测和model-based的对于未来的预测信息,输出策略向量π \piπ和评估值函数V VV。如果没有model-based这条路径的话,I2A就是一个标准的model-free框架。

取得的效果?

在经典规划问题Sokoban上的实验结果。

上图中standard表示standard model-free agentI2A能够解决85%的问题,而标准的智能体不到60%。右图表示的是rollout的深度对性能的影响。

预测模型性能对整体性能影响结果。

所出版信息?作者信息?

文章来自DeepMind团队2017年的论文。已被NIPS2017接收。作者Théophane WeberDeepMind资深研究科学家,博士就读于MIT。研究方向为机器学习和人工智能,深度学习,强化学习和基于模型的RL,概率建模(和概率编程)以及可变推理方法等。

相关文章
|
2月前
|
机器学习/深度学习 算法 决策智能
北大领衔,多智能体强化学习研究登上Nature子刊
北京大学研究团队近日在《Nature》子刊上发布了一篇关于多智能体强化学习(MARL)的论文,提出了一种高效且可扩展的MARL框架,旨在解决大规模网络控制系统中的决策问题。该框架实现了智能体间的局部通信,减少了通信成本与计算复杂度,并在交通、电力及疫情防控等多个真实场景实验中,显著提升了决策性能。论文链接:https://www.nature.com/articles/s42256-024-00879-7。尽管该研究仍存局限,但为MARL的应用提供了新思路。
62 2
|
1月前
|
敏捷开发 机器学习/深度学习 数据采集
端到端优化所有能力,字节跳动提出强化学习LLM Agent框架AGILE
【10月更文挑战第23天】字节跳动研究团队提出AGILE框架,通过强化学习优化大型语言模型(LLM)在复杂对话任务中的表现。该框架将LLM作为核心决策模块,结合记忆、工具和专家咨询模块,实现智能体的自我进化。实验结果显示,AGILE智能体在ProductQA和MedMCQA数据集上优于GPT-4。
127 4
|
2月前
|
Python 机器学习/深度学习 人工智能
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
【10月更文挑战第1天】本文通过构建一个简单的强化学习环境,演示了如何创建和训练智能体以完成特定任务。我们使用Python、OpenAI Gym和PyTorch搭建了一个基础的智能体,使其学会在CartPole-v1环境中保持杆子不倒。文中详细介绍了环境设置、神经网络构建及训练过程。此实战案例有助于理解智能体的工作原理及基本训练方法,为更复杂应用奠定基础。首先需安装必要库: ```bash pip install gym torch ``` 接着定义环境并与之交互,实现智能体的训练。通过多个回合的试错学习,智能体逐步优化其策略。这一过程虽从基础做起,但为后续研究提供了良好起点。
176 4
手把手教你从零开始构建并训练你的第一个强化学习智能体:深入浅出Agent项目实战,带你体验编程与AI结合的乐趣
|
2月前
|
机器学习/深度学习 人工智能 安全
北大领衔,多智能体强化学习研究登上Nature子刊
【10月更文挑战第1天】近日,北京大学领导的研究团队在《Nature》子刊上发表了一篇关于多智能体强化学习的论文,提出了一种高效且可扩展的框架,解决了大规模网络控制系统中的决策问题。该框架通过局部通信避免了集中式和独立学习的缺点,在交通、电力等领域的实验中展现了卓越性能。然而,其在更复杂系统中的效果及计算复杂度仍需进一步验证。论文链接:https://www.nature.com/articles/s42256-024-00879-7。
49 3
|
4月前
|
机器学习/深度学习 存储 定位技术
强化学习Agent系列(一)——PyGame游戏编程,Python 贪吃蛇制作实战教学
本文是关于使用Pygame库开发Python贪吃蛇游戏的实战教学,介绍了Pygame的基本使用、窗口初始化、事件处理、键盘控制移动、以及实现游戏逻辑和对象交互的方法。
|
5月前
|
机器学习/深度学习 算法 数据挖掘
Python强化学习应用于数据分析决策策略:** - 强化学习让智能体通过环境互动学习决策。
【7月更文挑战第5天】**Python强化学习应用于数据分析决策策略:** - 强化学习让智能体通过环境互动学习决策。 - Python因丰富库(如TensorFlow, PyTorch, Keras, Pandas, NumPy)和生态而受青睐。 - 使用OpenAI Gym构建环境,如`gym.make('CartPole-v0')`。 - 选择模型,例如神经网络,定义策略如Q-Learning。 - 训练模型,调整智能体行为,如Q-Learning更新Q表。 - 最后评估模型性能,实现数据驱动决策。
55 3
|
5月前
|
机器学习/深度学习 算法 Python
强化学习(Reinforcement Learning, RL)** 是一种机器学习技术,其中智能体(Agent)通过与环境(Environment)交互来学习如何执行决策以最大化累积奖励。
强化学习(Reinforcement Learning, RL)** 是一种机器学习技术,其中智能体(Agent)通过与环境(Environment)交互来学习如何执行决策以最大化累积奖励。
|
7月前
|
机器学习/深度学习 算法
在MDP环境下训练强化学习智能体
在MDP环境下训练强化学习智能体
102 0
|
机器学习/深度学习 存储 人工智能
语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路
语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路
155 0
|
机器学习/深度学习 人工智能 算法
基于模型的多智能体强化学习中的模型学习理解
基于模型的多智能体强化学习中的模型学习理解
128 0