南大最新综述论文:基于模型的强化学习

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 南大最新综述论文:基于模型的强化学习

强化学习(RL)通过与环境交互的试错过程来解决顺序决策问题。虽然RL在允许大量试错的复杂电子游戏中取得了杰出的成功,但在现实世界中犯错总是不希望的。


了提高样本效率从而减少误差,基于模型的强化学习(MBRL)被认为是一个有前途的方向,它建立的环境模型中可以进行试错,而不需要实际成本。


本文对MBRL的研究现状进行了综述,并着重介绍了近年来研究的进展对于非表格环境,学习到的环境模型与实际环境之间存在泛化误差。因此,分析环境模型中策略训练与实际环境中策略训练的差异,对算法设计、模型使用和策略训练具有重要的指导意义。


此外,我们还讨论了离线在线学习、目标条件在线学习、多智能体在线学习和元在线学习等基于模型的在线学习技术的最新进展,以及MBRL在实际任务中的适用性和优势。


最后,我们讨论了MBRL未来的发展前景。我们认为MBRL在实际应用中具有巨大的潜力和优势,但这些优势往往被忽视,希望本文的综述能够吸引更多关于MBRL的研究。


论文地址:https://arxiv.org/abs/2206.09328


强化学习(Reinforcement learning, RL)研究了提高自主智能体序列决策性能的方法。


由于深度RL在围棋和电子游戏中的成功展示了超越人类的决策能力,因此将其应用范围扩展到现实任务中是非常有意义的。


通常,深度RL算法需要大量的训练样本,导致样本复杂度很高。特别地,与监督学习范式从历史标记数据中学习不同,典型的RL算法需要通过在环境中运行最新的策略来获得交互数据。一旦策略更新,基础数据分布就会发生变化,必须通过运行策略再次收集数据。因此,具有高样本复杂度的RL算法很难直接应用于现实世界的任务中,因为在这些任务中,试错代价很高。

因此,近年来深度强化学习(Deep Reinforcement Learning, DRL)研究的一个主要重点是提高样本效率。


在不同的研究分支中,基于模型的强化学习(MBRL)是最重要的方向之一,人们普遍认为它具有极大的潜力使RL算法显著提高样本效率。这种信念直观地来自于对人类智慧的类比。


人类能够在头脑中拥有一个想象的世界,在这个世界中,随着不同的行动,事情会如何发生可以被预测。通过这种方式,可以根据想象选择适当的行动,这样就可以降低反复试验的成本。MBRL中的短语模型是期望扮演与想象相同角色的环境模型。


在MBRL中,环境模型(或简称为模型)指的是学习智能体与之交互的环境动态的抽象。RL中的动态环境通常被表述为一个马尔可夫决策过程(MDP),用元组(S, A, M, R, γ)表示,其中S, A和γ分别表示状态空间、行动空间和未来奖励的折扣因子,M: S × A→S表示状态转移动力学,R: S × A→R表示奖励函数。


通常情况下,给定状态和行为空间以及折扣因子,环境模型的关键组成部分是状态转移动力学和奖励函数。因此,学习模型对应于恢复状态转移动力学M和奖励函数r。在许多情况下,奖励函数也被明确定义,因此模型学习的主要任务是学习状态转移动力学。


有了环境模型,智能体就有了想象的能力。它可以与模型进行交互,以便对交互数据进行采样,也称为仿真数据。理想情况下,如果模型足够准确,可以在模型中学习到一个好的策略。


与无模型强化学习(model-free reinforcement learning, MFRL)方法相比,智能体只能使用从与真实环境的交互中采样的数据,称为经验数据,MBRL方法使智能体能够充分利用学习模型中的经验数据。


值得注意的是,除了MBRL,还有其他一些方法试图更好地利用经验数据,如off-policy算法(使用重放缓冲区记录旧数据)和actor-critic算法(通过学习评论家来促进策略更新)。


图1描述了不同类型的RL结构。


图1(a)是最简单的on-policy RL,其中智能体使用最新的数据来更新策略。在off-policy中,如图1(b)所示,代理在重放缓冲区中收集历史数据,在重放缓冲区中学习策略。在行动者-评论者RL中,如1(c)所示,智能体学习评论者,其是长期回报的价值函数,然后学习批评者辅助的策略(行动者)。


如图1(d)所示,MBRL显式地学习一个模型。与策略外RL相比,MBRL重构了状态转移的动态过程,而策略外RL只是简单地使用重放缓冲区来更稳健地估计值。虽然价值函数或批评的计算涉及到转移动力学的信息,但MBRL中的学习模型与策略解耦,因此可以用于评估其他策略,而价值函数与抽样策略绑定。此外,请注意,非策略、演员-评论者和基于模型是三个并行的结构,图1(e)显示了它们的可能组合。


RL算法的体系结构。图中显示了RL的训练迭代,重点是如何利用交互数据


通过足够准确的模型,可以直观地看到MBRL比MFRL产生更高的样本效率。


然而,在大量具有相对复杂环境的DRL任务中,要学习一个理想的模型并非易事。因此,我们需要仔细考虑模型学习和模型使用的方法。


相关文章
|
5月前
|
机器学习/深度学习 算法 网络架构
神经网络架构殊途同归?ICML 2024论文:模型不同,但学习内容相同
【8月更文挑战第3天】《神经语言模型的缩放定律》由OpenAI研究人员完成并在ICML 2024发表。研究揭示了模型性能与大小、数据集及计算资源间的幂律关系,表明增大任一资源均可预测地提升性能。此外,论文指出模型宽度与深度对性能影响较小,较大模型在更多数据上训练能更好泛化,且能高效利用计算资源。研究提供了训练策略建议,对于神经语言模型优化意义重大,但也存在局限性,需进一步探索。论文链接:[https://arxiv.org/abs/2001.08361]。
59 1
|
机器学习/深度学习 人工智能 自然语言处理
500篇论文!最全代码大模型综述来袭
11月14日,蚂蚁集团联合上海交通大学发布55页代码大模型综述,覆盖超过50个模型、30个下游任务、500篇参考文献,全方位总结大语言模型在代码相关应用中的最新进展与挑战。
1410 0
|
8月前
|
存储 自然语言处理 文字识别
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
MLLM首篇综述 | 一文全览多模态大模型的前世、今生和未来
2909 0
|
8月前
|
机器学习/深度学习 人工智能 算法
AI+组合优化 |机器学习顶会ICLR/ICML/NeurIPS'23最新进展-MIP求解篇(附原文源码)
本文梳理了ICLR 2023、ICML 2023、NeurIPS 2023有关机器学习+混合整数规划问题求解加速求解加速的研究成果,总共包含8篇文章。
937 0
|
机器学习/深度学习 存储 人工智能
蛋白质界的 ChatGPT:AlphaFold1 论文必备知识,不会有人还不知道吧
AlphaFold1是一种人工智能模型,由DeepMind公司开发,用于预测蛋白质的三维结构。它是基于深度学习的方法,使用了神经网络来预测蛋白质的结构。AlphaFold1的预测准确率非常高,已经被证明可以在很短的时间内预测出数千个蛋白质的结构。 AlphaFold1的核心思想是将蛋白质的结构预测问题转化为一个优化问题。具体来说,它使用了一种称为“残基-残基接触预测”的方法,通过预测蛋白质中不同残基之间的接触情况来推断出蛋白质的三维结构。这种方法需要大量的训练数据和计算资源,但是它可以在很短的时间内预测出高质量的蛋白质结构
302 0
|
机器学习/深度学习 数据挖掘 PyTorch
ICLR 2023 | 解决VAE表示学习问题,北海道大学提出新型生成模型GWAE
ICLR 2023 | 解决VAE表示学习问题,北海道大学提出新型生成模型GWAE
147 0
|
机器学习/深度学习 人工智能 算法
ICLR 2023 | PromptPG:当强化学习遇见大规模语言模型(1)
ICLR 2023 | PromptPG:当强化学习遇见大规模语言模型
|
机器学习/深度学习 SQL 计算机视觉
ICLR 2023 | PromptPG:当强化学习遇见大规模语言模型(2)
ICLR 2023 | PromptPG:当强化学习遇见大规模语言模型
127 0
|
人工智能 搜索推荐 算法
AAAI 2023杰出论文一作分享:新算法加持的大批量学习加速推荐系统训练
AAAI 2023杰出论文一作分享:新算法加持的大批量学习加速推荐系统训练
302 0
|
机器学习/深度学习 算法 vr&ar
南大最新综述论文:基于模型的强化学习
南大最新综述论文:基于模型的强化学习
202 0

热门文章

最新文章