295页博士论文探索强化学习抽象理论,获AAAI/ACM SIGAI博士论文奖提名

简介: 295页博士论文探索强化学习抽象理论,获AAAI/ACM SIGAI博士论文奖提名
除了论文本身超有技术含量之外,文中使用的图表也非常美观漂亮。


作为人工智能里最受关注的领域之一,强化学习的热度一直居高不下,在游戏、自动驾驶、机器人路线规划等领域得到了广泛的应用。但是,强化学习的学习难度也同样不低。

强化学习定义了学习仅通过行动和观察做出好的决策的智能体所面临的问题。要成为有效的问题解决者,这些智能体必须有效地探索广阔的世界,从延迟的反馈中获得credit,并归纳出新的经验,同时利用有限的数据、计算资源和感知带宽。

强化学习问题。

抽象(abstraction)对于所有这些努力都是必不可少的。通过抽象,智能体可以搭建起关于其环境的简洁模型,这些模型支持一个合理的、适应性强的决策者所需的许多实践。

在前段时间结束的第36 届 AAAI 人工智能会议上,大会官方公布了新一届的 AAAI/ACM SIGAI 博士论文奖,其中一篇专门分析强化学习抽象理论的论文《A Theory of Abstraction in Reinforcement Learning》获得了该奖项提名。论文作者David Abel 博士毕业于布朗大学,他于近日将这篇博士论文上传到了arXiv上,共有295页。


在这篇论文中,作者提出了强化学习中蕴含的抽象理论。

他首先指出执行抽象过程的函数所必备的三要素:

  • 维护近似最优行为的表示;
  • 它们应该被有效地学习和构建;
  • 计划或学习时间不应该太长。


然后提出了一套新的算法和分析方案,阐明智能体如何根据这些要素学会抽象。总的来说,这些研究结果为发现和使用抽象提供了一些途径,从而把有效强化学习的复杂性降至最低。


论文地址:https://arxiv.org/pdf/2203.00397.pdf

论文简介

这篇博士论文所涉及的核心问题:强化学习智能体是如何发现和使用高质量的抽象

作者通过以下理论来回答这个问题:借鉴计算复杂性理论、决策理论和信息论的思想,是可能设计出高效的算法来启发抽象,从而减少RL智能体寻找好的解决方案所需的"经验值"或"思考"时间。

为了论证本论文的思想,作者从三个方面阐述了哪些抽象在RL中有用,并将其研究成果高度概括为如下内容:


更具体地,作者通过以下四个部分对强化学习的抽象理论展开了探讨。

第一部分。在第2章中,作者提供了关于RL以及状态抽象、行动抽象的必要背景知识。然后,他更详细地介绍和激励抽象必须的要素。

不同族(family)的RL算法。

第二部分。作者致力于状态抽象研究,提出了新的算法以及三个密切相关的分析集,每个分析集的目标都是发现状态抽象所必需的要素。

在第3章中,作者开发了一个形式化的框架,用于对维护近似最优行为的状态抽象进行推理。论文中定理3.1总结该框架,它强调了四个值保留状态抽象的充分条件。

本章研究了包括抽象MDP(马尔科夫决策过程)在内的不同族的近似状态抽象。

在第4章中,作者将此分析扩展到终身性强化学习,其中智能体必须不断与不同的任务进行互动并解决不同的任务。本章主要是对终身学习环境下的PAC状态抽象的洞察,并阐明如何有效计算它们的结果。定理4.4阐明了保证这些抽象保持良好行为的意义,定理4.5说明了要多少以前解决的任务才能计算出PAC状态抽象。作者重点介绍了模拟实验的结果,这些结果说明了引入的状态抽象类型在加速学习和规划方面的效用。

具有状态抽象的终身性强化学习。

第 5 章介绍了信息论工具对状态抽象的影响。作者在状态抽象和数据率失真理论以及信息瓶颈方法之间建立了紧密的理论联系,并利用这种联系设计了新的算法来高效地构建状态抽象,在压缩和良好行为的表示之间取得了优雅的平衡。作者通过多种方式扩展了该算法框架,充分展示了它发现状态抽象的能力,并且为良好行为的有效学习提供了样本。

作者提出的通过状态抽象权衡压缩与价值(value)的框架。

第三部分,作者转向行动抽象

在第6章中,作者介绍了Jinnai等人的相关工作,它研究了如何找到使规划尽可能快的抽象动作的问题。结果表明,这个问题基本是NP难问题,甚至很难在多项式时间内近似。

行动抽象。

在第 7 章中,作者讨论了如何构建规划中同时伴有高级行为的预测模型。这样的模型使智能体能够预估在给定状态下执行某行为的结果(打开这扇门后世界会是什么样子?)。作者介绍并分析了这些高级次行为的新模型,并证明在不太严格的假设下,这个更简单的替代方案仍然有效。作者在文中提供的经验证据表明,新的预测模型可以作为更复杂模型的合适替代品。

多时间模型(Multi-Time Model, MTM)与预期长度模型(Expected-Length Model)的比较。

在第8章中,作者研究了抽象行为改善探索过程的可能性。他介绍了Jinnai等人开发的算法,该算法基于构造简易环境所有部分的抽象动作的概念,并证明该算法可以加速基准任务的探索。

第四部分。作者研究了状态-行动抽象的联合处理过程

在第 9章中,作者介绍了一种将状态和行动抽象结合在一起的简单方案,利用这个方案,作者证明了状态和行动抽象的哪些组合可以在任何有限 MDP 中保持良好行为策略的表示,论文中定理9.1对此做了总结。接着,作者将研究这些联合抽象的重复应用,作为构建层次抽象的机制。在关于层次结构和底层状态行动抽象的温和假设下,作者证明这些层次结构还可以保持全局接近最优行动策略的表示,论文中定理9.3对此有阐述。

RL中的状态-行动抽象。

在第10章中总结了思考和研究的前进方向。

总之,以上各章内容阐述了强化学习的抽象理论。下图为论文结构的可视化呈现。


想要了解更多细节内容的读者,请阅读博士论文原文。

相关文章
|
1月前
|
机器学习/深度学习 人工智能 安全
TPAMI:安全强化学习方法、理论与应用综述,慕工大、同济、伯克利等深度解析
【10月更文挑战第27天】强化学习(RL)在实际应用中展现出巨大潜力,但其安全性问题日益凸显。为此,安全强化学习(SRL)应运而生。近日,来自慕尼黑工业大学、同济大学和加州大学伯克利分校的研究人员在《IEEE模式分析与机器智能汇刊》上发表了一篇综述论文,系统介绍了SRL的方法、理论和应用。SRL主要面临安全性定义模糊、探索与利用平衡以及鲁棒性与可靠性等挑战。研究人员提出了基于约束、基于风险和基于监督学习等多种方法来应对这些挑战。
64 2
|
机器学习/深度学习 人工智能 自然语言处理
大模型时代,解析周志华教授的「学件」思想:小模型也可做大事
大模型时代,解析周志华教授的「学件」思想:小模型也可做大事
192 0
|
机器学习/深度学习 人工智能 安全
隐语团队研究成果再创佳绩,两篇论文分别被USENIX ATC'23和IJCAI'23接收!
隐语团队研究成果再创佳绩,两篇论文分别被USENIX ATC'23和IJCAI'23接收!
208 0
|
机器学习/深度学习 算法 数据挖掘
清华、上交等联合发表Nature子刊:「分片线性神经网络」最新综述!
清华、上交等联合发表Nature子刊:「分片线性神经网络」最新综述!
180 0
清华、上交等联合发表Nature子刊:「分片线性神经网络」最新综述!
|
机器学习/深度学习 人工智能 PyTorch
被誉为「教科书」,牛津大学231页博士论文全面阐述神经微分方程,Jeff Dean点赞
被誉为「教科书」,牛津大学231页博士论文全面阐述神经微分方程,Jeff Dean点赞
228 0
|
机器学习/深度学习 数据采集 人工智能
清北联合出品!一篇Survey整明白「Transformer+强化学习」的来龙去脉
清北联合出品!一篇Survey整明白「Transformer+强化学习」的来龙去脉
299 0
|
机器学习/深度学习 人工智能 自然语言处理
全球名校AI课程库(15)| Stanford斯坦福 · 线性代数与矩阵方法导论课程『Introduction to Applied Linear Algebra』
快速补充线性代数的必选课程!课程用了非常多的例子和图标,来直观地表示向量、矩阵与复杂世界的关系,并将数学转化为解决工程问题的能力。
2313 1
全球名校AI课程库(15)| Stanford斯坦福 · 线性代数与矩阵方法导论课程『Introduction to Applied Linear Algebra』
|
机器学习/深度学习 运维 算法
华裔女博士生一作:Facebook提出用于超参数调整的自我监督学习框架
Facebook的研究人员近日提出了一种用于超参数调整的自我监督学习框架。这个新模型实现了准确预测的结果,估计超参数的速度快了6到20倍。
180 0
华裔女博士生一作:Facebook提出用于超参数调整的自我监督学习框架
|
数据采集 安全
Science:无症状传染尚未被证实,《新英格兰医学杂志》论文证据不足
无症状的新型冠状病毒感染者会传染其他人?最近,《新英格兰医学杂志》的一篇论文似乎给出了相关证据,但很快又被推翻了。
168 0
Science:无症状传染尚未被证实,《新英格兰医学杂志》论文证据不足
|
机器学习/深度学习 监控 前端开发
imgcook 被 Thought Works 技术雷达收录 & CCF B类论文发表
可见,从 Thought Works 团队到前端技术行业,对于 imgcook.com 的价值虽然保持肯定态度,但是,对于智能生成代码的应用场景和代码可维护性还是普遍存在担忧。因此,前端智能化方向和 imgcook.com 的 D2C (Design To Code)技术还需要进一步的成熟和完善,用优秀的产品品质、先进的技术和扎实的服务,真正赋能一线前端研发人员,做到“技术普惠”。也因此,我想针对应用场景和代码的可维护性问题做一些简要的说明,借此打消一部分用户的疑虑。
imgcook 被 Thought Works 技术雷达收录 & CCF B类论文发表