强化学习先驱Richard Sutton:将开发新型计算智能体

简介: 强化学习先驱Richard Sutton:将开发新型计算智能体
DeepMind 和阿尔伯塔大学联合成立的人工智能实验室未来几年要研究什么?

2017 年,DeepMind 在加拿大的 Edmonton 成立了其首个英国之外的人工智能研究实验室,并和阿尔伯塔大学大学紧密合作,成立了「DeepMind Alberta」,由强化学习先驱 Richard S. Sutton、阿尔伯塔大学教授 Michael H. Bowling、助理教授 Patrick M. Pilarski 领导。

从左到右:Richard Sutton、Michael Bowling 和 Patrick Pilarski


现在,三位领导者联合发表论文阐述 DeepMind Alberta 在未来一段时间内关于人工智能的计划,即 Alberta Plan。Alberta Plan 是一项面向计算智能的 5-10 年长期规划,旨在填补我们目前对计算智能的理解空白。随着计算智能的发展,它必将深刻影响我们的经济、社会和个人生活。


DeepMind Alberta 致力于理解和创建与复杂世界交互并预测和控制其感官输入信号的长寿命计算智能体。智能体的初始设计要尽可能简单、通用和可扩展,并能与复杂的世界长期交互。

这就要求智能体具备多种功能:为了控制输入信号,智能体必须采取行动;为了适应变化世界的复杂性,智能体必须不断学习;为了快速适应,智能体需要用一个学习模型来规划世界。

论文内容主要包括两部分:

一是描述了 DeepMind Alberta 对人工智能研究的愿景及其关于智能的计划和优先工作;二是描述这一愿景可能的展开路径以及 DeepMind Alberta 将探索的研究问题和项目。


论文地址:https://arxiv.org/abs/2208.11173

围绕智能体进行设计

在 Alberta Plan 的研究愿景中,智能体从其环境中接收观察和奖励信号,并试图通过其动作控制这些信号。这是高级强化学习的标准视角。

本文智能体的设计遵循标准或者说是基础智能体的设计,如图 2 所示,其被认为是具有 AI、心理学、控制理论、神经科学和经济学的「智能智能体通用模型」。该基础智能体包含四个组件:感知组件能够更新智能体对过去经验或状态的总结,之后这个更新会被其他组件使用;反应策略组件包括智能体所做的策略,依据此,智能体做出动作反应,并根据奖励更新动作。感知和主要策略协同工作,将观察映射到动作。每个策略都有一个对应的价值函数,所有值函数的集合构成值函数组件

基础智能体的第四个组件是转换模型组件,该组件从观察到的行为、奖励和状态中学习,而不涉及观察。智能体学习完,转换模型就可以采取一种状态和一种动作,并预测下一种状态和下一种奖励。

一般来说,该模型可能在时间上是抽象的,这意味着智能体不采取动作,而是利用选项,如利用策略和终止条件等,并预测选项终止时的状态以及累积的奖励。

转换模型用于设想智能体采取动作 / 选项后可能出现的结果,然后由价值函数评估以改变策略和价值函数本身,这个过程称为规划。规划是连续的且在时间上是统一的,智能体中的每一个 step 都会有一定数量的规划,也许是一系列小的规划,通常来讲规划不会在一个时间步内完成,因此与智能体 - 环境交互相比速度会很慢。

规划是一个连续的过程,在后台异步运行,运行过程不会干扰前三个组件。在每一个 step 中,新的观察都必须经过感知处理以产生状态,然后由主要策略处理以产生该时间步的动作。价值函数必须在前台运行,以评估每个时间步的新状态以及采取前一个动作的决定。

AI 原型路线图

AI 中一个永恒的难题是「部分和整体」的关系。一个完整的 AI 系统必须建立在有效的算法之上,但问题是,在组装出一个完整的系统之前,我们无法确切地知道需要哪些核心算法。因此必须同时处理系统和组件算法,也就是部分和整体的工作。但这样做产生的结果是浪费精力,但又必须执行。

本文的 AI 原型路线图包括以下 12 个步骤:

步骤 1. 表示 I:具有给定特征的连续监督学习。在泛化到更复杂的设置之前,智能体先在最简单的设置下运行并解决问题。步骤 1 解决的问题是对表示的连续学习和元学习,例如如何在长时间连续学习的同时还能快速、稳健和高效地学习。

步骤 2. 表示 II:发现监督特征。步骤 2 的重点是创建和引入新特征。主要关注的问题包括如何从现有特征构建新特征,以最大化新特征的潜在效用和实现该效用的速度,同时不牺牲临时性能。

步骤 3. 预测 I:连续 GVF 预测学习。重复上述两个步骤以进行顺序实时设置。在这一步骤中首先使用给定的线性特征,然后使用特征查找。新特征不仅包括非线性组合,还包括旧信号和迹线的结合。

步骤 4. 控制 I:连续 actor-critic 控制。重复以上三个步骤进行控制。

步骤 5. 预测 II:平均奖励 GVF 学习。这里的主要思想是将对 GVF 的一般预测学习算法扩展到平均奖励。

步骤 6. 控制 II:连续控制问题。这里需要一些连续问题来测试用于学习和规划的平均奖励算法。目前有 River Swim、Access-control Queuing 等算法。

步骤 7. 规划 I:为平均奖励标准开发基于异步动态规划的增量规划方法。

步骤 8. Prototype-AI I:具有连续函数逼近的基于模型的单步强化学习(RL)。Prototype-AI I 将基于平均奖励 RL、模型、规划和连续非线性函数逼近。通过结合一般连续函数逼近,Prototype-AI I 将超越过去基于 Dyna 的工作,但仍将限于单步模型。换句话说,Prototype-AI I 将是一个集成架构。

步骤 9. 规划 II:搜索控制和探索。在规划 II 步骤中,我们将开发了规划控制。规划被视为具有函数逼近的异步值迭代。控制规划过程的早期工作将包括优先扫描(sweeping)和小型备份,并且研究团队已经进行了一些尝试。

步骤 10. Prototype-AI II:STOMP 进程。研究团队以一种特殊的方式引入时间抽象,即子任务(SubTask)、选项(Option)、模型(Model)和规划(Planning )——STOMP 进程。其中,规划的选项成为反馈循环的一部分,以评估所有早期步骤。

步骤 11. 原型 - AI III:Oak。Oak 架构是 Prototype AI 2 的一个小修改,引入了一个可选键盘。键盘的每个键都引用了基于子任务的选项来实现相应的功能。

步骤 12. 原型 - IA:智能放大。一个智能应用 (IA,intelligence applification) 的演示,其中原型 - IA 2 智能体可以同时兼顾速度与决策能力。

更多内容请查看原论文。

相关文章
|
16天前
|
JSON JavaScript 数据可视化
开发 CNode 技术社区智能体
CNode 社区是国内最大的 Node.js 开源技术社区,致力于 Node.js 技术研究。本文基于 Botnow 平台,通过创建 Bot、插件及工作流,详细介绍了如何利用 CNode 社区的开放 API 构建智能体,并最终发布上线,实现智能化交互功能。
|
12月前
|
人工智能 API 决策智能
MetaGPT( The Multi-Agent Framework):颠覆AI开发的革命性多智能体元编程框架
MetaGPT( The Multi-Agent Framework):颠覆AI开发的革命性多智能体元编程框架
MetaGPT( The Multi-Agent Framework):颠覆AI开发的革命性多智能体元编程框架
|
2月前
|
机器学习/深度学习 存储 定位技术
强化学习Agent系列(一)——PyGame游戏编程,Python 贪吃蛇制作实战教学
本文是关于使用Pygame库开发Python贪吃蛇游戏的实战教学,介绍了Pygame的基本使用、窗口初始化、事件处理、键盘控制移动、以及实现游戏逻辑和对象交互的方法。
|
2月前
|
机器学习/深度学习 人工智能 Linux
【机器学习】Dify:AI智能体开发平台版本升级
【机器学习】Dify:AI智能体开发平台版本升级
148 0
|
2月前
|
人工智能 Kubernetes Cloud Native
AI智能体研发之路-工程篇(一):Docker助力AI智能体开发提效
AI智能体研发之路-工程篇(一):Docker助力AI智能体开发提效
38 0
|
3月前
|
机器学习/深度学习 算法 数据挖掘
Python强化学习应用于数据分析决策策略:** - 强化学习让智能体通过环境互动学习决策。
【7月更文挑战第5天】**Python强化学习应用于数据分析决策策略:** - 强化学习让智能体通过环境互动学习决策。 - Python因丰富库(如TensorFlow, PyTorch, Keras, Pandas, NumPy)和生态而受青睐。 - 使用OpenAI Gym构建环境,如`gym.make('CartPole-v0')`。 - 选择模型,例如神经网络,定义策略如Q-Learning。 - 训练模型,调整智能体行为,如Q-Learning更新Q表。 - 最后评估模型性能,实现数据驱动决策。
40 3
|
3月前
|
机器学习/深度学习 算法 Python
强化学习(Reinforcement Learning, RL)** 是一种机器学习技术,其中智能体(Agent)通过与环境(Environment)交互来学习如何执行决策以最大化累积奖励。
强化学习(Reinforcement Learning, RL)** 是一种机器学习技术,其中智能体(Agent)通过与环境(Environment)交互来学习如何执行决策以最大化累积奖励。
|
5月前
|
存储 搜索推荐 前端开发
变革来袭!多Agent框架MuAgent带你解锁代码开发新姿势
在这个信息技术爆炸的时代,我们都知道大型语言模型(LLM)拥有处理复杂问题的能力,但当遇到编程难题这种更高级的挑战时,单独的LLM Agent可能就不够看了。社区里动起了脑筋,玩出了新花样——组合多个Agent来应对高难度挑战!正如Multi Agent的构建过程所示,与其说我们是在设计Agents,不如说是对当前需求的深入理解后去构建出一条专属于某个场景的SOP。
687 2
|
5月前
|
数据采集 人工智能 前端开发
【AI Agent系列】【MetaGPT多智能体学习】2. 重温单智能体开发 - 深入源码,理解单智能体运行框架
【AI Agent系列】【MetaGPT多智能体学习】2. 重温单智能体开发 - 深入源码,理解单智能体运行框架
402 1
|
5月前
|
运维 网络协议 Linux
2024年最全CentOS8 Consul微服务架构安装(1)_agent(1),Linux运维开发面试
2024年最全CentOS8 Consul微服务架构安装(1)_agent(1),Linux运维开发面试