DeepMind发布Acme,高效分布式强化学习算法框架轻松编写RL智能体

简介: DeepMind 本周发布了一个强化学习优化框架Acme,可以让AI驱动的智能体在不同的执行规模上运行,从而简化强化学习算法的开发过程。

微信图片_20220109010702.jpg


DeepMind 本周发布了一个强化学习优化框架 Acme,可以让AI驱动的智能体在不同的执行规模上运行,从而简化强化学习算法的开发过程。 Acme 背后的工程师和研究人员共同撰写了一篇关于这项工作的技术论文,根据他们的说法,用这种方法创建智能体,并行性会更好。      


 微信图片_20220109010704.png


强化学习可以让智能体与环境互动,生成他们自己的训练数据,这在电子游戏、机器人技术、自动驾驶机器人出租车等领域取得了突破。 


随着所使用的培训数据量的增加,这促使设计了一个系统,使智能体与环境实例相互作用,迅速积累经验。


DeepMind 断言,将算法的单进程原型扩展到分布式系统通常需要重新实现相关的智能体,这就是 Acme 框架的用武之地 


DeepMind研究员写道,「Acme 是一个用于构建可读、高效、面向研究的 RL 算法的框架。Acme 的核心是设计用于简单描述 RL 智能体,这些智能体可以在不同规模的执行中运行,包括分布式智能体。」


「通过发布 Acme,我们的目标是使学术界和工业实验室开发的各种 RL 算法的结果更容易为整个机器学习社区复制和扩展。」


Acme 框架要实现的目标?


研究者明确指出了Acme框架的高级目标


 1 实现方法和结果可重复性2 简化新算法设计的方式3 提高RL智能体的可读性 如何实现这一目标? 从最高层次来看,我们可以将 Acme 视为一个经典的强化学习接口,其作用是将 actor(比如一个动作选择智能体)连接到环境。 actor 是一个具有选择动作、观察并实现自我更新能力的简单接口。


 从内部看,学习智能体可以拆分为「执行」和「学习」两部分。从表面上看,这使得我们在不同的多智能体之间重复使用 acting portion。


 但是,更重要的是,这提供了一个可以对学习过程进行划分和并行化处理的关键边界。我们甚至可以从此处按比例缩小规模,并在没有环境,只有固定数据集的情况下无缝攻击批RL设置(batch RL setting)。


这些不同级别的复杂度的图示如下:


      微信图片_20220109010706.gif


除了 Acme 的基础框架之外,研究人员还发布了用 Acme 框架创建的大量智能体的单进程实例。 通过跨越执行/学习边界,我们能够以分布式方式运行这些相同的智能体,过程中的改变最小。


Acme 框架首个版本主要针对学生和研究人员使用最多的单进程智能体。 研究者在 control suite、Atari 和 bsuite 等环境中对这些智能体进行了基准测试。

QQ图片20220109010759.png

点击查看原视频链接

利用 Acme 框架进行智能体训练的示例  


Acme 框架有哪些优势?


Acme是一组开发套件,用于培训强化学习智能体,用来解决复杂性和规模的问题,其组件用于从算法和策略到学习者等不同抽象层次来指导代理。 


这样做可以让idea快速迭代,并在生产过程中对这些 idea 进行评估,主要是通过训练循环、强迫性日志记录和检查点。 


一种特殊类型的 Acme actor 包括执行和学习两个组件ーー它们都被称为「智能体」ーー它们的状态更新是由learner组件中的一些步骤触发的。也就是说,智能体大部分情况会把他们的行动选择权交给他们自己的执行组件。


在 Acme 框架中,actors与环境密切交互,通过观察环境,执行动作,反过来为环境提供素材。


  微信图片_20220109010709.png


在观察了随后发生的变化后,actors 有机会更新其状态,这通常与其行动选择策略有关,这些策略决定了它们为应对环境而采取的行动。 


Acme 提供了一个位于 actor 和 learner 组件之间的数据集模块,该模块由一个名为 Reverb 的低级存储系统支持,DeepMind 本周也刚刚发布这个系统。此外,该框架建立了一个接入Reverb的通用接口,使不同风格的预处理和观察数据的持续聚合成为可能。 


Reverb是一个专为机器学习研究设计的高效、易用的数据存储和传输系统。

Reverb主要作为分布式强化学习算法的经验回放(experience replay)系统,但该系统也支持多种数据结构表示,如FIFO、LIFO和优先级队列等。


      微信图片_20220109010711.png


在 Acme 当中,执行、学习和存储组件被划分为不同的线程或进程,这带来了两个好处: 环境交互与学习过程非同步发生,以及数据生成的加速。


在其他地方,Acme允许从学习到执行以任何速率运行,只要流程保持在一定的定义公差内就可以不受阻碍。


例如,如果一个进程由于网络问题或资源不足而落后于另一个进程,速率限制器将阻塞落后者,而另一个进程将赶上来。 除了这些工具和资源,Acme 还附带了一组示例智能体,作为各自强化学习算法以及强大研究基线的参考实现。 


DeepMind研究人员写道,「通过提供这些... ... 我们希望 Acme 将有助于提高[强化学习]的可再生性地位,并为学术研究者提供简单的组件来创造新的智能体。」「此外,我们的baseline应该提供额外的衡量标准,以衡量该领域的进展。」


GitHub地址:https://github.com/deepmind/acme


论文地址:https://arxiv.org/pdf/2006.00979v1.pdf


参考链接:
https://venturebeat.com/2020/06/03/deepmind-releases-acme-a-distributed-framework-for-reinforcement-learning-algorithm-development/https://deepmind.com/research/publications/Acme

相关文章
|
4月前
|
机器学习/深度学习 算法 PyTorch
【Pytorch框架搭建神经网络】基于DQN算法、优先级采样的DQN算法、DQN + 人工势场的避障控制研究(Python代码实现)
【Pytorch框架搭建神经网络】基于DQN算法、优先级采样的DQN算法、DQN + 人工势场的避障控制研究(Python代码实现)
131 1
|
6月前
|
机器学习/深度学习 人工智能 算法
AI-Compass RLHF人类反馈强化学习技术栈:集成TRL、OpenRLHF、veRL等框架,涵盖PPO、DPO算法实现大模型人类价值对齐
AI-Compass RLHF人类反馈强化学习技术栈:集成TRL、OpenRLHF、veRL等框架,涵盖PPO、DPO算法实现大模型人类价值对齐
 AI-Compass RLHF人类反馈强化学习技术栈:集成TRL、OpenRLHF、veRL等框架,涵盖PPO、DPO算法实现大模型人类价值对齐
|
4月前
|
机器学习/深度学习 算法 PyTorch
【DQN实现避障控制】使用Pytorch框架搭建神经网络,基于DQN算法、优先级采样的DQN算法、DQN + 人工势场实现避障控制研究(Matlab、Python实现)
【DQN实现避障控制】使用Pytorch框架搭建神经网络,基于DQN算法、优先级采样的DQN算法、DQN + 人工势场实现避障控制研究(Matlab、Python实现)
214 0
|
6月前
|
机器学习/深度学习 人工智能 算法
AI-Compass 强化学习模块:理论到实战完整RL技术生态,涵盖10+主流框架、多智能体算法、游戏AI与金融量化应用
AI-Compass 强化学习模块:理论到实战完整RL技术生态,涵盖10+主流框架、多智能体算法、游戏AI与金融量化应用
|
9月前
|
机器学习/深度学习 人工智能 JSON
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
Paper2Code是由韩国科学技术院与DeepAuto.ai联合开发的多智能体框架,通过规划、分析和代码生成三阶段流程,将机器学习论文自动转化为可执行代码仓库,显著提升科研复现效率。
1249 19
这个AI把arXiv变成代码工厂,快速复现顶会算法!Paper2Code:AI论文自动转代码神器,多智能体框架颠覆科研复现
|
人工智能 自然语言处理 前端开发
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
Director 是一个构建视频智能体的 AI 框架,用户可以通过自然语言命令执行复杂的视频任务,如搜索、编辑、合成和生成视频内容。该框架基于 VideoDB 的“视频即数据”基础设施,集成了多个预构建的视频代理和 AI API,支持高度定制化,适用于开发者和创作者。
746 9
Director:构建视频智能体的 AI 框架,用自然语言执行搜索、编辑、合成和生成等复杂视频任务
|
存储 人工智能
Optimus-1:哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架
Optimus-1是由哈尔滨工业大学(深圳)和鹏城实验室联合推出的智能体框架,旨在解决开放世界环境中长期任务的挑战。该框架结合了结构化知识和多模态经验,通过混合多模态记忆模块、知识引导规划器和经验驱动反射器,显著提升了在Minecraft等环境中的长期任务性能。本文将详细介绍Optimus-1的主要功能、技术原理以及如何运行该框架。
380 7
Optimus-1:哈工大联合鹏城实验室推出挑战开放世界中长期任务的智能体框架
|
人工智能 自然语言处理 JavaScript
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等,从而提高在线效率,减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。
1064 5
Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统
|
人工智能 API 决策智能
swarm Agent框架入门指南:构建与编排多智能体系统的利器 | AI应用开发
Swarm是OpenAI在2024年10月12日宣布开源的一个实验性质的多智能体编排框架。其核心目标是让智能体之间的协调和执行变得更轻量级、更容易控制和测试。Swarm框架的主要特性包括轻量化、易于使用和高度可定制性,非常适合处理大量独立的功能和指令。【10月更文挑战第15天】
2586 6
|
敏捷开发 机器学习/深度学习 数据采集
端到端优化所有能力,字节跳动提出强化学习LLM Agent框架AGILE
【10月更文挑战第23天】字节跳动研究团队提出AGILE框架,通过强化学习优化大型语言模型(LLM)在复杂对话任务中的表现。该框架将LLM作为核心决策模块,结合记忆、工具和专家咨询模块,实现智能体的自我进化。实验结果显示,AGILE智能体在ProductQA和MedMCQA数据集上优于GPT-4。
942 4

热门文章

最新文章