DeepMind开源了强化学习库“松露”,团队自身也严重依赖它

简介:

今天,DeepMind开源了一个基于TensorFlow的强化学习库,名字叫TRFL

思路是模块化,强调灵活度:如果把造智能体想象成搭积木,许多关键的、常用的木块都在这里集合了:

比如,DQN (深度Q网络) 、DDPG (深度确定策略梯度),以及IMPALA (重要性加权演员学习者架构) ,都是DeepMind功勋卓著的组件。

库里面的组件,虽然来源各不相同,但都经过严密测试,因而相对可靠;并且只要一个API,对开发者比较友好。

DeepMind团队自身做研究,也严重依赖这个库。

为了那些难以发觉的Bug

这个库,写作TRFL,读作“Truffle”。翻译成中文叫“松露”。

那么,松露为何而生?

4cb5ae6431c0cf7abb2d38ca3a14af0ad5efc3d2

交互Bug很隐秘

深度强化学习智能体,里面常常包含大量的交互组件

至少要有环境,加上价值网络或者策略网络

通常,还会有环境学习模型 (Learned Model) 、伪奖励函数 (Pseudo-Reward Functions) 、或者重播系统 (Replay System) 这样的部分。

可是,交互组件到底用什么方式交互?论文里一般没有细致的讨论,有bug也很难发现

dc232f947cc158d6df8eaa4dd0db99326cd67b51

为此,OpenAI写过一篇博客,研究了10个热门的强化学习智能体,发现6个都有隐藏bug。

虽然,用一个开源的、完整的智能体,对复现研究成果是有帮助的,但灵活度不够,要修改就很难了。

所以,才有了松露。

损失函数模块化

深度强化学习 (DRL) ,依赖价值网络策略网络的不断更新。

DeepMind团队发现,比起传统的RL更新,损失函数更加模块化,更容易结合到监督/无监督的目标里去。

松露里包含了许多损失函数运算,全部在纯TensorFlow里实现。

不是完整算法,但是各自经过严密测试,可以用来搭成完整的智能体。

4a513a16ee769b3d67539a5f21a2001f11ea2966

并且,只要一个API来解决各种核心组件,即便各自来源是天南地北,也很容易互相组合。

松露,营养很丰富

松露里的许多函数和运算,既可以用在经典RL算法里,也可以用在尖端技术上。

基于价值

针对基于价值的强化学习,松露提供了各种TensorFlow运算,用于在离散动作空间 (Discrete Action Spaces) 里学习:时间差分法,Sarsa,Q学习,以及它们的变体。还有连续控制算法 (比如DPG) 需要的运算。

除此之外,也有学习分布式价值函数 (Distributional Value Function) 用的运算。

以上运算都支持批量 (Batches) ,返回的损失可以用TensorFlow优化器来最小化。不论是Transition的批量,还是Trajectory的批量。

基于策略

针对基于策略的强化学习,这里既有工具可以轻松实现在线方法,比如A2C ,也支持离线的修正技术,比如v-trace。

另外,连续动作里策略梯度的计算,松露也支持。

最后的最后,松露还提供辅助的伪奖励函数 (Pseudo-Reward Functions) ,用来提升数据效率。

开源了,并待续

如今,松露已经开源了,传送门在文底。

不过,团队在博客里写到,这不是一次性发布。

因为,DeepMind在做研究的过程中,也非常依赖这个库,所以会持续对它进行维护,也会随时添加新功能。

当然,团队也欢迎强化学习界的小伙伴们,为松露添砖加瓦。

多巴胺也是强化学习库

41003f8cffb7bb3402f76dafaddf895ea3cecccc

如果你还记得,今年8月谷歌开源了强化学习框架Dopamine,中文叫多巴胺,也是基于TensorFlow。

名字取自人类大脑奖励机制中的主角物质多巴胺,为了表达神经科学和强化学习之间的缘分联系。

多巴胺框架,也是强调灵活性稳定性复现性

b81fc97bc1a0d4c215c08e1c32e408e18c3f3b4b

至于,多巴胺和松露之间有怎样的关系,或者怎样的差别,如果你也好奇的话,可以自行探索一下。


原文发布时间为:2018-10-18

本文作者:强化栗

本文来自云栖社区合作伙伴“量子位”,了解相关信息可以关注“量子位”。

相关文章
|
弹性计算 安全 Ubuntu
阿里云ECS搭建禅道
由于最近换工作,发现新公司问题记录跟踪还在用excel,于是强烈建议使用项目管理工具,并获得批准,在比较了禅道和JIRA,还是选择了禅道,禅道的上下级联的层级关系可能更符合国人的使用习惯,秉承着谁出主意谁干活儿的国际惯例,这个事情也就落到我的头上,于是在阿里云从头开始搭建,这里作个记录。
838 0
阿里云ECS搭建禅道
|
存储 SQL 运维
涨姿势 | 一文读懂备受大厂青睐的ClickHouse高性能列存核心原理
本文尝试解读ClickHouse存储层的设计与实现,剖析它的性能奥妙
4286 0
涨姿势 | 一文读懂备受大厂青睐的ClickHouse高性能列存核心原理
一文带你了解 PoE 标准和功率
【10月更文挑战第1天】
2877 0
一文带你了解 PoE 标准和功率
|
存储 安全 Java
Spring Security 入门与详解
Spring Security 是 Spring 框架中的核心安全模块,提供认证、授权及防护功能。本文详解其核心概念,包括认证(Authentication)、授权(Authorization)和过滤器链(Security Filter Chain)。同时,通过代码示例介绍基本配置,如 PasswordEncoder、UserDetailsService 和自定义登录页面等。最后总结常见问题与解决方法,助你快速掌握 Spring Security 的使用与优化。
2795 0
|
存储 弹性计算
阿里云服务器系统盘存储空间不够用怎么办?
当阿里云服务器系统盘空间不足时,您可以通过系统盘扩容或挂载数据盘解决。系统盘扩容无需重启服务器,详细步骤见系统盘扩容教程。挂载数据盘需预先购买,并确保与服务器位于同一地域和可用区,最多可挂载64块,详情见挂载数据盘教程
3049 6
|
机器学习/深度学习 数据可视化
如何在R语言中建立六边形矩阵热图heatmap可视化
如何在R语言中建立六边形矩阵热图heatmap可视化
|
JSON JavaScript 前端开发
vue中使用echarts实现省市地图绘制,根据数据在地图上显示柱状图信息,增加涟漪特效动画效果
vue中使用echarts实现省市地图绘制,根据数据在地图上显示柱状图信息,增加涟漪特效动画效果
4883 0
|
Linux 编译器 Go
Go1.21.0发布新增比大小函数,终于不用自己写max/min函数
Go1.21.0增加了两个新的内置函数min和max,用来对任意可比较的有序类型进行最小值或最大值的操作。min和max函数可以接受一个或多个参数,并返回其中的最小值或最大值。如果参数是浮点数并且包含NaN,min和max函数会返回NaN。
1097 0
|
存储 SQL 运维
技术白皮书—技术架构
架构演进理念 当前,分布式领域有3大技术方向:Sharding技术,NewSQL原生分布式技术,云原生DB技术。每种分布式都有其独特的优势和特点。PolarDB-X的架构继承了DRDS和X-DB技术的稳定性,结合了PolarDB的云原生技术,融入了NewSQL对于分布式数据一致性的能力,为用户提供新的“云原生+分布式”的产品体验。
959 0
技术白皮书—技术架构
阿里云资源包到期通知及添加联系人设置操作指导
资源包为预付费的抵扣包,是指您根据业务量级预估一次性付费购买相应规格的商品资源包。自购买日起,一年内有效,有效期内产生的计费调用量优先使用资源包抵扣额度,超出有效期未抵扣的资源包额度自动失效。资源包过期或额度耗尽时,服务将会自动切换为后付费进行按量计费。为了避免购买的资源包超出有效期,额度自动失效。设置资源包到期通知后,则当资源包快到期时,会通过短信、邮箱或站内信方式向您推送通知。阿里云虽然提供了资源包到期通知设置,但是由于对阿里云控制台的不熟悉,往往不知如果进行开启和关闭以及修改添加联系人。本文简单介绍设置资源包到期通知及修改联系人操作步骤,以供参考。
1558 1
阿里云资源包到期通知及添加联系人设置操作指导