DeepMind提出增强想象智能体 这次能帮你赢游戏

简介: DeepMind发布的最新论文中提出了,用于深度强化学习的增强想象智能体(Imagination-Augmented Agents)。这个智能体的有趣之处在于,它用到了想象力。不仅能够获取当前信息、想象行动结果,还能制定计划,选择一种可以够达到最大预期值的方法。

DeepMind发布的最新论文中提出了,用于深度强化学习的增强想象智能体(Imagination-Augmented Agents)。这个智能体的有趣之处在于,它用到了想象力。不仅能够获取当前信息、想象行动结果,还能制定计划,选择一种可以够达到最大预期值的方法。

DeepMind提出增强想象智能体 这次能帮你赢游戏 | 2分钟读论文

研究发现,在软件中植入想象智能体,就能让它们更快地学习,论文描述了通过想象计划(imaginative planning)提高深度强化学习的新方法。

学会想象的智能体在玩 Sokoban(推箱子)游戏时,解决了 85% 的问题,而基准智能体完成了 65%。增强想象智能体的完成率也超过了没有使用想象计划的标准智能体的增强版本。

DeepMind提出增强想象智能体 这次能帮你赢游戏 | 2分钟读论文

当然,这个通用算法,可以用在很多不同的问题上。推箱子这种小游戏只是展示这个新技术优异性能的一种方式。

▷观看论文解读大概需要  3  分钟

其实在两年前,DeepMind团队就推出了一种算法,能够通过观看视频,就把Atari Breakout(打砖块)玩得很溜。这个算法推出的时候可以说是轰动一时,短短两年,那篇论文已经被一千多篇研究论文引用。

DeepMind提出增强想象智能体 这次能帮你赢游戏 | 2分钟读论文


这个算法的原理和动物学习新事物的方法类似。它会观察环境,尝试不同的行动然后看它是否奏效。如果奏效,它就会继续下去;如果不行,它就会去尝试其他的东西。

算法背后是基于神经网络和强化学习的结合。神经网络系统用来理解视频,而强化学习则会实施一系列高效的动作,也就是玩游戏的那部分。强化学习非常适合那些处于复杂多变的环境中的任务。我们需要根据周围的环境选择合适的动作,以便尽可能的多得分。

但是,就早期的算法而言,只要玩游戏的时间一长,它的表现就会变差。(比如,你家小汪在第一次吃到狗粮时开心得抓狂,但是越到后面刺激越弱,它也就不会为狗粮激动了。)

其中有两个重要的原因,一个是因为这个游戏需要长远考虑,这对强化学习算法是一个很棘手的问题。第二个原因是,玩家会犯一些难以挽回的错误。比如,把箱子推到一个了死角,那他就过不了这一关了,除非我们有一个算法,它能试很多次然后看箱子是不是固定不动。(唔,要实现还是非常有难度的)

根据本期论文显示,DeepMind增强想象智能体能够有效解决以上问题。

想知道它具体怎么操作?学霸们还请自行阅读论文以获得更多细节。

论文原址:https://arxiv.org/abs/1707.06203

雷锋网AI研习社出品系列短视频《 2 分钟论文 》,带大家用碎片时间阅览前沿技术,了解 AI 领域的最新研究成果。欢迎关注雷锋网雷锋字幕组专栏,获得更多AI知识~感谢志愿者对本期内容作出贡献。

DeepMind提出增强想象智能体 这次能帮你赢游戏 | 2分钟读论文




本文作者:雷锋字幕组
本文转自雷锋网禁止二次转载, 原文链接
目录
相关文章
|
8月前
|
机器学习/深度学习 存储 人工智能
语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路
语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路
107 0
|
11月前
|
机器学习/深度学习 Web App开发 人工智能
AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑
AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑
116 0
|
11月前
|
机器学习/深度学习 存储 人工智能
通才智能体来了!DeepMind的Gato算世界第一个AGI吗?
通才智能体来了!DeepMind的Gato算世界第一个AGI吗?
119 0
|
机器学习/深度学习 存储 人工智能
DeepMind发布Acme,高效分布式强化学习算法框架轻松编写RL智能体
DeepMind 本周发布了一个强化学习优化框架Acme,可以让AI驱动的智能体在不同的执行规模上运行,从而简化强化学习算法的开发过程。
374 0
DeepMind发布Acme,高效分布式强化学习算法框架轻松编写RL智能体
DeepMind 在多智能体强化学习方面又有了新进展,最新成果登上 Science 杂志!
智能体与 AI 或人类队友协作打游戏,表现媲美人类玩家。
1776 0
|
6月前
|
Cloud Native
云盾·数据库审计中d100适用于自建和云原生的统一日志审计吗? 客户端或APP端安装Agent是否必要?
云盾·数据库审计中d100适用于自建和云原生的统一日志审计吗? 客户端或APP端安装Agent是否必要?
42 1
|
6月前
|
监控 关系型数据库 MySQL
企业实战(8)CentOS 6.8安装Zabbix-agent 5.0监控主机性能与Mysql数据库
企业实战(8)CentOS 6.8安装Zabbix-agent 5.0监控主机性能与Mysql数据库

热门文章

最新文章