DeepMind提出增强想象智能体 这次能帮你赢游戏

简介: DeepMind发布的最新论文中提出了,用于深度强化学习的增强想象智能体(Imagination-Augmented Agents)。这个智能体的有趣之处在于,它用到了想象力。不仅能够获取当前信息、想象行动结果,还能制定计划,选择一种可以够达到最大预期值的方法。

DeepMind发布的最新论文中提出了,用于深度强化学习的增强想象智能体(Imagination-Augmented Agents)。这个智能体的有趣之处在于,它用到了想象力。不仅能够获取当前信息、想象行动结果,还能制定计划,选择一种可以够达到最大预期值的方法。

DeepMind提出增强想象智能体 这次能帮你赢游戏 | 2分钟读论文

研究发现,在软件中植入想象智能体,就能让它们更快地学习,论文描述了通过想象计划(imaginative planning)提高深度强化学习的新方法。

学会想象的智能体在玩 Sokoban(推箱子)游戏时,解决了 85% 的问题,而基准智能体完成了 65%。增强想象智能体的完成率也超过了没有使用想象计划的标准智能体的增强版本。

DeepMind提出增强想象智能体 这次能帮你赢游戏 | 2分钟读论文

当然,这个通用算法,可以用在很多不同的问题上。推箱子这种小游戏只是展示这个新技术优异性能的一种方式。

▷观看论文解读大概需要  3  分钟

其实在两年前,DeepMind团队就推出了一种算法,能够通过观看视频,就把Atari Breakout(打砖块)玩得很溜。这个算法推出的时候可以说是轰动一时,短短两年,那篇论文已经被一千多篇研究论文引用。

DeepMind提出增强想象智能体 这次能帮你赢游戏 | 2分钟读论文


这个算法的原理和动物学习新事物的方法类似。它会观察环境,尝试不同的行动然后看它是否奏效。如果奏效,它就会继续下去;如果不行,它就会去尝试其他的东西。

算法背后是基于神经网络和强化学习的结合。神经网络系统用来理解视频,而强化学习则会实施一系列高效的动作,也就是玩游戏的那部分。强化学习非常适合那些处于复杂多变的环境中的任务。我们需要根据周围的环境选择合适的动作,以便尽可能的多得分。

但是,就早期的算法而言,只要玩游戏的时间一长,它的表现就会变差。(比如,你家小汪在第一次吃到狗粮时开心得抓狂,但是越到后面刺激越弱,它也就不会为狗粮激动了。)

其中有两个重要的原因,一个是因为这个游戏需要长远考虑,这对强化学习算法是一个很棘手的问题。第二个原因是,玩家会犯一些难以挽回的错误。比如,把箱子推到一个了死角,那他就过不了这一关了,除非我们有一个算法,它能试很多次然后看箱子是不是固定不动。(唔,要实现还是非常有难度的)

根据本期论文显示,DeepMind增强想象智能体能够有效解决以上问题。

想知道它具体怎么操作?学霸们还请自行阅读论文以获得更多细节。

论文原址:https://arxiv.org/abs/1707.06203

雷锋网AI研习社出品系列短视频《 2 分钟论文 》,带大家用碎片时间阅览前沿技术,了解 AI 领域的最新研究成果。欢迎关注雷锋网雷锋字幕组专栏,获得更多AI知识~感谢志愿者对本期内容作出贡献。

DeepMind提出增强想象智能体 这次能帮你赢游戏 | 2分钟读论文




本文作者:雷锋字幕组
本文转自雷锋网禁止二次转载, 原文链接
目录
相关文章
|
8月前
|
人工智能 自然语言处理 文字识别
DeepMind首发游戏AI智能体SIMA:开启虚拟世界的智能探索之旅
【4月更文挑战第3天】DeepMind推出了SIMA,一种能在多个3D环境中执行语言指令的智能体,标志着AI在理解和互动虚拟世界上的进步。SIMA通过多样化的训练数据学习导航、操作、决策等技能,并结合预训练模型处理高维度输入输出。尽管在复杂任务上仍有提升空间,SIMA展现了正向迁移能力和潜力,为AI研究和未来机器人技术铺平道路。然而,仍需解决鲁棒性、可控性、评估方法及道德安全问题。
187 4
DeepMind首发游戏AI智能体SIMA:开启虚拟世界的智能探索之旅
|
1月前
|
人工智能 前端开发 API
基于agentscope的多智能体游戏场景-骗子酒馆
骗子酒馆是一款基于多智能体系统的在线社交推理游戏,玩家通过掷骰子和扑克牌进行智力和心理博弈,结合大语言模型技术,每个游戏角色由AI扮演,具备独特的性格和决策逻辑,提供高度沉浸式的体验。游戏采用黑板通信模式,确保信息高效交换,支持多种角色如胆小鬼、占卜师等,每个角色拥有特定的技能和行为模式,增强游戏的策略深度和互动性。游戏界面简洁,操作流畅,适合喜欢心理战和策略游戏的玩家。文章末尾有源码和体验地址。
165 13
|
3月前
|
存储 机器学习/深度学习 测试技术
[大语言模型-论文精读] 以《黑神话:悟空》为研究案例探讨VLMs能否玩动作角色扮演游戏?
[大语言模型-论文精读] 以《黑神话:悟空》为研究案例探讨VLMs能否玩动作角色扮演游戏?
83 0
|
4月前
|
机器学习/深度学习 数据采集 人工智能
三模联盟,谷歌DeepMind缔造终身学习智能体!
【9月更文挑战第1天】在人工智能领域,谷歌DeepMind提出了一种名为Diffusion Augmented Agents(DAAG)的创新框架,结合了大型语言模型、视觉语言模型和扩散模型,旨在提升强化学习中具身智能体的样本效率和迁移学习能力。DAAG通过利用扩散模型对智能体的过去经验进行重标记,使其与目标指令保持一致,从而减少新任务所需奖励标记数据量,提高学习效率。然而,该方法仍面临计算资源需求高、输出质量受限于输入数据质量和多样性等挑战。实验结果显示,DAAG能显著提高智能体的学习效率和迁移学习能力。
67 3
|
5月前
|
机器学习/深度学习 存储 定位技术
强化学习Agent系列(一)——PyGame游戏编程,Python 贪吃蛇制作实战教学
本文是关于使用Pygame库开发Python贪吃蛇游戏的实战教学,介绍了Pygame的基本使用、窗口初始化、事件处理、键盘控制移动、以及实现游戏逻辑和对象交互的方法。
|
8月前
|
人工智能 决策智能 C++
【AI Agent教程】【MetaGPT】案例拆解:使用MetaGPT实现“狼人杀“游戏(1)- 整体框架解析
【AI Agent教程】【MetaGPT】案例拆解:使用MetaGPT实现“狼人杀“游戏(1)- 整体框架解析
755 1
|
8月前
|
人工智能 决策智能
【AI Agent系列】【MetaGPT多智能体学习】6. 多智能体实战 - 基于MetaGPT实现游戏【你说我猜】(附完整代码)
【AI Agent系列】【MetaGPT多智能体学习】6. 多智能体实战 - 基于MetaGPT实现游戏【你说我猜】(附完整代码)
226 0
|
8月前
|
API 文件存储 决策智能
抢鲜评测AgentScope:Agent+游戏制作+视频生成的新范式
LLM-Powered Agent凭借长期记忆+自主规划+自动执行等特性,是探索人工通用智能(AGI)的可能途径之一;而Multi-Agent让多个agent通讯来实现协作,也模拟了人类社交及工作协同场景,旨在探索更高质高效的人机协作模式。
|
8月前
|
编解码 移动开发 人工智能
分享4个策略经营、5动作冒险、8角色扮演、8体育竞速、18飞行射击和30棋牌安卓游戏源码
分享4个策略经营、5动作冒险、8角色扮演、8体育竞速、18飞行射击和30棋牌安卓游戏源码
82 0
|
机器学习/深度学习 存储 人工智能
语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路
语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路
165 0

热门文章

最新文章