DeepMind智能体自学跑酷:略显智障,结果尚好

简介:
本文来自AI新媒体量子位(QbitAI)

“看起来就像小学生在玩地狱边境。”

近日,谷歌DeepMind团队创造了一个自学跑酷的智能体,并且解锁了它在不同地形和障碍物下的跑酷姿势。除了画风喜感了点,训练效果看起来还是蛮好的。


 1分37秒处情感惊艳

简笔小人

视频中的简笔小人似乎似乎在进行一场激烈的跑酷比赛,它的身型、周围的地形以及障碍物都是变化的。小人需要自学奔跑、跳跃、蹲伏等姿势,找到从A到B的最佳穿越方式。

研究人员赋予了智能体一组虚拟传感器,传感器告诉智能体有没有走歪,并激励它前进。智能体需要根据传感器的指示自己探索和修正错误,尝试不同的通过方法。

这个智能体背后,是DeepMind团队在探索怎样将强化学习应用在教智能体适应陌生且复杂的环境。

这项研究成果也被同步发表到arXiv上,DeepMind将论文命名为《Emergence of Locomotion Behaviours in Rich Environments》,由Nicolas Heess, Dhruva TB, Srinivasan Sriram等12名DeepMind研究人员完成。

论文介绍

一般来说,强化学习(Reinforcement Learning)让智能体在奖励中直接学习复杂行为。但在通常情况下,强化学习训练的运动非常脆弱,在陌生环境中很容易崩溃,不知下一步应如何移动。

就像婴儿适应了家里的楼梯后,再把他放在电动扶梯上,他就不知如何是好了。

一般的强化学习需要研究人员仔细地设计很多特定的奖励机制。

但DeepMind研究人员仅仅给予智能体一个奖励行为,那就是前进。

他们用单一的奖励机制配合丰富的环境,让智能体学习运动。运动行为对奖励的设置非常敏感,但结果显示,智能体在各种环境中都表现良好。

也就是说,DeepMind的智能体不依赖多种奖励,而是通过丰富的环境,如地形与障碍学习复杂行为。

通过这种新奇的可扩展策略梯度增强学习变体,智能体在没有明确环境奖励引导的情况下,也可以跑步、跳跃、蹲伏和转弯。

强化学习算法

为了使智能体在这些富有挑战的环境中有效学习,必须有一个可靠的可拓展强化学习算法。因此,DeepMind用了几组方法组合完成了这项任务。

这项任务不仅需要基于强大的策略梯度算法,如信赖域策略优化(TRPO)和近似策略优化(PPO)置信区间的参数更新,来确保稳定性。

其次,还要像广泛使用得A3C算法等相关方法一样,需要在很多并行智能实例和环境上分配计算。

最后,附上论文地址:

https://arxiv.org/pdf/1707.02286.pdf

【完】

本文作者:安妮
原文发布时间:2017-07-11
相关文章
|
人工智能 自然语言处理 文字识别
DeepMind首发游戏AI智能体SIMA:开启虚拟世界的智能探索之旅
【4月更文挑战第3天】DeepMind推出了SIMA,一种能在多个3D环境中执行语言指令的智能体,标志着AI在理解和互动虚拟世界上的进步。SIMA通过多样化的训练数据学习导航、操作、决策等技能,并结合预训练模型处理高维度输入输出。尽管在复杂任务上仍有提升空间,SIMA展现了正向迁移能力和潜力,为AI研究和未来机器人技术铺平道路。然而,仍需解决鲁棒性、可控性、评估方法及道德安全问题。
551 4
DeepMind首发游戏AI智能体SIMA:开启虚拟世界的智能探索之旅
|
机器学习/深度学习 数据采集 人工智能
三模联盟,谷歌DeepMind缔造终身学习智能体!
【9月更文挑战第1天】在人工智能领域,谷歌DeepMind提出了一种名为Diffusion Augmented Agents(DAAG)的创新框架,结合了大型语言模型、视觉语言模型和扩散模型,旨在提升强化学习中具身智能体的样本效率和迁移学习能力。DAAG通过利用扩散模型对智能体的过去经验进行重标记,使其与目标指令保持一致,从而减少新任务所需奖励标记数据量,提高学习效率。然而,该方法仍面临计算资源需求高、输出质量受限于输入数据质量和多样性等挑战。实验结果显示,DAAG能显著提高智能体的学习效率和迁移学习能力。
203 3
|
机器学习/深度学习 存储 人工智能
语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路
语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路
343 0
|
机器学习/深度学习 人工智能 自然语言处理
7 Papers & Radios | DeepMind「通才」AI智能体Gato;计算机理论顶会STOC2022奖项公布(2)
7 Papers & Radios | DeepMind「通才」AI智能体Gato;计算机理论顶会STOC2022奖项公布
194 0
|
人工智能 自然语言处理 计算机视觉
7 Papers & Radios | DeepMind「通才」AI智能体Gato;计算机理论顶会STOC2022奖项公布(1)
7 Papers & Radios | DeepMind「通才」AI智能体Gato;计算机理论顶会STOC2022奖项公布
315 0
|
机器学习/深度学习 人工智能 自然语言处理
DeepMind「通才」AI智能体Gato来了,多模态、多任务,受大语言模型启发
DeepMind「通才」AI智能体Gato来了,多模态、多任务,受大语言模型启发
481 0
|
机器学习/深度学习 Web App开发 人工智能
AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑
AI键盘侠来了:DeepMind开始训练智能体像人一样「玩」电脑
399 0
|
机器学习/深度学习 存储 人工智能
通才智能体来了!DeepMind的Gato算世界第一个AGI吗?
通才智能体来了!DeepMind的Gato算世界第一个AGI吗?
328 0
|
机器学习/深度学习 存储 人工智能
DeepMind发布Acme,高效分布式强化学习算法框架轻松编写RL智能体
DeepMind 本周发布了一个强化学习优化框架Acme,可以让AI驱动的智能体在不同的执行规模上运行,从而简化强化学习算法的开发过程。
639 0
DeepMind发布Acme,高效分布式强化学习算法框架轻松编写RL智能体
DeepMind 在多智能体强化学习方面又有了新进展,最新成果登上 Science 杂志!
智能体与 AI 或人类队友协作打游戏,表现媲美人类玩家。
2006 0

热门文章

最新文章