DeepMind 升级深度强化学习,仅10小时训练16个机器人灵活操纵物体

简介:

让机器人相互学习一个最简单的方法就是将所有关于成功和失败的经验都汇总到一起。去年,谷歌大脑展示了他们的协作机械臂研究项目——合作式增强学习让机器人掌握通用技能:一台机械臂学会的东西,可以在所有机械臂之间共享,这样所有的机械臂都能以更快的速度学习、成长。实验结果是,这些机械臂可以进行开门、拿起罐子等简单的操作。


当时,谷歌大脑的研究人员探索了通过多机器人合作完成通用目技能学习的三个可能方法:


  1. 直接从经验中学习行动技巧

  2. 学习物体内部物理模型

  3. 在人类协助下学习技能


在这三个例子中,多个机器人共享彼此的经验,搭建了一个通用的技能模型。虽然学习的技能相对简单,但是谷歌大脑的研究人员表示,通过合作来更快速高效的学习这些技能,机器人未来可能会掌握更加丰富的行为指令集,最终会让它们在人类的日常生活中起到大的作用。


其中,第一项,直接从经验中学习行动技巧,也就是让机器人用无模型增强学习从原始经验中学习。“无模型”就是没有关于环境的明确模型,机器人通过实时反馈发现变化,进而增强和探索,得到更大回馈的变化。


通过与深度神经网络相结合,“无模型”算法近来已经取得了很好的成果,看那些在各种 Atari 游戏中超越人类的智能体就知道了,此外,还有一个著名的例子就是 AlphaGo。


谷歌大脑由于拥有多个机器人,因此可以在真实世界中进行实验。日前,没有实体机器人的 DeepMind 也在虚拟环境中,对机器人协作开展了最新的研究。


简单说,DeepMind 的方法是让机械臂在在模拟器中:①成功地找到一块积木,②将这块积木拿起来,③最后将这块积木叠在另一个积木上。实验中,机器人会彼此共享信息,并使用最终得到的数据改善核心算法,从而学会更好地搭积木。


在他们日前发表于 arXiv 的论文《能够高效率用数据、用于灵活操纵控制的深度强化学习》(Data-efficient Deep Reinforcement Learning for Dexterous Manipulation)这篇论文中,将训练 16 台机器人所用的时间成功缩短到仅需要 10 小时


论文中 DeepMind 研究人员使用的也是深度确定策略梯度算法(Determinisic Policy Gradient,DPG),并且从两方面做了改善:


  1. 加长每一步的学习时间,让算法在将数据更新反馈给机器人学习的时候,时间更长,这样就能让机器人学得更好。研究人员将改进的算法称为 DPG-R。

  2. 借助 Asynchronous Actor Critic(A3C)算法的分布式思想,巧妙对 DPG-R 算法做了改造,使其能够多台不同的计算机和虚拟机器人之间共享。


DeepMind 使用的机械臂是 Kinova Robotics 开发的 Jaco(见下图),实验中使用的当然是 Jaco 的虚拟版。据介绍,Jaco 有 9 个角度可以自由活动(手臂上 6 个,手掌上 3 个)。看起来很灵活,当然这也是 Jaco 的优势,但要操纵 Jaco 机械臂完成实际任务需要的计算量也相应的十分庞大。从这一点上,DeepMind 的实验充分展现了使用端到端的方法训练机械臂的好处。



论文: 能够高效率用数据、用于灵活操纵控制的深度强化学习


摘要


深度学习和强化学习方法近来被用于解决各种连续控制领域的问题。这些技术最显著的一个应用便是机器人的灵活操纵任务,让机器人完成灵活的操难以用传统的控制理论或手工设计方法解决。这种任务的一个例子是抓取一个物体,并将其精确地堆叠在另一个物体上。这是一个困难而且与现实世界中很多实际应用都相关的问题,解决这个问题也是机器人领域一个重要的长期目标。在这里,我们通过在虚拟环境中对这个问题进行考察,并提出了解决这个问题的模型和技术,朝解决实际机器人灵活操作迈出了一步。


论文从两方面扩展了深度确定策略梯度(Deep Deterministic Policy Gradient,DDPG)算法,提出了一种基于 Q-Learning 的无模型方法,使其在数据利用率和可扩展性方面得到大幅提升。研究结果表明,通过大量使用非策略(off-policy)数据和反复进行(replay),可以找到抓取物体并进行堆叠的鲁棒性控制策略。此外,研究结果显示,通过收集真实机器人的交互数据,可能很快就能成功训练堆叠策略。



上图展示了实验中在虚拟环境中使用机械臂叠积木的情况,从左到右代表了不同的阶段,难度也依次上升:①开始状态,②定位阶段(reaching),③抓取(grasping),这也是积木在机械臂手中开始叠积木的开始状态,以及④叠积木(stacking)。


文章转自新智元公众号,原文链接

相关文章
|
18天前
|
数据采集 安全 算法
李飞飞数字表兄弟破解机器人训练难题!零样本sim2real成功率高达90%
李飞飞团队提出“数字表兄弟”(Digital Cousins)概念,通过自动化创建数字表兄弟(ACDC)方法,大幅提升了机器人在真实环境中的训练效果。该方法在零样本sim2real迁移实验中成功率达到90%,显著优于传统方法。
33 3
|
4月前
|
机器学习/深度学习 人工智能 算法
DeepMind机器人打乒乓球,正手、反手溜到飞起,全胜人类初学者
【8月更文挑战第30天】DeepMind团队近日在机器人乒乓球领域取得了重大突破,其研发的机器人在与人类初学者的对战中表现出色,展现了惊人的技术水平和适应能力。这项成果不仅彰显了人工智能在体育竞技中的巨大潜力,还引发了关于AI与人类技能关系的广泛讨论。尽管存在一些挑战,如学习能力和成本问题,但该技术在训练、娱乐等方面的应用前景值得期待。论文详情见【https://arxiv.org/pdf/2408.03906】。
70 5
|
4月前
|
机器人 C# 人工智能
智能升级:WPF与人工智能的跨界合作——手把手教你集成聊天机器人,打造互动新体验与个性化服务
【8月更文挑战第31天】聊天机器人已成为现代应用的重要组成部分,提供即时响应、个性化服务及全天候支持。随着AI技术的发展,聊天机器人的功能日益强大,不仅能进行简单问答,还能实现复杂对话管理和情感分析。本文通过具体案例分析,展示了如何在WPF应用中集成聊天机器人,并通过示例代码详细说明其实现过程。使用Microsoft的Bot Framework可以轻松创建并配置聊天机器人,增强应用互动性和用户体验。首先,需在Bot Framework门户中创建机器人项目并编写逻辑。然后,在WPF应用中添加聊天界面,实现与机器人的交互。
112 0
|
5月前
|
安全 机器人
力纳克推出ELEVATE™升降码垛解决方案,助力协作机器人提质升级
协作机器人在物料搬运中日益重要,提升码垛效率与灵活性。丹麦力纳克创新ELEVATE™升降解决方案,采用大推力升降柱,使机器人在纵向空间高效作业,弥补横向码垛局限。ELEVATE™确保高速恒速,适配多设计,简化系统,提供精准码垛。相比大型机器人,搭配小型机器人使用更经济、空间利用率高。力纳克以创新驱动,满足客户高效、灵活需求,展现深厚技术积累与市场理解。 (237字符)
|
人工智能 自然语言处理 机器人
机器人ChatGPT来了:大模型进现实世界,DeepMind重量级突破
机器人ChatGPT来了:大模型进现实世界,DeepMind重量级突破
244 0
|
机器学习/深度学习 人工智能 自然语言处理
养成女友?我训练出了一个“杨超越”聊天机器人
养成女友?我训练出了一个“杨超越”聊天机器人
224 0
|
机器学习/深度学习 存储 数据采集
7 Papers & Radios | 谷歌开源机器人领域transformer;DeepMind推出剧本写作AI
7 Papers & Radios | 谷歌开源机器人领域transformer;DeepMind推出剧本写作AI
306 0
|
机器学习/深度学习 算法 机器人
只需1次演示,1小时在线训练,机器人真就做到看一遍就会了
只需1次演示,1小时在线训练,机器人真就做到看一遍就会了
131 0
|
机器学习/深度学习 算法 机器人
CMU发表新型灵巧机器人算法,准确学习日常家具的操纵方法
CMU发表新型灵巧机器人算法,准确学习日常家具的操纵方法
127 0
|
8天前
|
自然语言处理 算法 机器人
智能电话销售机器人源码搭建部署系统电话机器人源码
智能电话销售机器人源码搭建部署系统电话机器人源码
19 4