DeepMind 升级深度强化学习,仅10小时训练16个机器人灵活操纵物体

简介:

让机器人相互学习一个最简单的方法就是将所有关于成功和失败的经验都汇总到一起。去年,谷歌大脑展示了他们的协作机械臂研究项目——合作式增强学习让机器人掌握通用技能:一台机械臂学会的东西,可以在所有机械臂之间共享,这样所有的机械臂都能以更快的速度学习、成长。实验结果是,这些机械臂可以进行开门、拿起罐子等简单的操作。


当时,谷歌大脑的研究人员探索了通过多机器人合作完成通用目技能学习的三个可能方法:


  1. 直接从经验中学习行动技巧

  2. 学习物体内部物理模型

  3. 在人类协助下学习技能


在这三个例子中,多个机器人共享彼此的经验,搭建了一个通用的技能模型。虽然学习的技能相对简单,但是谷歌大脑的研究人员表示,通过合作来更快速高效的学习这些技能,机器人未来可能会掌握更加丰富的行为指令集,最终会让它们在人类的日常生活中起到大的作用。


其中,第一项,直接从经验中学习行动技巧,也就是让机器人用无模型增强学习从原始经验中学习。“无模型”就是没有关于环境的明确模型,机器人通过实时反馈发现变化,进而增强和探索,得到更大回馈的变化。


通过与深度神经网络相结合,“无模型”算法近来已经取得了很好的成果,看那些在各种 Atari 游戏中超越人类的智能体就知道了,此外,还有一个著名的例子就是 AlphaGo。


谷歌大脑由于拥有多个机器人,因此可以在真实世界中进行实验。日前,没有实体机器人的 DeepMind 也在虚拟环境中,对机器人协作开展了最新的研究。


简单说,DeepMind 的方法是让机械臂在在模拟器中:①成功地找到一块积木,②将这块积木拿起来,③最后将这块积木叠在另一个积木上。实验中,机器人会彼此共享信息,并使用最终得到的数据改善核心算法,从而学会更好地搭积木。


在他们日前发表于 arXiv 的论文《能够高效率用数据、用于灵活操纵控制的深度强化学习》(Data-efficient Deep Reinforcement Learning for Dexterous Manipulation)这篇论文中,将训练 16 台机器人所用的时间成功缩短到仅需要 10 小时


论文中 DeepMind 研究人员使用的也是深度确定策略梯度算法(Determinisic Policy Gradient,DPG),并且从两方面做了改善:


  1. 加长每一步的学习时间,让算法在将数据更新反馈给机器人学习的时候,时间更长,这样就能让机器人学得更好。研究人员将改进的算法称为 DPG-R。

  2. 借助 Asynchronous Actor Critic(A3C)算法的分布式思想,巧妙对 DPG-R 算法做了改造,使其能够多台不同的计算机和虚拟机器人之间共享。


DeepMind 使用的机械臂是 Kinova Robotics 开发的 Jaco(见下图),实验中使用的当然是 Jaco 的虚拟版。据介绍,Jaco 有 9 个角度可以自由活动(手臂上 6 个,手掌上 3 个)。看起来很灵活,当然这也是 Jaco 的优势,但要操纵 Jaco 机械臂完成实际任务需要的计算量也相应的十分庞大。从这一点上,DeepMind 的实验充分展现了使用端到端的方法训练机械臂的好处。



论文: 能够高效率用数据、用于灵活操纵控制的深度强化学习


摘要


深度学习和强化学习方法近来被用于解决各种连续控制领域的问题。这些技术最显著的一个应用便是机器人的灵活操纵任务,让机器人完成灵活的操难以用传统的控制理论或手工设计方法解决。这种任务的一个例子是抓取一个物体,并将其精确地堆叠在另一个物体上。这是一个困难而且与现实世界中很多实际应用都相关的问题,解决这个问题也是机器人领域一个重要的长期目标。在这里,我们通过在虚拟环境中对这个问题进行考察,并提出了解决这个问题的模型和技术,朝解决实际机器人灵活操作迈出了一步。


论文从两方面扩展了深度确定策略梯度(Deep Deterministic Policy Gradient,DDPG)算法,提出了一种基于 Q-Learning 的无模型方法,使其在数据利用率和可扩展性方面得到大幅提升。研究结果表明,通过大量使用非策略(off-policy)数据和反复进行(replay),可以找到抓取物体并进行堆叠的鲁棒性控制策略。此外,研究结果显示,通过收集真实机器人的交互数据,可能很快就能成功训练堆叠策略。



上图展示了实验中在虚拟环境中使用机械臂叠积木的情况,从左到右代表了不同的阶段,难度也依次上升:①开始状态,②定位阶段(reaching),③抓取(grasping),这也是积木在机械臂手中开始叠积木的开始状态,以及④叠积木(stacking)。


文章转自新智元公众号,原文链接

相关文章
|
19天前
|
机器学习/深度学习 算法 机器人
基于QLearning强化学习的较大规模栅格地图机器人路径规划matlab仿真
本项目基于MATLAB 2022a,通过强化学习算法实现机器人在栅格地图中的路径规划。仿真结果显示了机器人从初始位置到目标位置的行驶动作序列(如“下下下下右右...”),并生成了详细的路径图。智能体通过Q-Learning算法与环境交互,根据奖励信号优化行为策略,最终学会最优路径。核心程序实现了效用值排序、状态转换及动作选择,并输出机器人行驶的动作序列和路径可视化图。
167 85
|
1月前
|
传感器 人工智能 自然语言处理
RDT:清华开源全球最大的双臂机器人操作任务扩散基础模型、代码与训练集,基于模仿能力机器人能够自主完成复杂任务
RDT(Robotics Diffusion Transformer)是由清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量,能够在无需人类操控的情况下自主完成复杂任务,如调酒和遛狗。
128 22
RDT:清华开源全球最大的双臂机器人操作任务扩散基础模型、代码与训练集,基于模仿能力机器人能够自主完成复杂任务
|
1月前
|
机器学习/深度学习 人工智能 机器人
NeurIPS 2024:机器人操纵世界模型来了,成功率超过谷歌RT-1 26.6%
PIVOT-R是一种新型世界模型,专注于预测与任务相关的路点,以提高语言引导的机器人操作的性能和效率。该模型由路点感知世界模型(WAWM)和轻量级动作预测模块组成,辅以异步分层执行器(AHE),在SeaWave基准测试中表现优异,平均相对改进达19.45%,执行效率提高28倍。
79 26
|
2月前
|
数据采集 安全 算法
李飞飞数字表兄弟破解机器人训练难题!零样本sim2real成功率高达90%
李飞飞团队提出“数字表兄弟”(Digital Cousins)概念,通过自动化创建数字表兄弟(ACDC)方法,大幅提升了机器人在真实环境中的训练效果。该方法在零样本sim2real迁移实验中成功率达到90%,显著优于传统方法。
63 3
|
3月前
|
机器学习/深度学习 算法 数据可视化
基于QLearning强化学习的机器人避障和路径规划matlab仿真
本文介绍了使用MATLAB 2022a进行强化学习算法仿真的效果,并详细阐述了Q-Learning原理及其在机器人避障和路径规划中的应用。通过Q-Learning算法,机器人能在未知环境中学习到达目标的最短路径并避开障碍物。仿真结果展示了算法的有效性,核心程序实现了Q表的更新和状态的可视化。未来研究可扩展至更复杂环境和高效算法。![](https://ucc.alicdn.com/pic/developer-ecology/nymobwrkkdwks_d3b95a2f4fd2492381e1742e5658c0bc.gif)等图像展示了具体仿真过程。
182 0
|
5月前
|
机器人 C# 人工智能
智能升级:WPF与人工智能的跨界合作——手把手教你集成聊天机器人,打造互动新体验与个性化服务
【8月更文挑战第31天】聊天机器人已成为现代应用的重要组成部分,提供即时响应、个性化服务及全天候支持。随着AI技术的发展,聊天机器人的功能日益强大,不仅能进行简单问答,还能实现复杂对话管理和情感分析。本文通过具体案例分析,展示了如何在WPF应用中集成聊天机器人,并通过示例代码详细说明其实现过程。使用Microsoft的Bot Framework可以轻松创建并配置聊天机器人,增强应用互动性和用户体验。首先,需在Bot Framework门户中创建机器人项目并编写逻辑。然后,在WPF应用中添加聊天界面,实现与机器人的交互。
170 0
|
7月前
|
机器学习/深度学习 传感器 算法
强化学习(RL)在机器人领域的应用
强化学习(RL)在机器人领域的应用
146 4
|
6月前
|
安全 机器人
力纳克推出ELEVATE™升降码垛解决方案,助力协作机器人提质升级
协作机器人在物料搬运中日益重要,提升码垛效率与灵活性。丹麦力纳克创新ELEVATE™升降解决方案,采用大推力升降柱,使机器人在纵向空间高效作业,弥补横向码垛局限。ELEVATE™确保高速恒速,适配多设计,简化系统,提供精准码垛。相比大型机器人,搭配小型机器人使用更经济、空间利用率高。力纳克以创新驱动,满足客户高效、灵活需求,展现深厚技术积累与市场理解。 (237字符)
|
7月前
|
机器学习/深度学习 传感器 算法
强化学习(RL)在机器人领域的应用,尤其是结合ROS(Robot Operating System)和Gazebo(机器人仿真环境)
强化学习(RL)在机器人领域的应用,尤其是结合ROS(Robot Operating System)和Gazebo(机器人仿真环境)
335 2
|
7月前
|
机器学习/深度学习 传感器 算法
强化学习(RL)在机器人领域的应用
强化学习(RL)在机器人领域的应用
113 0

热门文章

最新文章