OpenAI探索机器人模拟训练新方法:仿真与真实世界无缝衔接

简介:
本文来自AI新媒体量子位(QbitAI)

59f761d943cff602f358d7190e77d155a50e79b8

OpenAI发布了一项新的机器人技术。

研究人员完全在仿真模拟环境中对机器人控制器进行训练,然后把控制器直接应用在实体机器人身上,通过这种方式让机器人在执行简单任务时,可以应对外界环境预料之外的变化。OpenAI已经用这一技术构建了闭环系统,取代原来的开环系统。

这个模拟器不需要匹配现实世界的情况,相反,OpenAI对相关环境采用了随机化的设置,包括摩擦力、动作延迟、传感器噪声等。这项研究表明,通用机器人可以在完全仿真模拟的环境中进行训练,只需要在现实世界中进行少量的自校准。


上面这个视频中,就是一个使用动态随机进行过模拟训练的机器人,任务就是把一个冰球推到目标点。尽管在真实世界中,研究人员在冰球上绑了一个袋子,改变了冰球的滑动性能,但机器人仍然能完成目标。

动态随机

OpenAI开发出了动态随机来训练机器人适应现实世界位置的动态变化。在训练过程中,研究人员随机抽取一组95个属性来定义环境动态,比如改变机器人身体各个部分的质量、改变操作对象的摩擦力和阻尼、置物台的高度、行动延迟观察噪音等等。

研究人员使用这种方法,训练了一个基于LSTM的策略,用以把冰球在桌子上推来推去。前馈网络在这个任务中失败了,而LSTM可以应用过去的观察,来分析世界的动态并相应的调整自己的行为。

从视觉到行动

OpenAI还是用了强化学习(RL)在模拟器中对机器人进行端到端的训练,并把得到的策略应用于一个实体机器人。这套系统不需要特殊传感器的帮助,就能把视觉直接映射到动作,并且可以根据视觉反馈进行调整。


这是机器人的相机视角。抓取方块的策略,使用了端到端的视觉到动作训练。在模拟情况下,夹子会随着方块的下滑而略微上移,以保持方块的位置。常见的RL算法,只能在扰动较小的情况下起效。

就在这个抓取任务上,OpenAI花了好几个月的时间来尝试传统的RL算法,但最终研究人员开发出一套新的算法:Hindsight Experience Replay (HER)。

HER的实现使用了不对称信息的actor-critic(演员-批评家)技术。演员是一个策略,批评家评估状态,并向演员发出训练信号。批评家可以获得完整的模拟器状态,演员只能访问RGB和深度信息,也就是现实世界中存在的数据。

成本

新的尝试增加了计算需求。动态随机让训练速度降低了3倍,而从图像学习而不是状态,让训练时长增加了5-10倍。

OpenAI认为有三种构建通用机器人的方法:训练大量的物理机器人、让模拟器不断接近真实世界、随机化模拟器然后把模型应用到真实世界。OpenAI的研究人员指出,他们越来越觉得第三种方式将是最重要的解决方案。


OpenAI在最后的视频中,展示了用简单的前馈网络在模拟器中训练的机器人,它无法适应真实世界,完成和模拟器中一样的任务。

关于这项研究的详情,OpenAI最近在arXiv上公布了两篇论文:

Sim-to-Real Transfer of Robotic Control with Dynamics Randomization 
https://arxiv.org/abs/1710.06537

Asymmetric Actor Critic for Image-Based Robot Learning 
https://arxiv.org/abs/1710.06542

OpenAI博客原文:https://blog.openai.com/generalizing-from-simulation/

本文作者:问耕
原文发布时间:2017-10-21
相关文章
|
1月前
|
机器学习/深度学习 算法 机器人
基于QLearning强化学习的较大规模栅格地图机器人路径规划matlab仿真
本项目基于MATLAB 2022a,通过强化学习算法实现机器人在栅格地图中的路径规划。仿真结果显示了机器人从初始位置到目标位置的行驶动作序列(如“下下下下右右...”),并生成了详细的路径图。智能体通过Q-Learning算法与环境交互,根据奖励信号优化行为策略,最终学会最优路径。核心程序实现了效用值排序、状态转换及动作选择,并输出机器人行驶的动作序列和路径可视化图。
188 85
|
1月前
|
算法 数据可视化 安全
基于DWA优化算法的机器人路径规划matlab仿真
本项目基于DWA优化算法实现机器人路径规划的MATLAB仿真,适用于动态环境下的自主导航。使用MATLAB2022A版本运行,展示路径规划和预测结果。核心代码通过散点图和轨迹图可视化路径点及预测路径。DWA算法通过定义速度空间、采样候选动作并评估其优劣(目标方向性、障碍物距离、速度一致性),实时调整机器人运动参数,确保安全避障并接近目标。
147 68
|
2月前
|
传感器 人工智能 自然语言处理
RDT:清华开源全球最大的双臂机器人操作任务扩散基础模型、代码与训练集,基于模仿能力机器人能够自主完成复杂任务
RDT(Robotics Diffusion Transformer)是由清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量,能够在无需人类操控的情况下自主完成复杂任务,如调酒和遛狗。
170 22
RDT:清华开源全球最大的双臂机器人操作任务扩散基础模型、代码与训练集,基于模仿能力机器人能够自主完成复杂任务
|
2月前
|
人工智能 安全 机器人
OpenAI重拾规则系统,用AI版机器人定律守护大模型安全
在人工智能领域,大语言模型(LLM)展现出强大的语言理解和生成能力,但也带来了安全性和可靠性挑战。OpenAI研究人员提出“规则基于奖励(RBR)”方法,通过明确规则引导LLM行为,确保其符合人类价值观和道德准则。实验显示,RBR方法在安全性与有用性之间取得了良好平衡,F1分数达97.1。然而,规则制定和维护复杂,且难以完全捕捉语言的多样性。论文:https://arxiv.org/pdf/2411.01111。
118 13
|
3月前
|
人工智能 机器人 Shell
AI语音机器人安装方法 AI机器人安装代码
AI语音机器人安装方法 AI机器人安装代码
58 2
|
3月前
|
数据采集 安全 算法
李飞飞数字表兄弟破解机器人训练难题!零样本sim2real成功率高达90%
李飞飞团队提出“数字表兄弟”(Digital Cousins)概念,通过自动化创建数字表兄弟(ACDC)方法,大幅提升了机器人在真实环境中的训练效果。该方法在零样本sim2real迁移实验中成功率达到90%,显著优于传统方法。
74 3
|
4月前
|
网络协议 机器人 C++
KUKA机器人Socket通讯配置方法:技术干货分享
【10月更文挑战第7天】在现代自动化生产线上,KUKA机器人凭借其高效、灵活和精确的特点,成为众多企业的首选。为了实现KUKA机器人与其他设备或系统之间的数据交互,Socket通讯配置显得尤为重要。本文将详细介绍KUKA机器人Socket通讯的配置方法,帮助大家在工作中更好地掌握这一技术。
448 2
|
4月前
|
机器学习/深度学习 传感器 安全
基于模糊神经网络的移动机器人路径规划matlab仿真
该程序利用模糊神经网络实现移动机器人的路径规划,能在含5至7个静态未知障碍物的环境中随机导航。机器人配备传感器检测前方及其两侧45度方向上的障碍物距离,并根据这些数据调整其速度和方向。MATLAB2022a版本下,通过模糊逻辑处理传感器信息,生成合理的路径,确保机器人安全到达目标位置。以下是该程序在MATLAB2022a下的测试结果展示。
|
4月前
|
机器学习/深度学习 算法 数据可视化
基于QLearning强化学习的机器人避障和路径规划matlab仿真
本文介绍了使用MATLAB 2022a进行强化学习算法仿真的效果,并详细阐述了Q-Learning原理及其在机器人避障和路径规划中的应用。通过Q-Learning算法,机器人能在未知环境中学习到达目标的最短路径并避开障碍物。仿真结果展示了算法的有效性,核心程序实现了Q表的更新和状态的可视化。未来研究可扩展至更复杂环境和高效算法。![](https://ucc.alicdn.com/pic/developer-ecology/nymobwrkkdwks_d3b95a2f4fd2492381e1742e5658c0bc.gif)等图像展示了具体仿真过程。
209 0
|
6月前
|
数据可视化 机器人 Python
实例8:机器人的空间描述和变换仿真
本文是关于机器人空间描述和变换的仿真实验教程,通过Python编程和可视化学习,介绍了刚体的平动和转动、位姿描述、坐标变换等基础知识,并提供了具体的实验步骤和代码实现。实验目的是让读者通过编程实践,了解和掌握空间变换的数学原理和操作方法。
75 2
实例8:机器人的空间描述和变换仿真

热门文章

最新文章