OpenAI推出开源机器人模拟软件Roboschool(附代码)

简介:
本文来自AI新媒体量子位(QbitAI)


今天,马斯克和YC总裁Altman等硅谷名流共同创办的人工智能非营利组织OpenAI发布了一个开源的机器人模拟器Roboschool。


 三个应用了不同控制策略的机器人在Roboschool中赛跑

Roboschool是增强学习研究平台OpenAI Gym上的机器人模拟器,提供了一组新环境,让用户可以在模拟器中控制机器人,想在一个环境中训练同时训练多个agent也很容易。

在OpenAI Gym刚刚发布的时候,不少用户抱怨机器人模拟器MuJoCo需要付费证书。现在,Roboschool打破了这个限制,每个人都可以免费使用。

与Gazebo、V-REP等其他模拟器一样,Roboschool也基于开源的物理库Bullet Physics Engine。

环境

Roboschool包含12个环境,有的和MuJoCo差不多,也有全新的,比如说高难度版的人形机器人行走任务、多玩家乒乓球环境等。环境的数量还会继续增加,OpenAI表示也希望社区参与进来,贡献更多环境。

MuJoCo环境现有的任务转移到Roboschool中之后,画风更写实。

比如行走的慢镜头,原来是这样的:

现在是这样:

再比如说,新的环境中为蚂蚁增加了重量,让原来这样的蚂蚁:

能保持至少两条腿着地:

健壮的交互式控制

原来的OpenAI Gym中,好几个环境的目标都是学习一个行走控制器。但是,这些环境给出的目标过于基本,仅仅是“向前移动”,于是在实践中,行走策略将学会沿一条曲线轨道移动,状态空间的大部分都不会被触及。另外,最终的策略也会非常脆弱:轻轻推一下,机器人就可能崩溃摔倒。

Roboschool为3D人形机器人新增了两个带有交互式控制的环境,运动问题变得更富有挑战性。

一个是HumanoidFlagrun(人形机器人+旗标+跑),机器人在其中的任务是跑向旗标,而旗标的位置是随机变动的。

另一个叫HumanoidFlagrunHarder(人形机器人+旗标+跑+更难)比上一个增加了让机器人摔倒再爬起来的任务,在每一次训练的开始,机器人可能是站着的,也可能是躺在地上的。另外,在训练过程中,一直有白色方块攻击机器人,想让它脱离轨道,就像下面视频中这样:


虽然这个机器人行走的速度不快,看起来也不自然,但是在任何情况下都能恢复行走,也知道如何寻找方向。

多角色

Roboschool中的RoboschoolPong,允许用户在同一环境中同时训练或运行多个agent,以后还会有更多环境。

多角色训练是指,你可以训练同一个agent自攻自守,也可以用同一个算法训练两个不同的agent,甚至可以训练两种不同的算法,让他们相互竞争。


 在RoboschoolPong中同时训练两个agent

相关链接

Roboschool的GitHub地址:
https://github.com/openai/roboschool

OpenAI Gym:
https://gym.openai.com/

MuJoCo:
https://mujoco.org/

有人把OpenAI Gym中的MuJoCo换成了开源物理模拟器DART:
https://github.com/DartEnv/dart-env

本文作者:李林
原文发布时间:2017-05-16 
目录
打赏
0
0
0
0
16429
分享
相关文章
node-DeepResearch:开源复现版OpenAI Deep Research,支持多步推理和复杂查询的AI智能体
node-DeepResearch 是一个开源 AI 智能体项目,支持多步推理和复杂查询,帮助用户逐步解决问题。
182 27
node-DeepResearch:开源复现版OpenAI Deep Research,支持多步推理和复杂查询的AI智能体
ToddlerBot:告别百万经费!6000刀就能造人形机器人,斯坦福开源全套方案普及机器人研究
ToddlerBot 是斯坦福大学推出的低成本开源人形机器人平台,支持强化学习、模仿学习和零样本模拟到现实转移,适用于运动操作研究和多场景应用。
45 3
ToddlerBot:告别百万经费!6000刀就能造人形机器人,斯坦福开源全套方案普及机器人研究
DeepSeek 开源 R1 系列推理模型,性能对标 OpenAI o1,基于纯强化学习完成自我进化,无需监督微调
DeepSeek R1-Zero 是一款基于纯强化学习的开源推理模型,无需监督微调数据,支持多任务泛化与自我进化,适用于数学推理、代码生成等场景。
522 21
DeepSeek 开源 R1 系列推理模型,性能对标 OpenAI o1,基于纯强化学习完成自我进化,无需监督微调
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
Weebo 是一款基于 Whisper Small、Llama 3.2 和 Kokoro-82M 技术的 AI 语音聊天机器人,支持实时语音交互和多语言对话,适用于个人助理、娱乐互动和教育辅导等多种场景。
226 17
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
Open-Deep-Research:开源复现版 Deep Research,支持切换多种大模型,不再依赖 OpenAI o3
Open Deep Research 是一个开源的 AI 智能体,支持多种语言模型,具备实时数据提取、多源数据整合和AI推理功能。
270 16
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型,结合视觉预测与动作执行,显著提升机器人任务成功率。
76 20
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
Sky-T1:开源版"OpenAI o1-preview",训练成本竟不到450美元
Sky-T1是NovaSky发布的开源推理AI模型,支持低成本训练,性能优异,适用于数学问题解决、编程评估和科学研究。
126 3
Sky-T1:开源版"OpenAI o1-preview",训练成本竟不到450美元
AgiBot World:智元机器人开源百万真机数据集,数据集涵盖了日常生活所需的绝大多数动作
AgiBot World 是智元机器人开源的百万真机数据集,旨在推动具身智能的发展,覆盖家居、餐饮、工业等五大核心场景。
137 9
AgiBot World:智元机器人开源百万真机数据集,数据集涵盖了日常生活所需的绝大多数动作
RDT:清华开源全球最大的双臂机器人操作任务扩散基础模型、代码与训练集,基于模仿能力机器人能够自主完成复杂任务
RDT(Robotics Diffusion Transformer)是由清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量,能够在无需人类操控的情况下自主完成复杂任务,如调酒和遛狗。
187 22
RDT:清华开源全球最大的双臂机器人操作任务扩散基础模型、代码与训练集,基于模仿能力机器人能够自主完成复杂任务
OpenAI重拾规则系统,用AI版机器人定律守护大模型安全
在人工智能领域,大语言模型(LLM)展现出强大的语言理解和生成能力,但也带来了安全性和可靠性挑战。OpenAI研究人员提出“规则基于奖励(RBR)”方法,通过明确规则引导LLM行为,确保其符合人类价值观和道德准则。实验显示,RBR方法在安全性与有用性之间取得了良好平衡,F1分数达97.1。然而,规则制定和维护复杂,且难以完全捕捉语言的多样性。论文:https://arxiv.org/pdf/2411.01111。
125 13

量子位

+ 订阅

热门文章

最新文章