朱玉可团队新作:看一眼就能模仿,大模型让机器人轻松学会撒盐

简介: 朱玉可团队来自UT Austin和NVIDIA Research,提出了一种名为OKAMI的新方法,通过模仿人类行为视频,使机器人能快速学会操作技能,如撒盐、放玩具等。OKAMI分为参考计划生成和对象感知重定位两阶段,显著提高了机器人的操作精度和适应能力,减少了传统方法所需的大量示范和训练时间。

在人工智能领域,机器人的操作技能学习一直是一个挑战性的问题。传统的机器人学习方法需要大量的示范和训练,这不仅耗时耗力,而且难以适应复杂的现实环境。然而,朱玉可团队的最新研究为这个问题提供了一种创新的解决方案。

朱玉可团队来自UT Austin和NVIDIA Research,他们致力于研究如何通过模仿人类行为来教会机器人操作技能。他们的目标是让机器人能够通过观察人类的示范视频,快速学会各种操作技能,而不需要大量的示范和训练。

为了实现这个目标,朱玉可团队提出了一种名为OKAMI(Object-aware Kinematic retArgeting for huManoid Imitation)的方法。这种方法的核心思想是利用大模型来识别视频中的物体和人类动作,然后根据这些信息来生成机器人的操作计划。

具体来说,OKAMI方法包括两个阶段:

  1. 参考计划生成:在这个阶段,OKAMI方法会分析示范视频中的物体和人类动作,并生成一个参考计划。这个计划包括机器人需要执行的每个步骤,以及每个步骤中需要操作的物体。

  2. 对象感知重定位:在这个阶段,OKAMI方法会根据参考计划和当前的环境条件,生成机器人的操作动作。这些动作会根据物体的位置和姿态进行调整,以确保机器人能够准确地操作物体。

为了验证OKAMI方法的有效性,朱玉可团队进行了一系列的实验。他们选择了六个不同的操作任务,包括撒盐、放玩具进篮子、关抽屉、关笔记本电脑、放零食在盘子上和装袋。

在实验中,他们使用了一个配备两个6-DoF Inspire灵巧手和D435i Intel RealSense相机的Fourier GR1机器人。他们使用OKAMI方法来生成机器人的操作计划,并使用这些计划来控制机器人执行任务。

实验结果表明,OKAMI方法在所有六个任务中都表现出了出色的性能。机器人能够准确地操作物体,并成功完成任务。特别是在撒盐任务中,机器人能够准确地将盐撒入碗中,表现出了很高的操作精度。

朱玉可团队的这项研究为机器人操作技能学习提供了一种创新的解决方案。通过利用大模型来识别视频中的物体和人类动作,OKAMI方法能够快速生成机器人的操作计划,并根据这些计划来控制机器人执行任务。

这种基于模仿学习的方法具有很大的潜力,可以帮助机器人更快地学习各种操作技能,并适应复杂的现实环境。它还可以减少机器人学习所需的时间和精力,提高机器人的操作效率。

然而,OKAMI方法也存在一些局限性。首先,它需要高质量的示范视频,以便准确识别物体和人类动作。其次,它可能无法处理一些复杂的操作任务,例如需要多个步骤或多个物体交互的任务。

此外,OKAMI方法的实现也需要一些技术上的挑战,例如如何准确跟踪物体的位置和姿态,以及如何生成平滑的机器人动作。这些挑战可能需要进一步的研究和开发来解决。

论文链接:https://arxiv.org/pdf/2410.11792

目录
相关文章
|
29天前
|
人工智能 自然语言处理 算法
具身智能高校实训解决方案 ----从AI大模型+机器人到通用具身智能
在具身智能的发展历程中,AI 大模型的出现成为了关键的推动力量。高校作为培养未来科技人才的摇篮,需要紧跟这一前沿趋势,开展具身智能实训课程。通过将 AI 大模型与具备 3D 视觉的机器人相结合,为学生搭建一个实践平台。
194 64
|
11天前
|
人工智能 自然语言处理 机器人
机器人迈向ChatGPT时刻!清华团队首次发现具身智能Scaling Laws
清华大学研究团队在机器人操作领域发现了数据规模定律,通过大规模数据训练,机器人策略的泛化性能显著提升。研究揭示了环境和对象多样性的重要性,提出了高效的數據收集策略,使机器人在新环境中成功率达到约90%。这一发现有望推动机器人技术的发展,实现更广泛的应用。
60 26
|
4天前
|
人工智能 安全 机器人
OpenAI重拾规则系统,用AI版机器人定律守护大模型安全
在人工智能领域,大语言模型(LLM)展现出强大的语言理解和生成能力,但也带来了安全性和可靠性挑战。OpenAI研究人员提出“规则基于奖励(RBR)”方法,通过明确规则引导LLM行为,确保其符合人类价值观和道德准则。实验显示,RBR方法在安全性与有用性之间取得了良好平衡,F1分数达97.1。然而,规则制定和维护复杂,且难以完全捕捉语言的多样性。论文:https://arxiv.org/pdf/2411.01111。
39 13
|
1月前
|
安全 机器人 开发者
清华开源全球最大双臂机器人扩散大模型RDT,懂调酒能遛狗,登顶HF具身热榜
清华大学近期发布了全球最大的双臂机器人扩散大模型RDT,该模型在调酒、遛狗等任务上表现优异,登顶Hugging Face具身智能热榜。RDT采用扩散架构,具备强大的学习能力,能生成高质量的机器人动作序列,展示了清华在机器人技术领域的领先水平。尽管面临泛化能力、计算资源及安全性等挑战,RDT的开源特性仍为其广泛应用和发展提供了广阔前景。
67 8
|
2月前
|
机器学习/深度学习 人工智能 自动驾驶
2024.10|AI/大模型在机器人/自动驾驶/智能驾舱领域的最新应用和深度洞察
本文介绍了AI和大模型在机器人、自动驾驶和智能座舱领域的最新应用和技术进展。涵盖多模态大语言模型在机器人控制中的应用、移动机器人(AMRs)的规模化部署、协作机器人的智能与安全性提升、AR/VR技术在机器人培训中的应用、数字孪生技术的优化作用、Rust语言在机器人编程中的崛起,以及大模型在自动驾驶中的核心地位、端到端自动驾驶解决方案、全球自动驾驶的前沿进展、智能座舱的核心技术演变和未来发展趋势。
186 2
|
2月前
|
人工智能 机器人
多模态大模型活动 | 使用 PAI×LLaMA Factory 搭建文旅问答机器人
LLaMA Factory 是一款开源低代码大模型微调框架,集成了业界最广泛使用的微调技术,支持通过 Web UI 界面零代码微调大模型,目前已经成为开源社区内最受欢迎的微调框架,GitHub 星标超过3万。本次活动通过 PAI×LLaMA Factory 微调 Qwen2-VL 模型,快速搭建文旅领域知识问答机器人,期待看到您与 AI 导游的创意对话!
|
3月前
|
人工智能 自然语言处理 机器人
谷歌将大模型集成在实体机器人中,能看、听、说执行57种任务
【9月更文挑战第17天】近年来,人工智能在多模态大模型领域取得显著进展。谷歌最新研发的Mobility VLA系统,将大模型与实体机器人结合,实现了视觉、语言和行动的融合,使机器人能理解并执行复杂多模态指令,如“我应该把这个放回哪里?”系统在真实环境测试中表现出色,但在计算资源、数据需求及伦理问题上仍面临挑战。相关论文发布于https://arxiv.org/abs/2407.07775。
80 9
|
5月前
|
机器学习/深度学习 算法 机器人
相隔3000英里,用苹果头显遥控机器人!UCSD、MIT华人团队开源TeleVision
【7月更文挑战第19天】UCSD和MIT华人团队开发的TeleVision技术实现了远程操控机器人。借助AR/VR,操作者通过头显设备获得实时的机器人视角,并通过手势控制执行任务。系统支持多人协作,已在远距离实验中成功导航复杂环境。不过,高带宽需求和交互学习曲线是挑战。[论文链接](https://robot-tv.github.io/resources/television.pdf)**
82 14
|
5月前
|
机器学习/深度学习 监控 安全
相隔3000英里,用苹果头显遥控机器人!UCSD、MIT华人团队开源TeleVision
【7月更文挑战第20天】加州大学圣地亚哥分校(UCSD)与麻省理工学院(MIT)的华人团队开发出TeleVision系统,结合Apple AR/VR头显,实现超远程沉浸式机器人控制。💡该系统克服视频流延迟,精准手势识别难题,让操作者仿佛亲临现场指挥机器人行动。目前处于研究阶段,已展示基本任务执行能力。更多信息查阅[论文](https://robot-tv.github.io/resources/television.pdf)。🌐 --- **🏷️远程控制** **🏷️虚拟现实** **🏷️机器人技术** **🏷️华人科研** **🏷️科技创新**
56 4

热门文章

最新文章