相隔3000英里,用苹果头显遥控机器人!UCSD、MIT华人团队开源TeleVision

简介: 【7月更文挑战第19天】UCSD和MIT华人团队开发的TeleVision技术实现了远程操控机器人。借助AR/VR,操作者通过头显设备获得实时的机器人视角,并通过手势控制执行任务。系统支持多人协作,已在远距离实验中成功导航复杂环境。不过,高带宽需求和交互学习曲线是挑战。[论文链接](https://robot-tv.github.io/resources/television.pdf)**

近日,来自加州大学圣地亚哥分校(UCSD)和麻省理工学院(MIT)的一支研究团队提出了一项名为TeleVision(远程视觉)的创新技术,该技术旨在实现相隔数千英里的远程机器人控制。

TeleVision技术的核心是利用先进的计算机视觉和机器学习算法,结合增强现实(AR)和虚拟现实(VR)技术,为远程操作人员提供身临其境的视觉体验和精确的操作控制。

具体而言,TeleVision系统包括以下关键组件:

  1. 远程操作界面:操作人员可以使用头戴式显示器(HMD)或其他AR/VR设备,通过TeleVision系统与远程机器人进行交互。系统将实时捕捉机器人的视觉输入,并将其叠加在操作人员的视野中,使其能够看到机器人所看到的场景。

  2. 视觉感知与理解:TeleVision系统利用计算机视觉算法对机器人的视觉输入进行分析和理解。这包括目标检测、场景分割、三维重建等任务,以帮助操作人员更好地理解机器人周围的环境。

  3. 增强现实交互:通过AR技术,TeleVision系统可以将虚拟的操作界面或工具叠加在操作人员的视野中,使其能够更方便地与机器人进行交互。例如,系统可以显示虚拟的按钮或手柄,让操作人员通过手势或语音指令来控制机器人。

  4. 远程通信与控制:TeleVision系统通过高速网络连接将操作人员与远程机器人连接起来,并实时传输视觉和控制信号。系统还支持多用户协作,多个操作人员可以同时控制同一个机器人,或共享同一个视觉输入。

根据研究团队的实验结果,TeleVision系统在远程机器人控制方面取得了令人鼓舞的进展。在一项横跨美国东西海岸的实验中,操作人员使用TeleVision系统成功控制了位于UCSD的机器人,并完成了多个复杂的任务,包括在拥挤的环境中导航、与人类进行交互等。

然而,TeleVision技术也面临一些挑战和限制。首先,由于需要实时传输高分辨率的视觉信号,TeleVision系统对网络带宽和延迟要求较高,这可能会限制其在网络条件较差地区的应用。其次,TeleVision系统的交互方式仍然不够自然,操作人员需要花费一定的时间来适应和学习如何使用该系统。

论文地址:https://robot-tv.github.io/resources/television.pdf

目录
打赏
0
12
14
8
396
分享
相关文章
GR00T N1:全球首个开源人形机器人基座模型!双系统架构解锁通用操作
GR00T N1 是英伟达推出的全球首个开源人形机器人基础模型,基于多模态输入和双系统架构,能够执行复杂操作任务,适用于物流、制造、零售等多个领域。
32 1
GR00T N1:全球首个开源人形机器人基座模型!双系统架构解锁通用操作
UniAct:清华团队突破!跨平台机器人通用模型,仅需50条数据就能快速适配新环境
UniAct 是由清华、商汤、北大、上海AI Lab联合推出的具身基础模型框架,旨在解决不同机器人之间的行为异构性问题,通过学习通用行为实现跨平台控制。
27 1
UniAct:清华团队突破!跨平台机器人通用模型,仅需50条数据就能快速适配新环境
ToddlerBot:告别百万经费!6000刀就能造人形机器人,斯坦福开源全套方案普及机器人研究
ToddlerBot 是斯坦福大学推出的低成本开源人形机器人平台,支持强化学习、模仿学习和零样本模拟到现实转移,适用于运动操作研究和多场景应用。
89 3
ToddlerBot:告别百万经费!6000刀就能造人形机器人,斯坦福开源全套方案普及机器人研究
LazyLLM:还在为AI应用开发掉头发?商汤开源智能体低代码开发工具,三行代码部署聊天机器人
LazyLLM 是一个低代码开发平台,可帮助开发者快速构建多智能体大语言模型应用,支持一键部署、跨平台操作和多种复杂功能。
80 3
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
Weebo 是一款基于 Whisper Small、Llama 3.2 和 Kokoro-82M 技术的 AI 语音聊天机器人,支持实时语音交互和多语言对话,适用于个人助理、娱乐互动和教育辅导等多种场景。
313 17
Weebo:支持多语言和实时语音交流的开源 AI 聊天机器人,回复具备语调、情感的语音
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型,结合视觉预测与动作执行,显著提升机器人任务成功率。
116 20
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
AgiBot World:智元机器人开源百万真机数据集,数据集涵盖了日常生活所需的绝大多数动作
AgiBot World 是智元机器人开源的百万真机数据集,旨在推动具身智能的发展,覆盖家居、餐饮、工业等五大核心场景。
219 9
AgiBot World:智元机器人开源百万真机数据集,数据集涵盖了日常生活所需的绝大多数动作
RDT:清华开源全球最大的双臂机器人操作任务扩散基础模型、代码与训练集,基于模仿能力机器人能够自主完成复杂任务
RDT(Robotics Diffusion Transformer)是由清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量,能够在无需人类操控的情况下自主完成复杂任务,如调酒和遛狗。
242 22
RDT:清华开源全球最大的双臂机器人操作任务扩散基础模型、代码与训练集,基于模仿能力机器人能够自主完成复杂任务
Jim Fan全华人团队HOVER问世,1.5M小模型让机器人获潜意识!
在机器人技术领域,人形机器人的全身控制一直极具挑战。传统方法为不同任务(如导航、移动操作等)单独训练控制策略,限制了策略的可转移性。Jim Fan团队提出HOVER框架,通过全身运动模仿作为共同抽象,整合多种控制模式,实现无缝过渡,显著提升控制效率和灵活性。HOVER不仅为人形机器人应用带来巨大潜力,也为机器人技术发展提供新思路。论文地址:https://arxiv.org/abs/2410.21229
89 23
聚焦视听触感官协同配合的具身精细操纵,人大胡迪团队领衔探索机器人模态时变性挑战
中国人民大学胡迪团队提出MS-Bot方法,通过阶段性引导的动态多感官融合,使机器人能像人类一样灵活运用视觉、听觉和触觉完成复杂任务。实验表明,该方法提高了操作准确性和效率,但仍面临数据依赖、计算复杂度和泛化能力等挑战。论文链接:https://arxiv.org/abs/2408.01366v2
119 21

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等