Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型,结合视觉预测与动作执行,显著提升机器人任务成功率。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:Seer 结合视觉预测与动作执行,显著提升机器人任务成功率。
  2. 技术:基于 Transformer 架构,融合多模态数据,实现高效的动作预测与视觉预测。
  3. 应用:广泛应用于工业自动化、服务机器人、医疗健康等领域。

正文(附运行示例)

Seer 是什么

seer

Seer 是由上海 AI 实验室、北京大学计算机科学与技术学院、北京大学软件与微电子学院等机构联合推出的端到端操作模型。该模型通过结合历史信息和目标信号(如语言指令),预测未来时刻的状态,并利用逆动力学模型生成动作信号。

Seer 基于 Transformer 架构,能够处理多模态输入数据,有效融合视觉、语言和机器人本体信号。在真实机器人任务中,Seer 的操作成功率较当前 Sota 提升 43%,且在多种复杂场景下表现出优异的泛化能力。在控制算法测试基准 CALVIN ABC-D Benchmark 中,Seer 的平均任务完成长度达 4.28,综合领先同类模型。

Seer 的主要功能

  • 动作预测:根据当前的视觉状态和目标,预测出合适的机器人动作。基于逆动力学模型估计实现目标所需的中间动作序列。
  • 视觉预测:Seer 具备条件视觉预测功能,能预测未来一定时间步内的 RGB 图像,让机器人“预见”未来的视觉状态,更好地规划和调整动作。
  • 多模态融合:融合视觉、语言和机器人状态等多种模态的信息,实现对复杂任务的理解和执行。基于多模态编码器将不同模态的特征进行整合,为动作预测和视觉预测提供全面的上下文信息。
  • 泛化能力:经过在大规模机器人数据集上的预训练,Seer 展现出强大的泛化能力,在未见场景、新物体、不同光照条件下以及面对高强度干扰时,依然保持稳定的性能。
  • 数据效率:Seer 在预训练阶段用大量数据学习到丰富的先验知识,因此在下游任务中仅需要少量的微调数据即可达到较好的性能,降低数据采集和标注的成本。

Seer 的技术原理

  • 端到端架构:基于端到端的架构设计,将视觉预测和逆动力学预测紧密结合在一起。在训练过程中,视觉预测模块和逆动力学模块协同优化,让模型能充分利用视觉和动作信息,实现更准确的动作预测。
  • Transformer 架构:基于 Transformer 架构处理视觉状态和动作信息。Transformer 能捕捉到视觉和动作序列中的复杂依赖关系,为模型提供强大的特征提取和表示能力。
  • 先见令牌和动作令牌:Seer 引入先见令牌(foresight token)和动作令牌(action token)。先见令牌预测未来的 RGB 图像,动作令牌估计当前和预测未来观察之间的中间动作。两个令牌基于多模态编码器与输入的 RGB 图像、机器人状态和语言令牌进行融合,用单向注意力掩码实现深度的信息整合。
  • 单向注意力掩码:Seer 设计特殊的单向注意力掩码,让动作令牌充分整合过去和未来的预测信息,有助于模型在多层网络中实现更深层次的信息融合,提高动作预测的准确性和鲁棒性。
  • 大规模预训练与微调:Seer 首先在大规模机器人数据集(如 DROID)上进行预训练,学习到丰富的视觉和动作先验知识。在下游任务中,基于少量的微调数据对模型进行调整,适应具体的任务场景和目标。

如何运行 Seer

仿真环境运行

CALVIN ABC-D

  1. 安装:按照 CALVIN ABC-D 安装指南 进行环境配置。
  2. 运行代码:根据 CALVIN ABC-D 运行指南 运行仿真代码。

真实世界实验

快速训练(有/无预训练)

  1. 安装:按照 真实世界安装指南 进行环境配置。
  2. 后处理:根据 真实世界后处理指南 进行数据后处理。
  3. 微调与从头训练:按照 真实世界微调与从头训练指南 进行模型训练。
  4. 推理:根据 真实世界推理指南 进行模型推理。

预训练

  1. 安装:按照 真实世界安装指南 进行环境配置。
  2. 预处理:根据 真实世界预处理指南 进行数据预处理。
  3. 预训练:按照 真实世界预训练指南 进行模型预训练。

资源

CALVIN ABC-D

真实世界实验

快速训练(有/无预训练)

预训练


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

目录
打赏
0
19
20
0
337
分享
相关文章
SpatialVLA:上海AI Lab联合上科大推出的空间具身通用操作模型
SpatialVLA 是由上海 AI Lab、中国电信人工智能研究院和上海科技大学等机构共同推出的新型空间具身通用操作模型,基于百万真实数据预训练,赋予机器人强大的3D空间理解能力,支持跨平台泛化控制。
53 7
SpatialVLA:上海AI Lab联合上科大推出的空间具身通用操作模型
2025年AI客服机器人推荐:核心能力与实际场景应用分析
据《2024年全球客户服务机器人行业研究报告》预测,2025年全球AI客服机器人市场规模将超500亿美元,年复合增长率达25%以上。文章分析了主流AI客服机器人,如合力亿捷等服务商的核心功能、适用场景及差异化优势,并提出选型标准,包括自然语言处理能力、机器学习能力、多模态交互能力等技术层面考量,以及行业适配性、集成能力、数据安全、可定制化程度和成本效益等企业维度评估。
59 12
【01】人形机器人研究试验-被有些网友痛骂“工业垃圾”“人工智障”上春晚的人形AI机器人-宇树科技机器人到底怎么样??-本系列优雅草卓伊凡亲自尝试下人形机器人的制造-从0开始学习并且制作机器人-可以跟随卓伊凡
【01】人形机器人研究试验-被有些网友痛骂“工业垃圾”“人工智障”上春晚的人形AI机器人-宇树科技机器人到底怎么样??-本系列优雅草卓伊凡亲自尝试下人形机器人的制造-从0开始学习并且制作机器人-可以跟随卓伊凡
69 1
【01】人形机器人研究试验-被有些网友痛骂“工业垃圾”“人工智障”上春晚的人形AI机器人-宇树科技机器人到底怎么样??-本系列优雅草卓伊凡亲自尝试下人形机器人的制造-从0开始学习并且制作机器人-可以跟随卓伊凡
ToddlerBot:告别百万经费!6000刀就能造人形机器人,斯坦福开源全套方案普及机器人研究
ToddlerBot 是斯坦福大学推出的低成本开源人形机器人平台,支持强化学习、模仿学习和零样本模拟到现实转移,适用于运动操作研究和多场景应用。
84 3
ToddlerBot:告别百万经费!6000刀就能造人形机器人,斯坦福开源全套方案普及机器人研究
九牧的“AI梦想曲”:卫浴场景进入到机器人时代
十年后的卫浴空间将不再仅仅是功能性场所,而是进化为个性化健康管理中枢。据DeepSeek预测,未来卫浴将引入全自动清洁与管理机器人、个性化健康管家等智能设备,成为家庭中的“第四生活伙伴”。九牧集团等企业已开始布局这一领域,启动AI马桶与家用机器人产业园建设,致力于打造智能卫浴产品,如机器人洗澡机、健康马桶等。这些创新不仅提升了用户体验,还标志着卫浴行业正迈向AI与机器人新时代,引领全球制造业变革。
LazyLLM:还在为AI应用开发掉头发?商汤开源智能体低代码开发工具,三行代码部署聊天机器人
LazyLLM 是一个低代码开发平台,可帮助开发者快速构建多智能体大语言模型应用,支持一键部署、跨平台操作和多种复杂功能。
72 3
Magma:微软放大招!新型多模态AI能看懂视频+浏览网页+UI交互+控制机器人,数字世界到物理现实无缝衔接
Magma 是微软研究院开发的多模态AI基础模型,结合语言、空间和时间智能,能够处理图像、视频和文本等多模态输入,适用于UI导航、机器人操作和复杂任务规划。
121 2
DynamicCity:上海AI Lab开源4D场景神器助力自动驾驶场景!128帧动态LiDAR生成,1:1还原城市早晚高峰
DynamicCity 是上海 AI Lab 推出的 4D 动态场景生成框架,专注于生成具有语义信息的大规模动态 LiDAR 场景,适用于自动驾驶、机器人导航和交通流量分析等多种应用场景。
42 1
从零开始即刻拥有 DeepSeek-R1 满血版并使用 Dify 部署 AI 应用
本文介绍了如何使用阿里云提供的DeepSeek-R1大模型解决方案,通过Chatbox和Dify平台调用百炼API,实现稳定且高效的模型应用。首先,文章详细描述了如何通过Chatbox配置API并开始对话,适合普通用户快速上手。接着,深入探讨了使用Dify部署AI应用的过程,包括选购云服务器、安装Dify、配置对接DeepSeek-R1模型及创建工作流,展示了更复杂场景下的应用潜力。最后,对比了Chatbox与Dify的输出效果,证明Dify能提供更详尽、精准的回复。总结指出,阿里云的解决方案不仅操作简便,还为专业用户提供了强大的功能支持,极大提升了用户体验和应用效率。
879 19
从零开始即刻拥有 DeepSeek-R1 满血版并使用 Dify 部署 AI 应用

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等