Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%

简介: Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型,结合视觉预测与动作执行,显著提升机器人任务成功率。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:Seer 结合视觉预测与动作执行,显著提升机器人任务成功率。
  2. 技术:基于 Transformer 架构,融合多模态数据,实现高效的动作预测与视觉预测。
  3. 应用:广泛应用于工业自动化、服务机器人、医疗健康等领域。

正文(附运行示例)

Seer 是什么

seer

Seer 是由上海 AI 实验室、北京大学计算机科学与技术学院、北京大学软件与微电子学院等机构联合推出的端到端操作模型。该模型通过结合历史信息和目标信号(如语言指令),预测未来时刻的状态,并利用逆动力学模型生成动作信号。

Seer 基于 Transformer 架构,能够处理多模态输入数据,有效融合视觉、语言和机器人本体信号。在真实机器人任务中,Seer 的操作成功率较当前 Sota 提升 43%,且在多种复杂场景下表现出优异的泛化能力。在控制算法测试基准 CALVIN ABC-D Benchmark 中,Seer 的平均任务完成长度达 4.28,综合领先同类模型。

Seer 的主要功能

  • 动作预测:根据当前的视觉状态和目标,预测出合适的机器人动作。基于逆动力学模型估计实现目标所需的中间动作序列。
  • 视觉预测:Seer 具备条件视觉预测功能,能预测未来一定时间步内的 RGB 图像,让机器人“预见”未来的视觉状态,更好地规划和调整动作。
  • 多模态融合:融合视觉、语言和机器人状态等多种模态的信息,实现对复杂任务的理解和执行。基于多模态编码器将不同模态的特征进行整合,为动作预测和视觉预测提供全面的上下文信息。
  • 泛化能力:经过在大规模机器人数据集上的预训练,Seer 展现出强大的泛化能力,在未见场景、新物体、不同光照条件下以及面对高强度干扰时,依然保持稳定的性能。
  • 数据效率:Seer 在预训练阶段用大量数据学习到丰富的先验知识,因此在下游任务中仅需要少量的微调数据即可达到较好的性能,降低数据采集和标注的成本。

Seer 的技术原理

  • 端到端架构:基于端到端的架构设计,将视觉预测和逆动力学预测紧密结合在一起。在训练过程中,视觉预测模块和逆动力学模块协同优化,让模型能充分利用视觉和动作信息,实现更准确的动作预测。
  • Transformer 架构:基于 Transformer 架构处理视觉状态和动作信息。Transformer 能捕捉到视觉和动作序列中的复杂依赖关系,为模型提供强大的特征提取和表示能力。
  • 先见令牌和动作令牌:Seer 引入先见令牌(foresight token)和动作令牌(action token)。先见令牌预测未来的 RGB 图像,动作令牌估计当前和预测未来观察之间的中间动作。两个令牌基于多模态编码器与输入的 RGB 图像、机器人状态和语言令牌进行融合,用单向注意力掩码实现深度的信息整合。
  • 单向注意力掩码:Seer 设计特殊的单向注意力掩码,让动作令牌充分整合过去和未来的预测信息,有助于模型在多层网络中实现更深层次的信息融合,提高动作预测的准确性和鲁棒性。
  • 大规模预训练与微调:Seer 首先在大规模机器人数据集(如 DROID)上进行预训练,学习到丰富的视觉和动作先验知识。在下游任务中,基于少量的微调数据对模型进行调整,适应具体的任务场景和目标。

如何运行 Seer

仿真环境运行

CALVIN ABC-D

  1. 安装:按照 CALVIN ABC-D 安装指南 进行环境配置。
  2. 运行代码:根据 CALVIN ABC-D 运行指南 运行仿真代码。

真实世界实验

快速训练(有/无预训练)

  1. 安装:按照 真实世界安装指南 进行环境配置。
  2. 后处理:根据 真实世界后处理指南 进行数据后处理。
  3. 微调与从头训练:按照 真实世界微调与从头训练指南 进行模型训练。
  4. 推理:根据 真实世界推理指南 进行模型推理。

预训练

  1. 安装:按照 真实世界安装指南 进行环境配置。
  2. 预处理:根据 真实世界预处理指南 进行数据预处理。
  3. 预训练:按照 真实世界预训练指南 进行模型预训练。

资源

CALVIN ABC-D

真实世界实验

快速训练(有/无预训练)

预训练


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8月前
|
人工智能 监控 算法
人群计数、行人检测数据集(9000张图片已划分、已标注) | AI训练适用于目标检测任务
本数据集包含9000张已标注、已划分的行人图像,适用于人群计数与目标检测任务。支持YOLO等主流框架,涵盖街道、商场等多种场景,标注精准,结构清晰,助力AI开发者快速训练高精度模型,应用于智慧安防、人流统计等场景。
人群计数、行人检测数据集(9000张图片已划分、已标注) | AI训练适用于目标检测任务
|
10月前
|
人工智能 文字识别 安全
【WAIC 2025】AI安全的攻防前线:合合信息AI鉴伪检测技术
本文记录了作者在WAIC 2025上对合合信息AI图像鉴伪技术的深度探访,涵盖人脸视频篡改检测、AIGC图像识别、文档篡改检测三大核心技术,探讨AI时代内容安全的挑战与产业落地实践,展现图像伪造检测从技术到生态的系统化演进。
709 0
|
8月前
|
机器学习/深度学习 人工智能 算法
用于实验室智能识别的目标检测数据集(2500张图片已划分、已标注) | AI训练适用于目标检测任务
本数据集包含2500张已标注实验室设备图片,涵盖空调、灭火器、显示器等10类常见设备,适用于YOLO等目标检测模型训练。数据多样、标注规范,支持智能巡检、设备管理与科研教学,助力AI赋能智慧实验室建设。
用于实验室智能识别的目标检测数据集(2500张图片已划分、已标注) | AI训练适用于目标检测任务
|
8月前
|
机器学习/深度学习 人工智能 监控
面向智慧牧场的牛行为识别数据集(5000张图片已划分、已标注) | AI训练适用于目标检测任务
本数据集包含5000张已标注牛行为图片,涵盖卧、站立、行走三类,适用于YOLO等目标检测模型训练。数据划分清晰,标注规范,场景多样,助力智慧牧场、健康监测与AI科研。
面向智慧牧场的牛行为识别数据集(5000张图片已划分、已标注) | AI训练适用于目标检测任务
|
9月前
|
人工智能 机器人 Serverless
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
当云计算遇见具身智能,AI咖啡开启零售新体验。用户通过手机生成个性化图像,云端AI快速渲染,机器人精准复刻于咖啡奶泡之上,90秒内完成一杯可饮用的艺术品。该方案融合阿里云FunctionAI生图能力与安诺机器人高精度执行系统,实现AIGC创意到实体呈现的闭环,为线下零售提供低成本、高互动、易部署的智能化升级路径,已在商场、机场、展馆等场景落地应用。
安诺机器人 X 阿里云函数计算 AI 咖啡印花解决方案
|
9月前
|
人工智能 Java 机器人
基于Spring AI Alibaba + Spring Boot + Ollama搭建本地AI对话机器人API
Spring AI Alibaba集成Ollama,基于Java构建本地大模型应用,支持流式对话、knife4j接口可视化,实现高隐私、免API密钥的离线AI服务。
7072 2
基于Spring AI Alibaba + Spring Boot + Ollama搭建本地AI对话机器人API
|
9月前
|
机器学习/深度学习 人工智能 机器人
AI Compass前沿速览:Nano Bananary、MCP Registry、通义DeepResearch 、VoxCPM、InternVLA·M1具身机器人
AI Compass前沿速览:Nano Bananary、MCP Registry、通义DeepResearch 、VoxCPM、InternVLA·M1具身机器人
|
8月前
|
人工智能 文字识别 自然语言处理
从“看见”到“预见”:合合信息“多模态文本智能技术”如何引爆AI下一场革命。
近期,在第八届中国模式识别与计算机视觉学术会议(PRCV 2025)上,合合信息作为承办方举办了“多模态文本智能大模型前沿技术与应用”论坛,汇聚了学术界的顶尖智慧,更抛出了一颗重磅“炸弹”——“多模态文本智能技术”概念。
337 1
|
9月前
|
数据采集 人工智能 JSON
学会“读网页”:生成式 AI 在足球赛事信息整理中的实战
本文介绍了一个足球比赛信息提取教程,利用生成式AI从ESPN、虎扑、腾讯体育等网站抓取比赛报道,抽取比分、关键事件和球员表现等信息。步骤包括采集、清洗、分块、调用LLM抽取、校验与落地,以及可视化。需要准备Python环境、安装依赖库,并遵循合规性。提供了示例代码,演示如何从网页抓取文本并调用LLM接口获得结构化输出。
1528 3

热门文章

最新文章