全球首个自回归视频-动作世界模型,LingBot-VA 正式开源!

简介: 蚂蚁灵波团队推出具身世界模型LingBot-VA,首创自回归视频-动作一体化建模框架,实现“边推演、边行动”。它融合视频生成与机器人控制,具备长时序记忆与少样本学习能力,在真实机器人任务中成功率较Pi0.5提升20%,仿真基准刷新SOTA。已全面开源。

继本周 LingBot-Depth、LingBot-VLA 及 LingBot-World 相继开源引爆社交网络后,今天,蚂蚁灵波团队为大家奉上本次「蚂蚁灵波开源周」的收官之作:具身世界模型 LingBot-VA。


传统的机器人学习范式,如模仿学习,往往需要大量的、与特定任务紧密耦合的“状态-动作”数据对,这使得模型难以泛化到新的任务和场景。而如 LingBot-World 的世界模型的出现,为解决这一问题提供了新的可能性。它通过在仿真或真实数据中学习世界的动态规律,构建一个可预测的“内部世界”。


然而,如何将世界模型的“预测”能力,高效、可靠地转化为机器人在物理世界中的“行动”能力,一直是具身智能领域的核心挑战。LingBot-VA 的设计,正是为了打通这条从“看懂世界”到“改变世界”的路径 ——


LingBot-VA 首次提出自回归视频-动作世界建模框架,将大规模视频生成模型的能力与机器人控制深度融合,模型在生成“下一步世界状态”的同时,直接推演并输出对应的动作序列,使机器人能够像人一样“边推演、边行动”,真正将世界模型的预测能力转化为物理世界的行动能力。


在多项真实机器人评测中,LingBot-VA 展现出对复杂物理交互的强适应能力,在成功率上显著超越了业界优秀的基线模型。

技术路线:为什么选择自回归视频模型?

团队观察到,自回归视频模型在处理时序信息时,展现出两大关键优势:长期记忆能力与少样本快速学习能力。这为机器人学习提供了一条极具潜力的新路径。


长时序一致性与记忆能力

在处理包含重复状态的复杂任务时(例如,在一个任务流中需要先后两次与同一个物体交互),传统模型往往会因为无法区分相似的状态而“迷失”,陷入循环或做出错误决策。LingBot-VA 则能够记忆完整的历史信息,从而精确理解当前的上下文,做出正确的判断。


团队使用一个需要机器人执行以下操作的任务进行测试:打开右边的盒子,关闭它,然后打开左边的盒子。右边的盒子在打开前和关闭后看起来完全一样,形成了循环状态。没有记忆的话,π0.5 无法区分这些状态,会陷入循环。蚂蚁灵波的模型记住完整历史,能够正确完成任务。

📎0bc3imabyaaapaaoez33rbuvaq6ddrbqahaa.f10002.mp4

动作陷入循环的π0.5

📎0bc3baacqaaaneannhl3ufuvacgdfaeaakaa.f10002.mp4

正确完成任务的 LingBot-VA

少样本快速学习

视频模型在适应新任务时表现出卓越的数据效率。仅需少量演示,模型就能快速调整其预测以匹配目标行为。这种少样本能力大大减少了在新场景部署机器人时的数据收集负担,使实际部署更加便捷。

正是基于这些观察,团队决定探索一条“世界模型赋能具身操作”的全新路径,其核心便是 LingBot-VA 所代表的视频-动作一体化建模。


技术架构:视频-动作一体化建模

LingBot-VA 的核心思想,是构建一个统一的、自回归的视频-动作生成模型。在每一个时间步,模型不仅要根据历史信息预测出下一帧的视频画面(Video),还要同步生成驱动机器人执行该画面的动作指令(Action)。

核心架构与机制

  • Mixture-of-Transformers (MoT) 架构:采用了 MoT 架构,实现视频处理与动作控制两种模态的深度融合与协同处理。
  • 闭环推演机制:为了避免模型在连续生成中偏离物理现实(即“幻觉”),LingBot-VA 在每一步生成时,都会将真实世界传感器(如摄像头)的实时反馈纳入考量,形成一个“预测-执行-感知-修正”的闭环,确保持续生成的画面与动作始终与物理现实对齐。
  • 异步推理与持久化:为了突破大规模视频模型在机器人端侧部署的算力瓶颈,团队设计了异步推理管线,将动作预测与电机执行并行化处理。同时,引入基于记忆缓存的持久化机制与噪声历史增强策略,使得模型在推理时仅需更少的生成步骤,即可输出稳定、精确的动作指令。


这一系列设计,使得 LingBot-VA 在拥有大模型深刻理解能力的同时,也具备了在真实机器人上进行低延迟控制的响应速度。

真实与仿真环境下的性能表现

团队在多项高难度任务中,对 LingBot-VA 的性能进行了验证。

在多项真实机器人评测中,LingBot-VA 展现出对复杂物理交互的强适应能力。面对长时序任务(制作早餐、拾取螺丝)、高精度任务(插入试管、拆快递)以及柔性与关节物体操控(叠衣物、叠裤子)这三大类六项高难度挑战,仅需 30~50 条真机演示数据即可完成适配,且任务成功率相较业界强基线 Pi0.5 平均提升20%。

真机评测中,LingBot-VA在多项高难操作任务上性能超越业界标杆 Pi0.5

真机评测中,LingBot-VA在多项高难操作任务上性能超越业界标杆 Pi0.5

在仿真评测中,LingBot-VA 在高难度双臂协同操作基准 RoboTwin 2.0 上首次将成功率提升至超过 90%,在长时序终身学习基准 LIBERO 上达到 98.5% 平均成功率,均刷新了行业纪录。

LingBot-VA 在 LIBERO 与 RoboTwin 2.0 仿真基准测试中刷新现有SOTA

目前,LingBot-VA 的模型权重、推理代码已全面开源,欢迎大家访问开源仓库。

Website:

https://technology.robbyant.com/lingbot-va

Model:

https://www.modelscope.cn/collections/Robbyant/LingBot-va

https://huggingface.co/collections/robbyant/lingbot-va

Code:

https://github.com/Robbyant/lingbot-va

Tech Report:

https://github.com/Robbyant/lingbot-va/blob/master/LingBot_VA_paper.pdf

承接前几日开源的 LingBot-World(模拟环境)、LingBot-VLA(智能基座)与 LingBot-Depth(空间感知),LingBot-VA 探索出一条“世界模型赋能具身操作”的全新路径。


本次开源周暂告一段落,但探索前沿技术的步伐不会停止。展望未来,期待继续与全球开发者、研究者、产业伙伴一起,探索具身智能的上限,加速构建一个深度融合开源开放、且服务于真实产业场景的 AGI 生态。


点击即可跳转模型链接

https://www.modelscope.cn/collections/Robbyant/LingBot-va

目录
相关文章
|
3月前
|
数据采集 编解码 自动驾驶
世界模型 LingBot-World,正式开源!
蚂蚁灵波团队开源世界模型LingBot-World,专为交互式仿真设计。其核心LingBot-World-Base具备高保真、强动态、长时序一致性(支持近10分钟稳定生成)和实时交互能力(≈16FPS,延迟<1秒),依托可扩展数据引擎,从游戏环境学习物理与因果规律,打造具身智能、自动驾驶等领域的“数字演练场”。
1202 1
|
2月前
|
数据采集 监控 物联网
大模型微调实战——从数据准备到落地部署全流程
本文以7B大模型为例,手把手教你零代码完成办公场景微调:从数据清洗、LoRA轻量训练到效果验证与一键部署,全程无需GPU和编程基础,30分钟快速上手,解决“通用模型不精准、输出不可控”痛点,让大模型真正落地业务。
|
3月前
|
传感器 边缘计算 自动驾驶
蚂蚁正式开源 LingBot-Depth,基于掩码深度建模的新一代空间感知模型
蚂蚁灵波科技开源LingBot-Depth空间感知模型,首创“掩码深度建模”技术,显著提升消费级双目相机对透明、反光物体的深度补全能力。实测精度与覆盖率超越顶级工业相机,支持机器人稳定抓取、4D场景理解,已轻量化部署。
583 3
蚂蚁正式开源 LingBot-Depth,基于掩码深度建模的新一代空间感知模型
|
2月前
|
数据采集 人工智能 达摩院
达摩院开源RynnBrain:首个支持移动操作的具身大脑基础模型
达摩院发布首个可移动操作的具身基础模型RynnBrain,首创时空记忆与物理空间推理能力,支持视频/图像/文本多模态输入及区域、轨迹等具身输出。开源MOE架构RynnBrain-30B-A3B(仅3B激活参数),在16项基准全面SOTA,并推出全新评测集RynnBrain-Bench。
570 8
|
3月前
|
机器人 数据挖掘 数据处理
LingBot-VLA 具身大模型全面开源
蚂蚁灵波团队开源具身大模型LingBot-VLA:在GM-100真机评测中跨本体成功率提升至17.3%(+4.3%),RoboTwin 2.0仿真任务成功率超Pi0.5达9.92%;基于20,000小时多构型真机数据预训练,支持高效微调与跨平台迁移,代码、模型、数据、基准全开源。(239字)
609 0
LingBot-VLA 具身大模型全面开源
|
3月前
|
人工智能 文字识别 安全
目前最火的 AI 助手 Clawdbot 又又又改名了 并且发布新版本
OpenClaw(原Clawdbot/Moltbot)是火爆开源AI助手,支持飞书、WhatsApp、Telegram等20+平台,数据全本地、可调OCR/数据库/Shell命令。新版本新增Twitch等渠道、KIMI等模型及图片交互,安全强化升级。GitHub星标超10万!
3683 1
|
2月前
|
边缘计算 人工智能 物联网
Ultralytics YOLO26来啦!5种尺寸全家桶,速度与精度兼顾
Ultralytics发布YOLO26,系列迄今最先进、易部署的模型,支持分类、检测、分割、姿态估计等多任务。五种尺寸灵活适配边缘设备,CPU推理提速43%,首创无NMS端到端推理,移除DFL提升兼容性,已上架魔搭社区。(239字)
895 14
|
2月前
|
机器学习/深度学习 编解码 JSON
FantasyWorld 正式开源!一次前向传播,同时生成视频与 3D 几何——视频世界模型的新范
高德地图发布「FantasyWorld」——新一代几何一致世界模型,单次前向即可生成高质量视频与3D场景(深度图、点云、相机轨迹),无需后处理或逐场景优化。ICLR 2026录用,WorldScore榜首,已开源代码与模型。
645 6
|
2月前
|
人工智能 API 调度
别再只依赖 ChatGPT 了:多模型协同,才是 AI 项目走向生产的关键一步
本文剖析AI项目落地困局:ChatGPT Agent类应用用户流失率超70%,根源不在模型不够强,而在于单模型架构难以支撑生产环境——稳定性差、成本高、难治理。文章从数据冲击、痛点直击等五维度论证,提出“多模型协同”是破局关键:按场景选模、统一调度、动态兜底,构建可控、可替换、可长期运行的AI系统架构。
|
3月前
|
人工智能 缓存 JavaScript
Laravel12 + Vue3 的免费可商用商业级管理后台 CatchAdmin V5.1.0 发布 新增 AI AGENTS 配置
CatchAdmin V5.1.0发布!基于Laravel 12 + Vue3的免费可商用企业级后台,新增AI AGENTS配置、系统缓存命令,优化首屏加载(2~3s)、多语言切换与打包分包,内置权限、代码生成、文件管理等全功能模块。
258 4
Laravel12 + Vue3 的免费可商用商业级管理后台 CatchAdmin V5.1.0 发布 新增 AI AGENTS 配置

热门文章

最新文章