全球首个自回归视频-动作世界模型，LingBot-VA 正式开源！

2026-01-30 858

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 蚂蚁灵波团队推出具身世界模型LingBot-VA，首创自回归视频-动作一体化建模框架，实现“边推演、边行动”。它融合视频生成与机器人控制，具备长时序记忆与少样本学习能力，在真实机器人任务中成功率较Pi0.5提升20%，仿真基准刷新SOTA。已全面开源。

继本周 LingBot-Depth、LingBot-VLA 及 LingBot-World 相继开源引爆社交网络后，今天，蚂蚁灵波团队为大家奉上本次「蚂蚁灵波开源周」的收官之作：具身世界模型 LingBot-VA。

传统的机器人学习范式，如模仿学习，往往需要大量的、与特定任务紧密耦合的“状态-动作”数据对，这使得模型难以泛化到新的任务和场景。而如 LingBot-World 的世界模型的出现，为解决这一问题提供了新的可能性。它通过在仿真或真实数据中学习世界的动态规律，构建一个可预测的“内部世界”。

然而，如何将世界模型的“预测”能力，高效、可靠地转化为机器人在物理世界中的“行动”能力，一直是具身智能领域的核心挑战。LingBot-VA 的设计，正是为了打通这条从“看懂世界”到“改变世界”的路径 ——

LingBot-VA 首次提出自回归视频-动作世界建模框架，将大规模视频生成模型的能力与机器人控制深度融合，模型在生成“下一步世界状态”的同时，直接推演并输出对应的动作序列，使机器人能够像人一样“边推演、边行动”，真正将世界模型的预测能力转化为物理世界的行动能力。

在多项真实机器人评测中，LingBot-VA 展现出对复杂物理交互的强适应能力，在成功率上显著超越了业界优秀的基线模型。

技术路线：为什么选择自回归视频模型？

团队观察到，自回归视频模型在处理时序信息时，展现出两大关键优势：长期记忆能力与少样本快速学习能力。这为机器人学习提供了一条极具潜力的新路径。

长时序一致性与记忆能力

在处理包含重复状态的复杂任务时（例如，在一个任务流中需要先后两次与同一个物体交互），传统模型往往会因为无法区分相似的状态而“迷失”，陷入循环或做出错误决策。LingBot-VA 则能够记忆完整的历史信息，从而精确理解当前的上下文，做出正确的判断。

团队使用一个需要机器人执行以下操作的任务进行测试：打开右边的盒子，关闭它，然后打开左边的盒子。右边的盒子在打开前和关闭后看起来完全一样，形成了循环状态。没有记忆的话，π0.5 无法区分这些状态，会陷入循环。蚂蚁灵波的模型记住完整历史，能够正确完成任务。

📎0bc3imabyaaapaaoez33rbuvaq6ddrbqahaa.f10002.mp4

动作陷入循环的π0.5

📎0bc3baacqaaaneannhl3ufuvacgdfaeaakaa.f10002.mp4

正确完成任务的 LingBot-VA

少样本快速学习

视频模型在适应新任务时表现出卓越的数据效率。仅需少量演示，模型就能快速调整其预测以匹配目标行为。这种少样本能力大大减少了在新场景部署机器人时的数据收集负担，使实际部署更加便捷。

正是基于这些观察，团队决定探索一条“世界模型赋能具身操作”的全新路径，其核心便是 LingBot-VA 所代表的视频-动作一体化建模。

技术架构：视频-动作一体化建模

LingBot-VA 的核心思想，是构建一个统一的、自回归的视频-动作生成模型。在每一个时间步，模型不仅要根据历史信息预测出下一帧的视频画面（Video），还要同步生成驱动机器人执行该画面的动作指令（Action）。

核心架构与机制

Mixture-of-Transformers (MoT) 架构：采用了 MoT 架构，实现视频处理与动作控制两种模态的深度融合与协同处理。
闭环推演机制：为了避免模型在连续生成中偏离物理现实（即“幻觉”），LingBot-VA 在每一步生成时，都会将真实世界传感器（如摄像头）的实时反馈纳入考量，形成一个“预测-执行-感知-修正”的闭环，确保持续生成的画面与动作始终与物理现实对齐。
异步推理与持久化：为了突破大规模视频模型在机器人端侧部署的算力瓶颈，团队设计了异步推理管线，将动作预测与电机执行并行化处理。同时，引入基于记忆缓存的持久化机制与噪声历史增强策略，使得模型在推理时仅需更少的生成步骤，即可输出稳定、精确的动作指令。

这一系列设计，使得 LingBot-VA 在拥有大模型深刻理解能力的同时，也具备了在真实机器人上进行低延迟控制的响应速度。

真实与仿真环境下的性能表现

团队在多项高难度任务中，对 LingBot-VA 的性能进行了验证。

在多项真实机器人评测中，LingBot-VA 展现出对复杂物理交互的强适应能力。面对长时序任务（制作早餐、拾取螺丝）、高精度任务（插入试管、拆快递）以及柔性与关节物体操控（叠衣物、叠裤子）这三大类六项高难度挑战，仅需 30~50 条真机演示数据即可完成适配，且任务成功率相较业界强基线 Pi0.5 平均提升20%。