世界模型 LingBot-World,正式开源!

简介: 蚂蚁灵波团队开源世界模型LingBot-World,专为交互式仿真设计。其核心LingBot-World-Base具备高保真、强动态、长时序一致性(支持近10分钟稳定生成)和实时交互能力(≈16FPS,延迟<1秒),依托可扩展数据引擎,从游戏环境学习物理与因果规律,打造具身智能、自动驾驶等领域的“数字演练场”。

继高精度空间感知模型 LingBot-Depth 与具身大模型 LingBot-VLA 后,今天,蚂蚁灵波团队正式开源世界模型 LingBot-World。

LingBot-World 是一个专为交互式世界模型设计的开源框架。其核心 LingBot-World-Base 致力于提供高保真、可控制且逻辑一致的模拟环境。该模型由一个可扩展数据引擎(Scalable Data Engine)驱动,通过从大规模游戏环境中学习物理规律与因果关系,实现了与生成世界的实时交互。

视频质量、动态程度、长时序一致性与交互能力等关键指标上,LingBot-World 均展现出业界领先的性能。团队希望为具身智能、自动驾驶及游戏开发领域,提供一个高保真、高动态、可实时操控的“数字演练场”。

LingBot-World 在适用场景、生成时长、动态程度、分辨率等方面均处于业界顶尖水平


直面挑战:真实世界交互的高昂成本

具身智能的规模化落地,面临一个核心挑战 —— 复杂长程任务的真机训练数据极度稀缺,在真实世界中获取用于训练的数据,尤其是涉及复杂、长程任务的数据,成本极高且充满不确定性。

世界模型(World Model)为这一困境提供了解决方案。它能够在数字世界中构建一个与物理世界规律一致的仿真环境,让智能体在其中进行低成本、高效率的“演练”与“试错”。通过在仿真环境中学习,智能体能够理解行为与结果之间的因果关系,从而将在虚拟世界习得的经验,迁移并应用于真实世界的任务中。

LingBot-World核心技术特性

LingBot-World 的设计初衷,正是为了打造这样一个足够真实、可交互、可泛化的“数字演练场”。为此,团队围绕几个核心技术方向进行了深入探索。

长时序一致性与记忆能力

视频生成领域普遍存在“长时漂移”问题,即生成时间一长,便可能出现物体变形、细节塌陷、主体消失或场景结构崩坏等现象。针对这一难题,LingBot-World 通过多阶段训练及并行化加速策略,实现了近 10 分钟的连续稳定无损生成,为长序列、多步骤的复杂任务训练提供了可靠支撑。

📎0bc3rqaa2aaam4alxlt2tfuvbdgdbwgaadia.f10002.mp4

在压力测试中,即便镜头移开长达 60 秒后返回,场景中的核心物体依然能保持其结构与外观的一致性。

高动态环境下,镜头长时间移开后返回,车辆形态外观仍保持一致

镜头长时间移开后返回,房屋仍存在且结构一致

高保真实时交互

LingBot-World 告别了随机的“幻觉”式生成。它支持精细化的、由动作驱动的生成(action-conditioned generation),能够精确响应用户指令,渲染出高质量且符合物理真实感的动态场景。

一个真正可用的“演练场”,必须具备实时交互的能力。LingBot-World 在此方面进行了深度优化,可实现约 16 FPS 的生成吞吐,并将端到端交互延迟控制在 1 秒以内。这意味着,用户可以通过键盘或鼠标实时控制角色与相机视角,画面能够根据指令即时反馈。此外,模型还支持通过文本指令触发环境变化与世界事件,例如调整天气、改变画面风格,并在保持场景几何关系相对一致的前提下完成动态生成。

📎0bc3qqacsaaabaajzdt2kvuvbbgdfgcaakia.f10002.mp4

Zero-shot 泛化与混合数据策略

为解决世界模型训练中高质量交互数据匮乏的问题,团队采用了一种创新的混合数据采集策略。一方面,通过清洗大规模网络视频以覆盖多样化的场景;另一方面,结合游戏采集与虚幻引擎(UE)合成管线,从渲染层直接提取无 UI 干扰的纯净画面,并同步记录下操作指令与相机位姿。这种方式为模型学习“动作如何改变环境”提供了精确对齐的训练信号。

得益于此,LingBot-World 具备了良好的 Zero-shot 泛化能力。仅需输入一张真实的城市街景照片或游戏截图,模型即可生成对应的可交互视频流,无需针对单一场景进行额外训练,显著降低了在不同场景中的部署与使用成本。

📎0bc3dyacwaaakiaj3md2knuvahwdfmpaakya.f10002.mp4

从实验室到真实场景

团队相信,LingBot-World 的价值在于其作为“数字演练场”,凭借长时序一致性(也即记忆能力)、实时交互响应,以及对"动作-环境变化"因果关系的理解,能够在数字世界中"想象"物理世界,从而为智能体的场景理解和长程任务执行提供一个低成本、高保真的试错空间。LingBot-World 支持的场景多样化生成(如光照、摆放位置变化等),也有助于提升具身智能算法在真实场景中的泛化能力。


同时,团队也认识到当前模型存在的局限。例如,高昂的推理成本使其暂时难以在消费级硬件上普及、模型的长期稳定性仍有提升空间、控制的精细度也有待进一步加强。这些将是未来持续努力的方向。


目前,LingBot-World 模型权重及推理代码已全面开源,欢迎大家访问开源仓库。

Website:

https://technology.robbyant.com/lingbot-world

Model:

https://www.modelscope.cn/collections/Robbyant/LingBot-world

https://huggingface.co/collections/robbyant/lingbot-world

Code:

https://github.com/Robbyant/lingbot-world

Tech Report:

https://github.com/robbyant/lingbot-world/blob/main/LingBot_World_paper.pdf

随着 LingBot 系列多款核心模型的陆续开源,团队正在逐步构建起面向具身智能的技术基座。团队希望通过开源开放,与全球开发者、研究者、产业伙伴一起,共同探索具身智能的上限。也请大家继续关注「蚂蚁灵波开源周」明日的最后一个发布,蚂蚁灵波团队将继续为社区奉上诚意满满的前沿成果。


点击即可跳转模型链接

https://www.modelscope.cn/collections/Robbyant/LingBot-world

目录
相关文章
|
2月前
|
人工智能 API 调度
别再只依赖 ChatGPT 了:多模型协同,才是 AI 项目走向生产的关键一步
本文剖析AI项目落地困局:ChatGPT Agent类应用用户流失率超70%,根源不在模型不够强,而在于单模型架构难以支撑生产环境——稳定性差、成本高、难治理。文章从数据冲击、痛点直击等五维度论证,提出“多模型协同”是破局关键:按场景选模、统一调度、动态兜底,构建可控、可替换、可长期运行的AI系统架构。
|
3月前
|
传感器 缓存 机器人
全球首个自回归视频-动作世界模型,LingBot-VA 正式开源!
蚂蚁灵波团队推出具身世界模型LingBot-VA,首创自回归视频-动作一体化建模框架,实现“边推演、边行动”。它融合视频生成与机器人控制,具备长时序记忆与少样本学习能力,在真实机器人任务中成功率较Pi0.5提升20%,仿真基准刷新SOTA。已全面开源。
534 1
 全球首个自回归视频-动作世界模型,LingBot-VA 正式开源!
|
3月前
|
机器人 数据挖掘 数据处理
LingBot-VLA 具身大模型全面开源
蚂蚁灵波团队开源具身大模型LingBot-VLA:在GM-100真机评测中跨本体成功率提升至17.3%(+4.3%),RoboTwin 2.0仿真任务成功率超Pi0.5达9.92%;基于20,000小时多构型真机数据预训练,支持高效微调与跨平台迁移,代码、模型、数据、基准全开源。(239字)
609 0
LingBot-VLA 具身大模型全面开源
|
3月前
|
机器学习/深度学习 人工智能 物联网
Z Image标准版来了!专为微调而生的全能基座,兼顾真实与艺术!
Z-Image标准版正式开源!作为非蒸馏完整模型,它在生成质量、艺术风格多样性(支持动漫/插画等)、微调友好性(LoRA/ControlNet)、CFG精确控制及生成独特性方面全面升级,是开发者定制化图像生成的理想基座。
1134 5
|
3月前
|
人工智能 文字识别 安全
目前最火的 AI 助手 Clawdbot 又又又改名了 并且发布新版本
OpenClaw(原Clawdbot/Moltbot)是火爆开源AI助手,支持飞书、WhatsApp、Telegram等20+平台,数据全本地、可调OCR/数据库/Shell命令。新版本新增Twitch等渠道、KIMI等模型及图片交互,安全强化升级。GitHub星标超10万!
3683 1
|
人工智能 安全 机器人
OpenClaw(原 Clawdbot)钉钉对接保姆级教程 手把手教你打造自己的 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI助手,支持钉钉、飞书等多平台接入。本教程手把手指导Linux下部署与钉钉机器人对接,涵盖环境配置、模型选择(如Qwen)、权限设置及调试,助你快速打造私有、安全、高权限的专属AI助理。(239字)
37905 184
|
3月前
|
人工智能 机器人 Linux
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
OpenClaw(原Clawdbot)是一款开源本地AI智能体,支持飞书等多平台对接。本教程手把手教你Linux下部署,实现数据私有、系统控制、网页浏览与代码编写,全程保姆级操作,240字内搞定专属AI助手搭建!
10406 24
保姆级 OpenClaw (原 Clawdbot)飞书对接教程 手把手教你搭建 AI 助手
|
2月前
|
JSON 文字识别 API
百度文心开源0.9B参数 PaddleOCR-VL-1.5,全球首个支持异形框定位的文档解析模型!
百度文心开源新一代文档解析模型PaddleOCR-VL-1.5:仅0.9B参数,在OmniDocBench v1.5达94.5%精度,全球首个支持异形框定位,精准识别倾斜、弯折、反光等“歪文档”,集成印章识别、多语种(含藏语/孟加拉语)及古籍解析能力,推理速度超MinerU2.5达43%。(239字)
818 2
|
3月前
|
自然语言处理 物联网 计算机视觉
从 Image-to-LoRA 到 In-Context Edit
阿里发布Qwen-Image-Edit-2511-ICEdit-LoRA模型,通过上下文内编辑技术,利用“编辑前后图像对”实现图像编辑能力迁移。该模型仅需少量样本即可训练,支持风格、光照、表情等复杂编辑,并可拓展至图像分割等视觉任务,未来将持续优化与应用探索。
625 6

热门文章

最新文章