FantasyWorld 正式开源!一次前向传播,同时生成视频与 3D 几何——视频世界模型的新范

简介: 高德地图发布「FantasyWorld」——新一代几何一致世界模型,单次前向即可生成高质量视频与3D场景(深度图、点云、相机轨迹),无需后处理或逐场景优化。ICLR 2026录用,WorldScore榜首,已开源代码与模型。

日前,高德地图在扫街榜发布会上正式亮相了「飞行街景」以及背后使用的新一代几何一致的世界模型「FantasyWorld」。 FantasyWorld 是一个统一的前馈式世界模型框架,能够在单次前向传播中同时生成高质量视频和几何一致的 3D 场景信息——不需要逐场景优化,不需要后处理,输入一张图片和相机轨迹,一步到位。该工作已被ICLR 2026 收录,WorldScore 排行榜第一名。


FantasyWorld 项目正式开源,代码与模型权重现已全面开放!


开源链接

📄 论文:http://arxiv.org/abs/2509.21657

🌐 项目主页:http://fantasy-amap.github.io/fantasy-world

💻 GitHub:http://github.com/Fantasy-AMAP/fantasy-world

🤖 ModelScope:

  • FantasyWorld-Wan2.1-I2V-14B-480P:
    https://www.modelscope.cn/models/amap_cvlab/FantasyWorld-Wan2.1-I2V-14B-480P

  • World-Wan2.2-Fun-A14B-Control-Camera:https://www.modelscope.cn/models/amap_cvlab/FantasyWorld-Wan2.2-Fun-A14B-Control-Camera


当前的视频生成模型(如 Sora、Wan 系列等)已经能生成极为逼真的视频内容,但它们有一个核心缺陷:缺乏空间一致性。视频看起来漂亮,但其中隐含的 3D 几何结构往往是混乱的——相机运动时物体会"漂移",深度关系不稳定,无法直接用于需要精确空间理解的下游任务,比如具身智能导航、新视角合成、XR 内容创作等。


传统的解决思路通常有两条路径:要么在生成后做昂贵的逐场景优化(Per-scene Optimization),要么训练独立的 3D 重建模型再与视频拼接。前者推理成本高,后者两套系统难以协同。


FantasyWorld 提出了第三条路:直接在视频生成模型内部注入 3D 几何推理能力,让视频生成和 3D 重建在同一个网络中联合完成,实现真正的"一体化"。


核心架构解析

FantasyWorld 的整体架构可以拆解为三个关键设计:

1. 预调节模块(Preconditioning Blocks, PCBs)

PCBs 是 FantasyWorld 的"前端"组件。它的核心思想是:复用冻结的 WanDiT 去噪器,对输入的噪声隐变量进行"预处理",产出部分去噪后的隐变量,供后续几何分支使用。


为什么需要这一步?因为如果直接让几何分支在纯噪声上操作,网络很难学到有意义的特征。PCBs 确保了几何路径始终在有信息含量的特征空间中工作,而不是在随机噪声上"空转"。


2. 重建生成一体化模块(IRG Blocks)

IRG 模块是 FantasyWorld 的核心骨干网络,采用非对称双分支结构

  • 想象先验分支(Imagination Prior Branch):负责视频外观合成,继承视频生成模型的强大先验知识,生成高保真的视觉内容。
  • 几何一致性分支(Geometry-Consistent Branch):负责显式的 3D 推理,包括逐帧深度估计、点云生成和相机轨迹预测。


两个分支之间通过 轻量级适配器 双向交叉注意力机制 进行信息耦合:视频分支为几何分支提供丰富的视觉上下文,几何分支则反过来用空间约束"校准"视频生成,避免几何上的不一致。


3. 两阶段训练策略

FantasyWorld 的训练分为两个阶段:

  • 阶段一(几何预训练):使用 VGGT 风格的模型,单独训练几何分支,学习精确的深度估计、点云重建和相机轨迹回归能力。这一步为后续联合训练打下几何基础。
  • 阶段二(联合生成):将阶段一训练好的几何骨干网络,无缝集成到 Wan 视频生成流程中,端到端联合训练视频生成与 3D 重建。视频生成的先验知识反过来正则化 3D 预测,两者互相促进。


开源核心亮点

Wan2.2 强力驱动,画质全面进化

本次发布了两个版本的模型:

模型版本 特点 适用场景
FantasyWorld-Wan2.1-I2V-14B-480P 严格复现论文配置 学术基准测试、论文结果复现
FantasyWorld-Wan2.2-Fun-A14B-Control-Camera 升级基座 + 更大数据 + 更高分辨率 追求最佳效果的实际应用


Wan2.2 版本在视频质量、时间一致性和相机控制精度上都有显著提升,配合 FantasyWorld 独有的 PCBs 模块,完美继承了 Wan2.2 的高保真画质。

单次前向传播,告别测试时优化

这一点值得反复强调:FantasyWorld 采用纯 Feed-forward 架构。你给模型一张参考图、一段相机轨迹、一句文本提示,它就直接输出时空一致的视频和可用的 3D 几何信息。


不需要像 NeRF/3DGS 那样对每个场景做几十分钟甚至几小时的优化,也不需要额外跑 COLMAP 之类的 SfM 管线。这对实际部署意义重大。


通用 3D 表征,赋能下游任务

FantasyWorld 产出的不仅是视频像素,还包含:

  • 逐帧深度图:密集的深度估计
  • 稠密点云:可直接用于 3D 重建
  • 相机轨迹:精确的相机内外参数

这些几何特征无需微调即可直接服务于多种下游任务,有效填补了视频基础模型在 3D 空间推理上的空白。


WorldScore 排行榜第一名

FantasyWorld 在斯坦福大学李飞飞教授团队推出的 WorldScore 排行榜中荣获第一名,在与全球最先进模型的对比中验证了方法的有效性。同时,论文已被 ICLR 2026 接收。


模型实战

环境安装

# 克隆仓库
git clone https://github.com/Fantasy-AMAP/fantasy-world.git
cd fantasy-world
# 创建环境
conda create -n fantasyworld python=3.10
conda activate fantasyworld
pip install -r requirements.txt
pip install thirdparty/utils3d/


方案一:使用 Wan2.1 版本(论文复现)

下载模型:

pip install modelscope
modelscope download Wan-AI/Wan2.1-I2V-14B-480P \
    --local_dir ./models/Wan-AI/Wan2.1-I2V-14B-480P
modelscope download "amap_cvlab/FantasyWorld-Wan2.1-I2V-14B-480P" \
    --local_dir ./models/FantasyWorld-Wan2.1-I2V-14B-480P/

运行推理:

python inference_wan21.py \
    --wan_ckpt_path ./models/Wan-AI/Wan2.1-I2V-14B-480P \
    --model_ckpt ./models/FantasyWorld-Wan2.1-I2V-14B-480P/model.pth \
    --image_path ./examples/images/input_image.png \
    --camera_json_path ./examples/cameras/camera_data.json \
    --prompt "In the Open Loft Living Room, sunlight streams through large windows, highlighting the sleek fireplace and elegant wooden stairs." \
    --output_dir ./output-wan21 \
    --sample_steps 50 \
    --using_scale True

参数说明:

  • --wan_ckpt_path:Wan 基座模型路径(必填)
  • --model_ckpt:FantasyWorld 权重路径(必填)
  • --image_path:输入参考图片(必填)
  • --camera_json_path:相机轨迹 JSON 文件(必填)
  • --prompt:场景描述文本(必填)
  • --output_dir:输出目录(可选,默认为输入图片所在目录)
  • --sample_steps:采样步数(可选,默认 50)
  • --using_scale:是否启用 scale 归一化(可选,默认 True)


方案二:使用 Wan2.2 版本(最佳性能)

下载模型

pip install modelscope
# 下载基座模型
modelscope download "alibaba-pai/Wan2.2-Fun-A14B-Control-Camera" \
    --local_dir ./models/PAI/Wan2.2-Fun-A14B-Control-Camera
# 下载 Reward LoRA
modelscope download "alibaba-pai/Wan2.2-Fun-Reward-LoRAs" \
    --local_dir ./models/PAI/Wan2.2-Fun-Reward-LoRAs
# 下载 FantasyWorld 权重
modelscope download "acvlab/FantasyWorld-Wan2.2-Fun-A14B-Control-Camera" \
    --local_dir ./models/FantasyWorld-Wan2.2-Fun-A14B-Control-Camera/

运行推理

python inference_wan22.py \
    --image_path ./examples/images/input_image.png \
    --end_image_path ./examples/images/end_image.png \
    --wan_ckpt_path ./models/ \
    --camera_json_path ./examples/cameras/camera_data.json \
    --prompt "In the Open Loft Living Room, sunlight streams through large windows, highlighting the sleek fireplace and elegant wooden stairs." \
    --model_ckpt_high ./models/FantasyWorld-Wan2.2-Fun-A14B-Control-Camera/high_noise_model.pth \
    --model_ckpt_low ./models/FantasyWorld-Wan2.2-Fun-A14B-Control-Camera/low_noise_model.pth \
    --output_dir ./output-wan22 \
    --sample_steps 50 \
    --using_scale True

注意 Wan2.2 版本需要额外提供尾帧图片(--end_image_path),并且使用了高噪声和低噪声两套模型权重(--model_ckpt_high--model_ckpt_low),进一步提升生成质量。

技术意义与应用前景

FantasyWorld 的核心贡献在于 打破了视频生成与 3D 重建之间的壁垒。此前,这两个任务通常由独立的系统分别处理,而 FantasyWorld 首次证明:在一个统一的扩散模型框架下,视频的"外观想象"和"几何推理"不仅可以共存,还能互相增强。

这一范式对以下领域有直接的推动作用:

  • 具身智能:机器人在模拟环境中进行视觉导航时,需要的不仅是"看起来像"的视频,更需要精确的深度和空间关系。FantasyWorld 提供的几何一致视频正好填补了这一需求。
  • 自动驾驶仿真:在驾驶场景中生成几何一致的多视角视频,有望大幅降低仿真数据的构建成本。
  • 新视角合成:从单张图片出发,FantasyWorld 可以沿指定相机轨迹生成新视角,同时输出深度和点云,为后续的 3D 内容创作提供便利。
  • XR/游戏内容生成:对于需要快速构建 3D 场景的应用场景,FantasyWorld 的前馈式架构具有显著的效率优势。


致谢

FantasyWorld 的实现离不开以下优秀的开源项目:Wan、VideoX-Fun、DiffSynth-Studio 和 VGGT。


模型链接:

FantasyWorld-Wan2.1-I2V-14B-480P:

https://www.modelscope.cn/models/amap_cvlab/FantasyWorld-Wan2.1-I2V-14B-480P


World-Wan2.2-Fun-A14B-Control-Camera:https://www.modelscope.cn/models/amap_cvlab/FantasyWorld-Wan2.2-Fun-A14B-Control-Camera


目录
相关文章
|
4月前
|
机器学习/深度学习 人工智能 资源调度
万亿参数、混合线性架构、开源免费——Ring-2.5-1T 来了,思考模型卷到新高度
蚂蚁inclusionAI发布开源万亿参数思考模型Ring-2.5-1T,首创混合线性注意力架构,实现“快、深、长”三大突破:推理吞吐提升3倍+,IMO/CMO达金牌水平,可在Claude Code中连续2小时开发可运行的迷你操作系统。MIT协议完全开源。
642 21
万亿参数、混合线性架构、开源免费——Ring-2.5-1T 来了,思考模型卷到新高度
|
4月前
|
人工智能 算法 测试技术
Boss直聘开源Nanbeige4.1-3B:小模型全能新标杆
Boss直聘南北阁实验室发布Nanbeige4.1-3B:一款仅3B参数的“小而全”统一模型,首次在同规模中系统整合强推理、人类偏好对齐与深度搜索Agent能力,性能超越Qwen3-32B等大模型,已开源权重、技术报告及合成数据。
1390 5
|
4月前
|
机器学习/深度学习 存储 自然语言处理
蚂蚁集团 Ling-2.5-1T 开源:万亿参数,重新定义"又快又强"
Ling-2.5-1T是蚂蚁集团inclusionAI推出的开源即时大模型(MIT协议),以“效率×效果”为核心:万亿参数、63B激活,首创混合线性注意力架构,支持百万token上下文;推理吞吐大幅提升,AIME任务仅需1/3 token即达前沿思考模型水平。ModelScope可下载。
892 4
蚂蚁集团 Ling-2.5-1T 开源:万亿参数,重新定义"又快又强"
|
存储 人工智能 城市大脑
阿里云OpenTrek,七年封装再开放
七年砥砺琢磨的产业智能技术,一朝全部输出。2022阿里云合作伙伴大会上,产业智能OpenTrek平台的“行业数据平台能力”和“行业智能引擎能力”面向合作伙伴全面开放,至此,阿里云补上了产业数字化的又一块关键拼图——OpenTrek。
阿里云OpenTrek,七年封装再开放
|
5月前
|
传感器 缓存 机器人
全球首个自回归视频-动作世界模型,LingBot-VA 正式开源!
蚂蚁灵波团队推出具身世界模型LingBot-VA,首创自回归视频-动作一体化建模框架,实现“边推演、边行动”。它融合视频生成与机器人控制,具备长时序记忆与少样本学习能力,在真实机器人任务中成功率较Pi0.5提升20%,仿真基准刷新SOTA。已全面开源。
817 1
 全球首个自回归视频-动作世界模型,LingBot-VA 正式开源!
|
4月前
|
机器学习/深度学习 人工智能 编解码
四款国产VLM OCR模型横评
春节前,DeepSeek、智谱、百度、腾讯四大团队密集开源新一代OCR小模型,全面采用视觉语言模型(VLM)架构,摒弃传统流水线,迈向“语义结构化”新纪元。DeepSeek-OCR2首创“视觉因果流”,GLM-OCR以0.9B参数登顶OmniDocBench榜首,PaddleOCR-VL-1.5攻克真实退化场景,Youtu-Parsing实现22倍推理加速——国产OCR正以架构创新实现垂直领域“换道超车”。
1002 4
|
3月前
|
机器学习/深度学习 人工智能 文字识别
小红书开源FireRed-OCR,2B 参数登顶文档解析榜单
小红书FireRed团队开源的FireRed-OCR(仅20亿参数),在OmniDocBench v1.5端到端评测中以92.94%综合得分登顶,超越Gemini 3.0 Pro等大模型。专注解决文档解析中的“结构幻觉”问题,通过三阶段训练+格式约束强化学习,精准还原表格、公式、多栏等复杂结构。Apache 2.0协议,ModelScope开源,支持本地商用部署。(239字)
1058 22
|
3月前
|
机器学习/深度学习 算法 安全
打破真题依赖!微软、清华联合开源 X-Coder:全合成数据激发代码大模型推理潜力
微软与清华联合推出X-Coder系列模型,首创纯合成数据训练范式,在不使用任何真实竞赛题的前提下,仅用7B参数即在LiveCodeBench v5上达62.9%准确率,超越更大规模依赖真实数据的模型。项目已开源模型与数据集。(239字)
369 11

热门文章

最新文章