WorldScore：斯坦福开源世界生成模型评估新标杆：3000样本+九维指标，视频/4D/3D模型一网打尽

2025-04-04 988

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： WorldScore是斯坦福大学提出的首个统一评估世界生成模型的基准测试，通过基于相机轨迹的布局规范和3000个多样化样本，全面评测生成内容的可控性、质量与动态性。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🎮 「3D生成还在各玩各的？斯坦福祭出评测核弹：3000样本+九维指标，视频/4D/3D模型一网打尽」

大家好，我是蚝油菜花。当其他团队还在用单帧画面评价AI生成质量时，斯坦福AI实验室已经给3D/4D/视频生成模型套上了"统一刑具"！你是否也经历过这些魔幻场景——

👉 测试3D生成模型时，不同团队用不同指标，结果根本没法比
👉 号称"动态场景生成王"的模型，换个相机角度就穿模
👉 看论文指标全是SOTA，实际效果像抽象派行为艺术...

今天要解剖的 WorldScore ，正在终结世界生成模型的"评测战国时代"！这个开源基准测试的三大核心理念：

✅ 跨模态统一：首次实现3D/4D/图像到视频/文本到视频模型的横向对比
✅ 动态追踪：通过相机轨迹规范，让"伪动态"生成无所遁形
✅ 工业级压力测试：3000个样本覆盖室内外、动静态、多风格极端场景

已有团队用它48小时测出某顶会论文模型的视角一致性缺陷，文末附《九维指标拆解手册》——你的生成模型，准备好接受降维打击了吗？

🚀 快速阅读

WorldScore是首个支持多模态世界生成模型统一评估的开源基准测试。

功能：通过相机轨迹规范实现3D/4D/视频生成模型的跨模态可比评测
技术：包含3000个静态/动态样本的数据集，支持可控性/质量/动态性九维评估
创新：提出场景连续性生成任务，破解传统单帧评估的局限性

WorldScore 是什么

WorldScore

WorldScore 是斯坦福大学提出的用于世界生成模型的统一评估基准。将世界生成分解为一系列的下一个场景生成任务，通过明确的基于相机轨迹的布局规范来实现不同方法的统一评估。

该基准创新性地将3D场景生成、4D动态建模、图像到视频(I2V)和文本到视频(T2V)等任务纳入同一评估框架。其核心价值在于解决了传统评估中"指标不可比"的痛点，例如3D生成模型用几何一致性指标，而视频生成模型用帧间连贯性指标的问题。

WorldScore 的主要功能

统一评估框架：支持3D/4D/I2V/T2V模型的横向对比，提供标准化测试流程
动态场景评估：通过"当前场景→相机运动→下一场景"的任务链，验证模型动态生成能力
九维量化指标：包含几何一致性、运动合理性、风格保持等细分维度
极端场景测试：2000个静态样本+1000个动态样本覆盖室内外/多风格场景
工业级压力测试：支持长序列生成评估，最多可测试120帧连续场景

WorldScore 的技术原理

相机轨迹编码：将相机运动参数化为6DoF数据，作为场景生成的强约束条件
多模态适配器：通过共享的特征空间，实现不同模态生成结果的统一度量
动态图谱分析：利用SLAM技术重建生成场景的3D点云，量化几何稳定性
语义一致性检测：基于GroundingDINO模型验证跨帧物体识别一致性
风格迁移评估：使用CLIP空间距离计算生成内容与目标风格的偏离度

如何运行 WorldScore

1. 环境配置

git clone https://github.com/haoyi-duan/WorldScore.git
cd WorldScore
conda create -n worldscore python=3.10
conda activate worldscore
pip install -e .

2. 数据集下载

创建.env文件配置路径后运行：

python download.py

3. 模型评估

单GPU运行：

python worldscore/run_evaluate.py --model_name your_model

多GPU Slurm任务：

python worldscore/run_evaluate.py \
  --model_name your_model \
  --use_slurm True \
  --num_jobs 8 \
  --slurm_partition your_partition

资源

项目主页：https://haoyi-duan.github.io/WorldScore/
GitHub 仓库：https://github.com/haoyi-duan/WorldScore
HuggingFace 数据集：https://huggingface.co/datasets/Howieeeee/WorldScore