WorldScore:斯坦福开源世界生成模型评估新标杆:3000样本+九维指标,视频/4D/3D模型一网打尽

本文涉及的产品
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频通用资源包5000点
简介: WorldScore是斯坦福大学提出的首个统一评估世界生成模型的基准测试,通过基于相机轨迹的布局规范和3000个多样化样本,全面评测生成内容的可控性、质量与动态性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎮 「3D生成还在各玩各的?斯坦福祭出评测核弹:3000样本+九维指标,视频/4D/3D模型一网打尽」

大家好,我是蚝油菜花。当其他团队还在用单帧画面评价AI生成质量时,斯坦福AI实验室已经给3D/4D/视频生成模型套上了"统一刑具"!你是否也经历过这些魔幻场景——

  • 👉 测试3D生成模型时,不同团队用不同指标,结果根本没法比
  • 👉 号称"动态场景生成王"的模型,换个相机角度就穿模
  • 👉 看论文指标全是SOTA,实际效果像抽象派行为艺术...

今天要解剖的 WorldScore ,正在终结世界生成模型的"评测战国时代"!这个开源基准测试的三大核心理念:

  • 跨模态统一:首次实现3D/4D/图像到视频/文本到视频模型的横向对比
  • 动态追踪:通过相机轨迹规范,让"伪动态"生成无所遁形
  • 工业级压力测试:3000个样本覆盖室内外、动静态、多风格极端场景

已有团队用它48小时测出某顶会论文模型的视角一致性缺陷,文末附《九维指标拆解手册》——你的生成模型,准备好接受降维打击了吗?

🚀 快速阅读

WorldScore是首个支持多模态世界生成模型统一评估的开源基准测试。

  1. 功能:通过相机轨迹规范实现3D/4D/视频生成模型的跨模态可比评测
  2. 技术:包含3000个静态/动态样本的数据集,支持可控性/质量/动态性九维评估
  3. 创新:提出场景连续性生成任务,破解传统单帧评估的局限性

WorldScore 是什么

WorldScore

WorldScore 是斯坦福大学提出的用于世界生成模型的统一评估基准。将世界生成分解为一系列的下一个场景生成任务,通过明确的基于相机轨迹的布局规范来实现不同方法的统一评估。

该基准创新性地将3D场景生成、4D动态建模、图像到视频(I2V)和文本到视频(T2V)等任务纳入同一评估框架。其核心价值在于解决了传统评估中"指标不可比"的痛点,例如3D生成模型用几何一致性指标,而视频生成模型用帧间连贯性指标的问题。

WorldScore 的主要功能

  • 统一评估框架:支持3D/4D/I2V/T2V模型的横向对比,提供标准化测试流程
  • 动态场景评估:通过"当前场景→相机运动→下一场景"的任务链,验证模型动态生成能力
  • 九维量化指标:包含几何一致性、运动合理性、风格保持等细分维度
  • 极端场景测试:2000个静态样本+1000个动态样本覆盖室内外/多风格场景
  • 工业级压力测试:支持长序列生成评估,最多可测试120帧连续场景

WorldScore 的技术原理

  • 相机轨迹编码:将相机运动参数化为6DoF数据,作为场景生成的强约束条件
  • 多模态适配器:通过共享的特征空间,实现不同模态生成结果的统一度量
  • 动态图谱分析:利用SLAM技术重建生成场景的3D点云,量化几何稳定性
  • 语义一致性检测:基于GroundingDINO模型验证跨帧物体识别一致性
  • 风格迁移评估:使用CLIP空间距离计算生成内容与目标风格的偏离度

如何运行 WorldScore

1. 环境配置

git clone https://github.com/haoyi-duan/WorldScore.git
cd WorldScore
conda create -n worldscore python=3.10
conda activate worldscore
pip install -e .

2. 数据集下载

创建.env文件配置路径后运行:

python download.py

3. 模型评估

单GPU运行:

python worldscore/run_evaluate.py --model_name your_model

多GPU Slurm任务:

python worldscore/run_evaluate.py \
  --model_name your_model \
  --use_slurm True \
  --num_jobs 8 \
  --slurm_partition your_partition

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
BioMedGPT-R1:生物医药ChatGPT诞生!蒸馏DeepSeek R1突破人类专家水平,分子解析+靶点预测一键搞定
BioMedGPT-R1 是清华大学与水木分子联合开发的多模态生物医药大模型,支持跨模态问答、药物分子理解与靶点挖掘,性能显著提升。
216 5
|
4月前
|
人工智能 测试技术
VideoPhy:UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具,衡量模型生成的视频是否遵循现实世界的物理规则
VideoPhy 是 UCLA 和谷歌联合推出的首个评估视频生成模型物理常识能力的基准测试,旨在衡量模型生成的视频是否遵循现实世界的物理规则。
131 9
VideoPhy:UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具,衡量模型生成的视频是否遵循现实世界的物理规则
|
3月前
|
存储 人工智能 文字识别
MME-CoT:多模态模型推理能力终极评测!六大领域细粒度评估,港中大等机构联合推出
MME-CoT 是由港中文等机构推出的用于评估大型多模态模型链式思维推理能力的基准测试框架,涵盖数学、科学、OCR、逻辑、时空和一般场景等六个领域,提供细粒度的推理质量、鲁棒性和效率评估。
132 0
|
9月前
|
机器学习/深度学习 运维 算法
【阿里天池-医学影像报告异常检测】3 机器学习模型训练及集成学习Baseline开源
本文介绍了一个基于XGBoost、LightGBM和逻辑回归的集成学习模型,用于医学影像报告异常检测任务,并公开了达到0.83+准确率的基线代码。
136 9
|
10月前
|
测试技术
8B尺寸达到GPT-4级性能!北大等提出医疗专家模型训练方法
【7月更文挑战第8天】北京大学等研究者提出的新方法缓解了大模型如Llama-3-8B在持续预训练时的“稳定性差距”,通过多轮次训练、高质量子语料库选择和数据混合策略,提升性能和效率。在医疗领域,他们将OpenLlama-3B性能提升至40.7%,并创建的Llama-3-Physician模型达到GPT-4级别。尽管取得突破,该方法在其他模型和领域的适用性仍需探索,且持续预训练仍资源密集。[链接: https://arxiv.org/abs/2406.14833]
145 25
|
人工智能
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
【4月更文挑战第16天】研究人员集成12个大型语言模型(LLM)组成“硅基群体”,在预测比赛中与925名人类预测者对比。研究发现,LLM群体的预测准确性与人类群体无显著差异,且通过集成可抵消个体模型的偏差,提高预测准确。GPT-4和Claude 2等模型结合人类预测后,准确度提升17%至28%。然而,个别LLM预测精度不一,模型选择和校准度是提升预测性能的关键,同时LLM在时间跨度和现实场景适应性方面仍有挑战。
197 6
MIT等首次深度研究集成LLM预测能力:可媲美人类群体准确率
|
机器学习/深度学习 数据采集 人工智能
ICLR 2024:RLHF有了通用平台和基准,天大开源,专攻现实决策场景
【4月更文挑战第21天】天津大学在ICLR 2024发布RLHF新框架Uni-RLHF,以人类反馈引导强化学习,降低奖励函数设计需求,适应现实决策场景。该框架提供通用平台和基准,支持大规模众包注释,促进研究。尽管面临准确捕捉人类反馈、数据质量和多任务处理等挑战,但开源特性加速了学术进步。[链接](https://arxiv.org/abs/2402.02423)
209 0
|
机器学习/深度学习
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果(2)
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果
250 0
|
机器学习/深度学习 编解码 人工智能
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果(1)
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果
228 0
|
人工智能
从BERT到ChatGPT,百页综述梳理预训练大模型演变史(1)
从BERT到ChatGPT,百页综述梳理预训练大模型演变史
298 0

热门文章

最新文章