WorldSimBench: 迈向作为世界模拟器的视频生成模型——论文阅读

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,1000CU*H 3个月
简介: WorldSimBench提出了一种新框架,旨在将视频生成模型发展为具备物理理解与动作执行能力的世界模拟器。通过构建层次化评估体系(S0-S3)和HF-Embodied数据集,结合显式感知与隐式操作双重评估,推动具身智能体在Minecraft、自动驾驶和机器人等场景中的真实任务表现。

WorldSimBench: 迈向作为世界模拟器的视频生成模型

Qin Y, Shi Z, Yu J, et al. Worldsimbench: Towards video generation models as world simulators[J]. arXiv preprint arXiv:2410.18072, 2024.

1. 引言与研究背景

在采取行动之前,人类会基于目标和对当前环境的观察进行预测。这些预测以各种形式呈现——文本规划、对未来场景变化的视觉想象,或者甚至是动作层面的潜意识规划。随着生成模型的发展,由这些模型驱动的智能体正在展现出使它们能够通过类人预测完成具身任务的预测能力。

近期预测模型的进展展示了其在预测物体和场景未来状态方面的卓越能力。然而,缺乏基于内在特征的分类继续阻碍着预测模型发展的进程。现有基准测试评估通常专注于通过评估文本输出的任务规划能力,或从美学角度评估视觉输出。然而,这些方法显著限制了对高度具身化预测模型的评估,因为具身场景更关注物理属性(例如透视一致性、物体可破坏性),而这些方法未能有效评估这些属性。

2. 预测模型的层次分类体系

本研究建立了一个合理的预测模型层次体系,基于其具身化程度。从较低到较高阶段,模型能够生成:文本、图像、视频和可操作视频(即可以转换为动作的视频)。值得注意的是,S3阶段能够生成可操作视频的预测模型整合了强大的3D场景理解和物理规则先验,为生成可执行动作提供精确指导。

2.1 层次定义

fig111.png

图1描述:该图展示了预测模型的层次能力结构。左侧显示了从S0到S3的四个阶段,每个阶段对应不同的输出模态和评估基准。中间部分展示了WorldSimBench的双重评估框架,包括显式感知评估和隐式操作评估。右侧展示了三个关键的具身场景:开放式具身环境(显示Minecraft场景)、自动驾驶(显示道路场景)和机器人操作(显示机械臂操作场景)。

具体的层次定义如下:

  • S0阶段(任务定义):预测模型生成文本形式的预测,输入为文本和观察,输出为文本规划
  • S1阶段(预测图像):模型生成单帧图像预测,缺乏时间维度
  • S2阶段(预测视频):模型生成视频序列,但主要关注美学质量
  • S3阶段(世界模拟器):生成遵循物理规则且可转换为动作的视频

3. WorldSimBench评估框架设计

WorldSimBench通过两个互补的方法评估世界模拟器:显式感知评估专注于视觉质量、条件一致性和生成内容的具身性;隐式操作评估通过将视频转换为控制信号来衡量世界模拟器的性能。

3.1 显式感知评估

3.1.1 层次化评估维度

我们为三个具身场景开发了层次化评估维度清单,可分为三个主要方面:

设定评估函数 $E: V \times I \rightarrow \mathbb{R}^d$,其中 $V$ 是视频空间,$I$ 是指令空间,$d$ 是评估维度数量。对于每个维度 $k$,定义评分函数:

$$S_k(v, i) = \sum_{j=1}^{n} w_{kj} \cdot f_{kj}(v, i)$$

其中 $w{kj}$ 是权重,$f{kj}$ 是特征提取函数。

视觉质量评估包括:

  • 美学(Aesthetics, AE):评估构图、颜色、光照
  • 背景一致性(Background Consistency, BC):$C{BC} = 1 - \frac{1}{T-1}\sum{t=1}^{T-1}||Bt - B{t+1}||_2$
  • 前景一致性(Foreground Consistency, FC):$C{FC} = 1 - \frac{1}{T-1}\sum{t=1}^{T-1}||Ft - F{t+1}||_2$

其中 $B_t$ 和 $F_t$ 分别表示时刻 $t$ 的背景和前景特征。

条件一致性评估

  • 指令对齐(Instruction Alignment, IA):$A_{IA} = \text{sim}(E_v(v), E_i(i))$
  • 场景对齐(Scenario Alignment, SA):仅用于OE场景

具身性评估

  • 轨迹合理性(Trajectory, TJ):$T{score} = \exp(-\lambda \cdot D{traj})$
  • 透视性(Perspectivity, PV):评估3D深度感知
  • 具身交互(Embodied Interaction, EI):评估物理交互的合理性

3.1.2 指令提示生成

fig222.png

图2描述:该图展示了显式感知评估的完整流程。顶部显示了指令提示生成过程,包括从互联网收集的大量视频字幕和预定义的具身评估维度,通过GPT扩展并手动验证后创建任务指令提示列表。底部显示了HF-Embodied数据集的生成过程,包括数据生成模型训练和细粒度人工反馈标注。

使用层次化评估维度和来自关键资源的大量视频字幕,创建了一个基础但全面的提示列表。利用大语言模型(如ChatGPT)的知识来扩展元提示的范围。经过相关性、多样性和数据分布的人工筛选后,编译了任务指令提示列表。

3.2 隐式操作评估

隐式操作评估将世界模拟器视为情境上下文的低级决策者。给定观察 $ot$ 和指令 $i$,世界模拟器生成未来视频 $\hat{v}{t:t+H}$:

$$\hat{v}_{t:t+H} = G_\theta(o_t, i)$$

其中 $G_\theta$ 是参数化的视频生成模型,$H$ 是预测时域。

然后使用预训练的逆动力学模型(IDM)或基于目标的策略将视频转换为动作:

$$a_{t:t+H} = \pi_\phi(\hat{v}_{t:t+H})$$

fig333.png

图3描述:该图展示了隐式操作评估的概览。具身任务被分解为可执行的子任务。视频生成模型基于当前指令和实时观察生成相应的预测视频。使用预训练的IDM或基于目标的策略,智能体执行生成的动作序列。在固定时间步后,通过从视频生成模型重新采样来刷新预测视频,此过程重复进行。最终,通过模拟环境中的监控器获得各种具身任务的成功率。

4. HF-Embodied数据集构建

4.1 数据收集与处理

数据集构建基于三个关键资源:

  1. 开放式具身环境(OE):使用OpenAI Contractor Gameplay数据集,包含人类玩家完成任务的记录
  2. 自动驾驶(AD):使用nuScenes训练集,以10Hz频率采样25帧视频片段
  3. 机器人操作(RM):使用RH20T-P数据集,包含原语级机器人操作指令

4.2 人工标注流程

标注质量通过以下公式评估:

$$Q_{anno} = \frac{1}{N}\sum_{i=1}^{N}\sum_{d=1}^{D} \alpha_d \cdot \text{ICC}(S_{i,d}^{(1)}, S_{i,d}^{(2)})$$

其中 $\text{ICC}$ 是组内相关系数,$S_{i,d}^{(j)}$ 是标注者 $j$ 对样本 $i$ 在维度 $d$ 上的评分,$\alpha_d$ 是维度权重。

最终数据集包含35,701个元组,结构如下:

$$\mathcal{D} = \{(v_i, t_i, s_i, r_i)\}_{i=1}^{35701}$$

其中 $v_i$ 是视频,$t_i$ 是文本指令,$s_i \in \mathbb{R}^d$ 是多维度分数,$r_i$ 是标注理由。

5. 人类偏好评估器

5.1 模型架构

人类偏好评估器基于Flash-VStream架构,采用LoRA微调策略。模型输入包括采样视频帧序列 ${f_1, f_2, ..., f_n}$ 和包含场景、指令、评估维度的提示 $p$。

损失函数定义为:

$$\mathcal{L} = \frac{1}{|\mathcal{D}|}\sum_{(v,t,s,r) \in \mathcal{D}} \sum_{d=1}^{D} ||h_\theta(v, p_d) - s_d||^2$$

其中 $h_\theta$ 是评估器网络,$p_d$ 是维度 $d$ 的提示。

5.2 训练策略

采用AdamW优化器,学习率调度使用余弦衰减:

$$\eta_t = \eta_{min} + \frac{1}{2}(\eta_{max} - \eta_{min})(1 + \cos(\frac{\pi t}{T}))$$

其中 $\eta{max} = 2 \times 10^{-5}$,$\eta{min} = 0$,$T$ 是总训练步数。

6. 实验结果与分析

6.1 显式感知评估结果

fig444.png

图4描述:该图展示了三个具身场景下的显式感知评估结果。使用雷达图形式展示各个模型在不同维度上的标准化得分(0-1范围)。在OE场景中,大多数模型在具身交互(EI)维度表现较差;在AD场景中,模型间差异较小但整体分数较低;在RM场景中,模型在静态维度(如PV、BC、FC)表现良好,但在动态维度(如IA、TJ)表现不佳。

评估结果表明,在开放式具身环境中,模型在生成物理合理的交互方面存在显著困难。特别是在具身交互维度,平均得分仅为:

$$\bar{S}_{EI}^{OE} = \frac{1}{|M|}\sum_{m \in M} S_{EI}^m = 0.67$$

6.2 隐式操作评估结果

fig555.png

图5描述:该图展示了三个具身场景下的隐式操作评估结果。左侧显示了OE场景中不同任务的性能(包括收集木材、泥土、种子以及旅行距离和挖掘深度);中间显示了AD场景的各项指标(DS、RC、IS等);右侧显示了RM场景中完成1-5个连续任务的成功率。

在自动驾驶场景中,驾驶得分(DS)计算为:

$$DS = RC \times IS = RC \times \prod_{i} (1 - p_i)^{n_i}$$

其中 $RC$ 是路线完成率,$p_i$ 是违规类型 $i$ 的惩罚因子,$n_i$ 是违规次数。

6.3 物理规则与动作对齐分析

通过皮尔逊相关系数评估显式和隐式评估的一致性:

$$\rho = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2}\sqrt{\sum_{i=1}^{n}(y_i - \bar{y})^2}}$$

其中 $x_i$ 和 $y_i$ 分别是显式和隐式评估得分。实验结果显示 $\rho > 0.7$,表明两种评估方法具有较强的一致性。

7. 消融研究与深入分析

7.1 图像条件对性能的影响

实验比较了纯文本条件(T2V)和文本+图像条件(TI2V)的模型性能。定义性能下降率:

$$\Delta P = \frac{P_{T2V} - P_{TI2V}}{P_{T2V}} \times 100\%$$

结果显示,在OE场景中,添加图像条件导致平均性能下降61%,这表明当前模型在处理多模态条件输入时存在显著挑战。

7.2 任务复杂度分析

定义任务复杂度函数:

$$C(task) = \alpha \cdot L_{seq} + \beta \cdot N_{obj} + \gamma \cdot D_{phys}$$

其中 $L{seq}$ 是序列长度,$N{obj}$ 是涉及的物体数量,$D_{phys}$ 是物理交互的复杂度。实验发现,随着复杂度增加,成功率呈指数衰减:

$$S(C) = S_0 \cdot e^{-\lambda C}$$


附录A:数学推导

A.1 视频生成模型的概率框架

世界模拟器可以形式化为条件概率分布:

$$p(v_{t:t+H}|o_t, i, \theta) = \prod_{k=0}^{H-1} p(v_{t+k+1}|v_{t:t+k}, o_t, i, \theta)$$

采用扩散模型框架,前向过程定义为:

$$q(x_t|x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t I)$$

反向过程通过神经网络参数化:

$$p_\theta(x_{t-1}|x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta(x_t, t))$$

训练目标为最小化变分下界:

$$\mathcal{L}_{VLB} = \mathbb{E}_q\left[\sum_{t>1}D_{KL}(q(x_{t-1}|x_t, x_0)||p_\theta(x_{t-1}|x_t)) - \log p_\theta(x_0|x_1)\right]$$

A.2 视频到动作映射的逆动力学模型

给定视频序列 $v_{t:t+H}$,逆动力学模型学习映射:

$$\pi: \mathcal{V}^H \rightarrow \mathcal{A}^H$$

采用变分自编码器框架,定义潜在变量 $z$:

$$q_\phi(z|v, a) = \mathcal{N}(z; \mu_\phi(v, a), \sigma_\phi(v, a))$$

$$p_\theta(a|v, z) = \prod_{t=1}^{H} p_\theta(a_t|v_{t:t+k}, z)$$

优化证据下界(ELBO):

$$\mathcal{L}_{ELBO} = \mathbb{E}_{q_\phi(z|v,a)}[\log p_\theta(a|v,z)] - D_{KL}(q_\phi(z|v,a)||p(z))$$

A.3 人类偏好评估器的对齐损失

为了使评估器与人类偏好对齐,定义Bradley-Terry模型:

$$P(v_i \succ v_j) = \frac{\exp(r(v_i))}{\exp(r(v_i)) + \exp(r(v_j))}$$

其中 $r(v)$ 是奖励函数。训练损失为:

$$\mathcal{L}_{pref} = -\mathbb{E}_{(v_w, v_l) \sim \mathcal{D}}\left[\log \sigma(r_\theta(v_w) - r_\theta(v_l))\right]$$

加入正则化项防止奖励崩塌:

$$\mathcal{L}_{total} = \mathcal{L}_{pref} + \lambda_{reg}||\theta||^2 + \lambda_{var}\text{Var}(r_\theta)$$

A.4 闭环评估的马尔可夫决策过程

将隐式操作评估形式化为部分可观察马尔可夫决策过程(POMDP):

$$\mathcal{M} = \langle \mathcal{S}, \mathcal{A}, \mathcal{O}, T, R, \Omega, \gamma \rangle$$

其中:

  • $\mathcal{S}$ 是状态空间
  • $\mathcal{A}$ 是动作空间
  • $\mathcal{O}$ 是观察空间
  • $T: \mathcal{S} \times \mathcal{A} \rightarrow \Delta(\mathcal{S})$ 是转移函数
  • $R: \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R}$ 是奖励函数
  • $\Omega: \mathcal{S} \rightarrow \Delta(\mathcal{O})$ 是观察函数
  • $\gamma$ 是折扣因子

策略优化目标:

$$J(\pi) = \mathbb{E}_{\tau \sim p_\pi(\tau)}\left[\sum_{t=0}^{\infty}\gamma^t R(s_t, a_t)\right]$$

其中轨迹分布为:

$$p_\pi(\tau) = p(s_0)\prod_{t=0}^{\infty}\pi(a_t|o_t)T(s_{t+1}|s_t, a_t)\Omega(o_{t+1}|s_{t+1})$$

A.5 评估指标的信息论分析

定义生成视频与真实物理规则的互信息:

$$I(V; P) = \sum_{v \in V}\sum_{p \in P} p(v, p)\log\frac{p(v, p)}{p(v)p(p)}$$

条件熵衡量给定指令下视频的不确定性:

$$H(V|I) = -\sum_{i \in I}p(i)\sum_{v \in V}p(v|i)\log p(v|i)$$

世界模拟器的有效性可通过最大化互信息同时最小化条件熵来衡量:

$$\mathcal{L}_{eff} = \lambda_1 I(V; P) - \lambda_2 H(V|I)$$

附录B:实验细节补充

B.1 训练超参数设置

所有模型训练采用统一的超参数配置:

  • 批次大小:$B = 32$
  • 学习率:$\eta = 2 \times 10^{-5}$
  • 权重衰减:$\lambda = 0.01$
  • 梯度裁剪:$\text{clip_norm} = 1.0$
  • 预热步数:$\text{warmup_steps} = 0.03 \times \text{total_steps}$

B.2 数据增强策略

为提高模型泛化能力,采用以下数据增强技术:

  1. 时间增强:随机时间裁剪和插值
  2. 空间增强:随机裁剪、旋转、翻转
  3. 颜色增强:颜色抖动、亮度调整

增强概率遵循:

$$p_{aug} = \min(1.0, 0.5 + 0.5 \times \frac{\text{epoch}}{\text{total\_epochs}})$$

B.3 评估协议详情

每个场景的评估遵循严格的协议:

  1. 种子设置:所有实验使用固定随机种子确保可重现性
  2. 采样策略:视频生成采用top-p采样,$p = 0.95$
  3. 评估轮次:每个任务重复10次,报告均值和标准差

统计显著性检验采用配对t检验,显著性水平 $\alpha = 0.05$。

目录
相关文章
|
3月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
203 14
|
3月前
|
机器学习/深度学习 数据采集 编解码
Stable Video Diffusion:将潜在视频扩散模型扩展到大规模数据集——论文阅读
Stable Video Diffusion(SVD)是Stability AI提出的高分辨率视频生成模型,基于潜在扩散框架,通过三阶段训练与严格数据筛选,在文本到视频和图像到视频任务中实现高质量生成。论文系统研究了数据质量对模型性能的影响,提出级联切分检测、运动评分过滤、合成字幕优化等策略,并引入线性递增引导等创新技术,显著提升生成稳定性与视觉保真度。
667 4
|
4月前
|
传感器 人工智能 运维
AR技术电力智慧运维白皮书
AR技术正重塑电力运维模式,通过“端-边-云”协同系统,实现设备可视化、远程协作与智能预警,大幅提升效率与安全性,推动电力行业迈入智能运维新时代。
|
3月前
|
机器学习/深度学习 负载均衡 网络架构
Mixture of Experts架构的简要解析
Mixture of Experts(MoE)架构起源于1991年,其核心思想是通过多个专门化的“专家”网络处理输入的不同部分,并由门控网络动态组合输出。这种架构实现了稀疏激活,仅激活部分专家,从而在模型规模与计算成本之间取得平衡。MoE的关键在于门控机制的设计,如线性门控、噪声Top-K门控等,确保模型能根据输入特征自适应选择专家。
389 8
|
3月前
|
机器学习/深度学习 存储 资源调度
Transformer架构的简要解析
Transformer架构自2017年提出以来,彻底革新了人工智能领域,广泛应用于自然语言处理、语音识别等任务。其核心创新在于自注意力机制,通过计算序列中任意两个位置的相关性,打破了传统循环神经网络的序列依赖限制,实现了高效并行化与长距离依赖建模。该架构由编码器和解码器组成,结合多头注意力、位置编码、前馈网络等模块,大幅提升了模型表达能力与训练效率。从BERT到GPT系列,几乎所有现代大语言模型均基于Transformer构建,成为深度学习时代的关键技术突破之一。
574 7
|
4月前
|
人工智能 算法 前端开发
超越Prompt Engineering:揭秘高并发AI系统的上下文工程实践
本文系统解析AI工程范式从Prompt Engineering到Context Engineering的演进路径,深入探讨RAG、向量数据库、上下文压缩等关键技术,并结合LangGraph与智能体系统架构,助力开发者构建高可靠AI应用。
539 2
|
4月前
|
机器学习/深度学习 人工智能 算法
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
这是7月份的一篇论文,Qwen团队提出的群组序列策略优化算法及其在大规模语言模型强化学习训练中的技术突破
1124 0
GSPO:Qwen让大模型强化学习训练告别崩溃,解决序列级强化学习中的稳定性问题
|
2月前
|
人工智能 定位技术 数据库
工具设计+动态检索:上下文工程如何让AI智能体像人类一样思考?
本文深入解析AI Agent时代的上下文工程,阐述其从提示工程的演进逻辑,剖析系统提示、工具设计与示例策划三大核心,并探讨长时程任务应对策略,揭示高效信息流管理对构建可靠Agent的关键作用。建议收藏细读。
328 0
|
JSON 计算机视觉 数据格式
数据集学习笔记(一):常用检测、行为检测数据集
这篇文章是关于常用目标检测和行为检测数据集的介绍,包括CIFAR系列、COCO、VOC系列、TT100K和UCF101等数据集的详细信息和使用说明。
683 0
数据集学习笔记(一):常用检测、行为检测数据集