VideoPhy：UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具，衡量模型生成的视频是否遵循现实世界的物理规则

2025-01-01 18

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

视觉智能开放平台，视频资源包5000点

视觉智能开放平台，图像资源包5000点

视觉智能开放平台，分割抠图1万点

简介： VideoPhy 是 UCLA 和谷歌联合推出的首个评估视频生成模型物理常识能力的基准测试，旨在衡量模型生成的视频是否遵循现实世界的物理规则。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

原文链接：https://mp.weixin.qq.com/s/xYjs-dardpLDiK3-Oo1oeg

🚀 快速阅读

功能：评估视频生成模型是否遵循物理常识。
数据集：包含 688 个描述物理互动的字幕，用于生成和评估视频。
评估方式：结合人类评估和自动评估工具 VideoCon-Physics，评估视频的语义一致性和物理常识。

正文（附运行示例）

VideoPhy 是什么

公众号: 蚝油菜花 - videophy

VideoPhy 是由 UCLA 和谷歌研究研究院联合推出的首个评估视频生成模型物理常识能力的基准测试。它旨在衡量模型生成的视频是否遵循现实世界的物理规则。VideoPhy 基准包含 688 个描述物理互动的字幕，用于从多种文本到视频模型中生成视频，并进行人类及自动评估。

研究发现，即使是最佳模型，也仅有 39.6% 的视频能同时遵循文本提示和物理法则。VideoPhy 强调视频生成模型在模拟物理世界方面的局限性，并推出了自动评估工具 VideoCon-Physics，以支持未来模型的可靠评估。

VideoPhy 的主要功能

评估视频生成模型的物理常识：测试文本到视频（text-to-video）生成模型是否能生成符合物理常识的视频内容。
提供标准化测试集：包含 688 个经过人类验证的描述性字幕，涉及固体-固体、固体-流体和流体-流体之间的物理互动，用于生成视频并进行评估。
人类评估与自动评估：结合人类评估和自动评估工具 VideoCon-Physics，评估视频的语义一致性和物理常识。
模型性能比较：比较不同模型在 VideoPhy 数据集上的表现，确定哪些模型在遵循物理法则方面表现更好。
促进模型改进：揭示现有模型在模拟物理世界方面的不足，推动研究者开发出更符合物理常识的视频生成模型。

VideoPhy 的技术原理

数据集构建：VideoPhy 的数据集基于三阶段的流程构建，包括使用大型语言模型生成候选字幕、人类验证字幕的质量及标注视频生成的难度。
视频生成：用不同的文本到视频生成模型，根据 VideoPhy 数据集中的字幕生成视频。
人类评估：基于亚马逊机械土耳其（Amazon Mechanical Turk）上的人工评估者对生成的视频进行语义一致性和物理常识的评分。
自动评估模型：推出 VideoCon-Physics，基于 VIDEOCON 视频-语言模型的自动评估器，用于评估生成视频的语义一致性和物理常识。
性能指标：用二元反馈（0 或 1）评估视频的语义一致性（Semantic Adherence, SA）和物理常识（Physical Commonsense, PC）。

如何运行 VideoPhy

1. 创建 conda 环境

conda create -n videophy python=3.10
conda activate videophy

2. 安装依赖

pip install -r requirements.txt

3. 下载模型检查点

git lfs install
git clone https://huggingface.co/videophysics/videocon_physics

4. 准备数据

python utils/prepare_data.py --input_csv examples/example.csv --output_folder examples/

5. 评估语义一致性

CUDA_VISIBLE_DEVICES=0 python videocon/training/pipeline_video/entailment_inference.py --input_csv examples/sa_testing.csv --output_csv examples/videocon_physics_sa_testing.csv --checkpoint <dir_for_downloaded_ckpt/videocon_physics/>

6. 评估物理常识

CUDA_VISIBLE_DEVICES=0 python videocon/training/pipeline_video/entailment_inference.py --input_csv examples/physics_testing.csv --output_csv examples/videocon_physics_pc_testing.csv --checkpoint <dir_for_downloaded_ckpt/videocon_physics/>

资源

项目官网：https://videophy.github.io/
GitHub 仓库：https://github.com/Hritikbansal/videophy
HuggingFace 模型库：https://huggingface.co/datasets/videophysics/videophy
arXiv 技术论文：https://arxiv.org/pdf/2406.03520