VideoPhy:UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具,衡量模型生成的视频是否遵循现实世界的物理规则

简介: VideoPhy 是 UCLA 和谷歌联合推出的首个评估视频生成模型物理常识能力的基准测试,旨在衡量模型生成的视频是否遵循现实世界的物理规则。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/xYjs-dardpLDiK3-Oo1oeg


🚀 快速阅读

  1. 功能:评估视频生成模型是否遵循物理常识。
  2. 数据集:包含 688 个描述物理互动的字幕,用于生成和评估视频。
  3. 评估方式:结合人类评估和自动评估工具 VideoCon-Physics,评估视频的语义一致性和物理常识。

正文(附运行示例)

VideoPhy 是什么

公众号: 蚝油菜花 - videophy

VideoPhy 是由 UCLA 和谷歌研究研究院联合推出的首个评估视频生成模型物理常识能力的基准测试。它旨在衡量模型生成的视频是否遵循现实世界的物理规则。VideoPhy 基准包含 688 个描述物理互动的字幕,用于从多种文本到视频模型中生成视频,并进行人类及自动评估。

研究发现,即使是最佳模型,也仅有 39.6% 的视频能同时遵循文本提示和物理法则。VideoPhy 强调视频生成模型在模拟物理世界方面的局限性,并推出了自动评估工具 VideoCon-Physics,以支持未来模型的可靠评估。

VideoPhy 的主要功能

  • 评估视频生成模型的物理常识:测试文本到视频(text-to-video)生成模型是否能生成符合物理常识的视频内容。
  • 提供标准化测试集:包含 688 个经过人类验证的描述性字幕,涉及固体-固体、固体-流体和流体-流体之间的物理互动,用于生成视频并进行评估。
  • 人类评估与自动评估:结合人类评估和自动评估工具 VideoCon-Physics,评估视频的语义一致性和物理常识。
  • 模型性能比较:比较不同模型在 VideoPhy 数据集上的表现,确定哪些模型在遵循物理法则方面表现更好。
  • 促进模型改进:揭示现有模型在模拟物理世界方面的不足,推动研究者开发出更符合物理常识的视频生成模型。

VideoPhy 的技术原理

  • 数据集构建:VideoPhy 的数据集基于三阶段的流程构建,包括使用大型语言模型生成候选字幕、人类验证字幕的质量及标注视频生成的难度。
  • 视频生成:用不同的文本到视频生成模型,根据 VideoPhy 数据集中的字幕生成视频。
  • 人类评估:基于亚马逊机械土耳其(Amazon Mechanical Turk)上的人工评估者对生成的视频进行语义一致性和物理常识的评分。
  • 自动评估模型:推出 VideoCon-Physics,基于 VIDEOCON 视频-语言模型的自动评估器,用于评估生成视频的语义一致性和物理常识。
  • 性能指标:用二元反馈(0 或 1)评估视频的语义一致性(Semantic Adherence, SA)和物理常识(Physical Commonsense, PC)。

如何运行 VideoPhy

1. 创建 conda 环境

conda create -n videophy python=3.10
conda activate videophy

2. 安装依赖

pip install -r requirements.txt

3. 下载模型检查点

git lfs install
git clone https://huggingface.co/videophysics/videocon_physics

4. 准备数据

python utils/prepare_data.py --input_csv examples/example.csv --output_folder examples/

5. 评估语义一致性

CUDA_VISIBLE_DEVICES=0 python videocon/training/pipeline_video/entailment_inference.py --input_csv examples/sa_testing.csv --output_csv examples/videocon_physics_sa_testing.csv --checkpoint <dir_for_downloaded_ckpt/videocon_physics/>

6. 评估物理常识

CUDA_VISIBLE_DEVICES=0 python videocon/training/pipeline_video/entailment_inference.py --input_csv examples/physics_testing.csv --output_csv examples/videocon_physics_pc_testing.csv --checkpoint <dir_for_downloaded_ckpt/videocon_physics/>

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
存储 算法 索引
RLE格式分割标注文件表示
RLE格式分割标注文件表示
1549 0
|
IDE JavaScript 开发工具
卸载NotePad++/SublimeText吧:VSCode才是史上最优秀的IDE编辑器
免费,这应该是所有人都所希望的,而且居然是微软开源免费的,你敢信吗?vscode使用的是MIT Lisense, 可随意下载, 分发, 商用等。下载地址:
|
5月前
|
编解码 调度 图形学
腾讯混元世界模型1.1开源:支持多视图及视频输入,单卡部署,秒级生成_魔搭ModelScope社区-ModelScope魔搭社区
混元世界模型1.1(WorldMirror)发布,支持多视图、视频输入,单卡秒级生成3D场景。兼容CG管线,开源可部署,实现点云、深度、相机等多任务统一预测,性能领先。
474 1
|
数据采集 人工智能 自然语言处理
阿里云Elasticsearch AI语义搜索:解锁未来搜索新纪元,精准洞察数据背后的故事!
【8月更文挑战第2天】阿里云Elasticsearch AI场景语义搜索最佳实践
615 5
|
Go
Golang 语言怎么打印结构体指针类型字段的值?
Golang 语言怎么打印结构体指针类型字段的值?
481 0
|
自然语言处理 测试技术 API
MindIE BenchMark
MindIE Benchmark工具通过部署昇腾服务化配套包,以终端命令方式测试大语言模型在不同配置下的推理性能和精度。它支持Client和Engine两种推理模式:Client模式适用于多用户并发场景,兼容多种接口;Engine模式直接调用底层API,测量NPU卡的真实性能。该工具支持多个数据集进行精度和性能测试,如CEval 5-shot、CMMLU、GSM8K等,并将结果保存为本地csv文件。评测方法包括调用大模型输入题目,解析返回结果并与正确答案比较,计算平均分和其他指标如准确率、EM等。
|
Java
java springboot 8080端口号冲突时 修改当前项目端口号
java springboot 8080端口号冲突时 修改当前项目端口号
748 0
|
移动开发 JavaScript 前端开发
HTML5 MathML好用的第三方库推荐
HTML5 的 MathML 对数学公式的展现至关重要,但因浏览器兼容性和复杂性问题,开发者常选用第三方库增强其功能。本文推荐了四个库:MathJax、KaTeX、MathML Cloud 和 jsMath。MathJax 兼容性好,支持多种格式;KaTeX 渲染速度快,适合现代浏览器;MathML Cloud 提供云端转换服务;jsMath 则适用于基本 MathML 支持。根据项目需求选择合适的库,能显著提升数学内容展示质量和用户体验。
|
Ubuntu 大数据 Linux
大数据入门系列 2:全网最全,VMware 虚拟机上安装 Ubuntu 完整步骤及需要注意的问题
大数据入门系列 2:全网最全,VMware 虚拟机上安装 Ubuntu 完整步骤及需要注意的问题
2431 1
大数据入门系列 2:全网最全,VMware 虚拟机上安装 Ubuntu 完整步骤及需要注意的问题
|
算法 PyTorch 算法框架/工具
论文解读:LaMa:Resolution-robust Large Mask Inpainting with Fourier Convolutions
论文解读:LaMa:Resolution-robust Large Mask Inpainting with Fourier Convolutions
1847 0

热门文章

最新文章