VideoPhy:UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具,衡量模型生成的视频是否遵循现实世界的物理规则

本文涉及的产品
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频通用资源包5000点
简介: VideoPhy 是 UCLA 和谷歌联合推出的首个评估视频生成模型物理常识能力的基准测试,旨在衡量模型生成的视频是否遵循现实世界的物理规则。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/xYjs-dardpLDiK3-Oo1oeg


🚀 快速阅读

  1. 功能:评估视频生成模型是否遵循物理常识。
  2. 数据集:包含 688 个描述物理互动的字幕,用于生成和评估视频。
  3. 评估方式:结合人类评估和自动评估工具 VideoCon-Physics,评估视频的语义一致性和物理常识。

正文(附运行示例)

VideoPhy 是什么

公众号: 蚝油菜花 - videophy

VideoPhy 是由 UCLA 和谷歌研究研究院联合推出的首个评估视频生成模型物理常识能力的基准测试。它旨在衡量模型生成的视频是否遵循现实世界的物理规则。VideoPhy 基准包含 688 个描述物理互动的字幕,用于从多种文本到视频模型中生成视频,并进行人类及自动评估。

研究发现,即使是最佳模型,也仅有 39.6% 的视频能同时遵循文本提示和物理法则。VideoPhy 强调视频生成模型在模拟物理世界方面的局限性,并推出了自动评估工具 VideoCon-Physics,以支持未来模型的可靠评估。

VideoPhy 的主要功能

  • 评估视频生成模型的物理常识:测试文本到视频(text-to-video)生成模型是否能生成符合物理常识的视频内容。
  • 提供标准化测试集:包含 688 个经过人类验证的描述性字幕,涉及固体-固体、固体-流体和流体-流体之间的物理互动,用于生成视频并进行评估。
  • 人类评估与自动评估:结合人类评估和自动评估工具 VideoCon-Physics,评估视频的语义一致性和物理常识。
  • 模型性能比较:比较不同模型在 VideoPhy 数据集上的表现,确定哪些模型在遵循物理法则方面表现更好。
  • 促进模型改进:揭示现有模型在模拟物理世界方面的不足,推动研究者开发出更符合物理常识的视频生成模型。

VideoPhy 的技术原理

  • 数据集构建:VideoPhy 的数据集基于三阶段的流程构建,包括使用大型语言模型生成候选字幕、人类验证字幕的质量及标注视频生成的难度。
  • 视频生成:用不同的文本到视频生成模型,根据 VideoPhy 数据集中的字幕生成视频。
  • 人类评估:基于亚马逊机械土耳其(Amazon Mechanical Turk)上的人工评估者对生成的视频进行语义一致性和物理常识的评分。
  • 自动评估模型:推出 VideoCon-Physics,基于 VIDEOCON 视频-语言模型的自动评估器,用于评估生成视频的语义一致性和物理常识。
  • 性能指标:用二元反馈(0 或 1)评估视频的语义一致性(Semantic Adherence, SA)和物理常识(Physical Commonsense, PC)。

如何运行 VideoPhy

1. 创建 conda 环境

conda create -n videophy python=3.10
conda activate videophy

2. 安装依赖

pip install -r requirements.txt

3. 下载模型检查点

git lfs install
git clone https://huggingface.co/videophysics/videocon_physics

4. 准备数据

python utils/prepare_data.py --input_csv examples/example.csv --output_folder examples/

5. 评估语义一致性

CUDA_VISIBLE_DEVICES=0 python videocon/training/pipeline_video/entailment_inference.py --input_csv examples/sa_testing.csv --output_csv examples/videocon_physics_sa_testing.csv --checkpoint <dir_for_downloaded_ckpt/videocon_physics/>

6. 评估物理常识

CUDA_VISIBLE_DEVICES=0 python videocon/training/pipeline_video/entailment_inference.py --input_csv examples/physics_testing.csv --output_csv examples/videocon_physics_pc_testing.csv --checkpoint <dir_for_downloaded_ckpt/videocon_physics/>

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
人工智能 编解码 安全
如何使用Sora?Sora小白教程一文通
如何使用Sora?Sora小白教程一文通。本文深入探讨了OpenAI于2024年发布的Sora——一款创新的文生视频大模型,详细介绍了其功能、技术原理、精准度、安全性以及对未来影响的全面分析
|
10月前
|
人工智能 自然语言处理 测试技术
AutoRAG:自动优化 RAG 管道工具,自动评估各种 RAG 模块组合,快速找到最优的 RAG 管道
AutoRAG 是一款自动优化 RAG(Retrieval-Augmented Generation)管道的工具,帮助用户找到最适合其数据和应用场景的最佳 RAG 管道。
486 12
AutoRAG:自动优化 RAG 管道工具,自动评估各种 RAG 模块组合,快速找到最优的 RAG 管道
|
IDE JavaScript 开发工具
卸载NotePad++/SublimeText吧:VSCode才是史上最优秀的IDE编辑器
免费,这应该是所有人都所希望的,而且居然是微软开源免费的,你敢信吗?vscode使用的是MIT Lisense, 可随意下载, 分发, 商用等。下载地址:
|
10月前
|
人工智能 数据库
Poetry2Image:专为中文古诗词设计的图像生成校正框架,增强了诗歌内容与模型生成图像之间的一致性
Poetry2Image 是一个专为中文古诗词图像生成设计的迭代校正框架,通过自动化反馈和校正循环,提升诗歌与图像之间的一致性,有效捕捉诗歌的语义和艺术精髓。
294 11
Poetry2Image:专为中文古诗词设计的图像生成校正框架,增强了诗歌内容与模型生成图像之间的一致性
|
10月前
|
人工智能 UED
VersaGen:生成式 AI 代理,基于 Stable Diffusion 生成图像,专注于控制一至多个视觉主体等生成细节
VersaGen 是一款生成式 AI 代理,专注于文本到图像合成中的视觉控制能力,支持多种视觉控制类型,并通过优化策略提升图像生成质量和用户体验。
200 8
VersaGen:生成式 AI 代理,基于 Stable Diffusion 生成图像,专注于控制一至多个视觉主体等生成细节
|
10月前
|
人工智能 编解码 自然语言处理
AGUVIS:指导模型实现 GUI 自动化训练框架,结合视觉-语言模型进行训练,实现跨平台自主 GUI 交互
AGUVIS 是香港大学与 Salesforce 联合推出的纯视觉 GUI 自动化框架,能够在多种平台上实现自主 GUI 交互,结合显式规划和推理,提升复杂数字环境中的导航和交互能力。
385 8
AGUVIS:指导模型实现 GUI 自动化训练框架,结合视觉-语言模型进行训练,实现跨平台自主 GUI 交互
|
10月前
|
人工智能 测试技术
Valley:字节跳动开源小体积的多模态模型,在小于 10B 参数的模型中排名第二
Valley 是字节跳动推出的多模态大模型,能够处理文本、图像和视频数据,在电子商务和短视频领域表现优异,并在 OpenCompass 测试中排名第二。
495 10
Valley:字节跳动开源小体积的多模态模型,在小于 10B 参数的模型中排名第二
|
数据采集 人工智能 自然语言处理
阿里云Elasticsearch AI语义搜索:解锁未来搜索新纪元,精准洞察数据背后的故事!
【8月更文挑战第2天】阿里云Elasticsearch AI场景语义搜索最佳实践
522 5
|
Java
java springboot 8080端口号冲突时 修改当前项目端口号
java springboot 8080端口号冲突时 修改当前项目端口号
620 0
|
11月前
|
监控 供应链 搜索推荐
阿里妈妈商品详情API接口:开发、应用与收益的深度剖析
阿里妈妈是阿里巴巴旗下的数字营销平台,其商品详情API接口为开发者提供了获取淘宝、天猫等电商平台商品详细信息的工具。本文介绍了该接口的开发流程、应用场景及带来的收益,揭示了其在电商生态中的重要地位。
703 6

热门文章

最新文章