VE-Bench:北京大学开源首个针对视频编辑质量的评估指标,从多角度考虑审美并准确地评估视频编辑效果

简介: 北京大学开源了首个针对视频编辑质量评估的新指标 VE-Bench,旨在通过人类感知一致的度量标准,更准确地评估视频编辑效果。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/n7_9RwaZD7IhQr7Fe2pQHQ


🚀 快速阅读

  1. 功能:VE-Bench 包含视频质量评估模型和数据库,用于评估文本驱动的视频编辑任务。
  2. 技术:采用深度学习算法和多模态学习框架,评估文本-视频一致性和源视频-编辑后视频动态相关性。
  3. 应用:适用于电影制作、短视频平台内容优化和广告行业精准营销。

正文(附运行示例)

VE-Bench 是什么

公众号: 蚝油菜花 - VE-Bench

VE-Bench 是北京大学研究团队 MMCAL 发布的首个专门针对视频编辑质量评估的指标。其设计目标是与人类感知能力高度一致,更准确地评估视频编辑效果。VE-Bench 不仅考虑了传统视频质量评估方法强调的审美、失真等视觉质量指标,还专注于文本与视频的对齐以及源视频与编辑后视频之间的相关性建模。

VE-Bench 包含两个主要部分:VE-Bench DB 和 VE-Bench QA。VE-Bench DB 是一个视频质量评估数据库,包含了丰富的源视频、编辑指令、不同视频编辑模型的编辑结果,以及24名不同背景参与者的主观评分样本,共计28,080个评分样本。VE-Bench QA 是一个量化的、与人类感知一致的度量工具,专门用于文本驱动的视频编辑任务。

VE-Bench 的主要功能

  • 视频质量评估模型(VE-Bench QA):为编辑后的视频提供与人类感知一致的度量标准,考虑了传统视频质量评估方法强调的审美、失真等视觉质量指标,还专注于文本与视频的对齐以及源视频与编辑后视频之间的相关性建模。
  • 视频质量评估数据库(VE-Bench DB):包含了丰富的源视频、编辑指令、不同视频编辑模型的编辑结果,以及24名不同背景参与者的主观评分样本,共计28,080个评分样本。
  • 文本-视频一致性评估:基于BLIP进行视频-文本相关性建模,通过在BLIP视觉分支的基础上加入Temporal Adapter将其扩展到三维,并与文本分支的结果通过交叉注意力得到输出。
  • 源视频-编辑后视频动态相关性评估:通过时空Transformer将源视频和编辑后视频投影到高维空间,在此基础上拼接后利用注意力机制计算二者相关性,最后通过回归计算得到相应输出。
  • 传统视觉质量评估:参考了过往自然场景视频质量评价的优秀工作DOVER,通过在美学和失真方面预训练过后的骨干网络输出相应结果。
  • 多维度评估:从文本-视频一致性、源视频-编辑后视频动态相关性以及传统视觉质量三个维度对文本驱动的视频编辑进行评估。

VE-Bench 的技术原理

  • 线性层回归:最终各个分支的输出通过线性层回归得到最终分数。
  • 深度学习算法:通过对大量真实世界视频样本的学习,建立了能够模拟人类视觉和听觉系统的模型。
  • 多模态学习框架:能同时处理视频中的图像、音频和文本信息,通过大量的真实世界视频样本训练,学会了如何分析视频的技术参数,捕捉那些难以量化的艺术美感和情感表达。

如何运行 VE-Bench

VE-Bench 可以通过 pip 命令安装,并支持视频对的比较评估。以下是一个简单的使用示例:

pip install vebench
from vebench import VEBenchModel

evaluator = VEBenchModel()

score1 = evaluator.evaluate('A black-haired boy is turning his head', 'assets/src.mp4', 'assets/dst.mp4')
score2 = evaluator.evaluate('A black-haired boy is turning his head', 'assets/src.mp4', 'assets/dst2.mp4')
print(score1, score2) # Score1: 1.3563, Score2: 0.66194

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
1月前
|
数据采集 存储 运维
2025年主流接口监控平台对比分析与最佳实践指南
文章围绕2025年接口监控平台展开,对比商业SaaS、开源自建、全栈整合型三种主流方案。分析行业背景、痛点,阐述各方案优劣及适用场景,介绍技术原理与最佳实践路径,还解答常见选型问题,助力企业根据自身情况选择合适方案,保障接口稳定。
|
网络安全 开发工具 数据安全/隐私保护
|
11月前
|
语音技术 网络架构 开发者
HumanOmni:首个专注人类中心场景的多模态大模型,视觉与听觉融合的突破!
HumanOmni是业内首个理解以人为中心的场景,可以同时处理视觉信息、音频信息的多模态大模型。
553 9
HumanOmni:首个专注人类中心场景的多模态大模型,视觉与听觉融合的突破!
|
11月前
|
Shell 网络安全 虚拟化
XPipe:一款新型开源终端管理神器
XPipe 是一款创新的 Shell 连接中心和远程文件管理器,它能够让你从本地机器轻松访问整个服务器基础设施。这款工具运行在你已安装的命令行程序之上,无需在远程系统上进行任何额外配置。因此,如果你通常使用 CLI 工具(如 ssh、docker、kubectl 等)来连接服务器,你可以直接在 XPipe 上使用这些工具,极大地简化了操作流程。
590 15
XPipe:一款新型开源终端管理神器
|
10月前
|
机器学习/深度学习 数据可视化 机器人
比扩散策略更高效的生成模型:流匹配的理论基础与Pytorch代码实现
扩散模型和流匹配是生成高分辨率数据(如图像和机器人轨迹)的先进技术。扩散模型通过逐步去噪生成数据,其代表应用Stable Diffusion已扩展至机器人学领域形成“扩散策略”。流匹配作为更通用的方法,通过学习时间依赖的速度场将噪声转化为目标分布,适用于图像生成和机器人轨迹生成,且通常以较少资源实现更快生成。 本文深入解析流匹配在图像生成中的应用,核心思想是将图像视为随机变量的实现,并通过速度场将源分布转换为目标分布。文中提供了一维模型训练实例,展示了如何用神经网络学习速度场,以及使用最大均值差异(MMD)改进训练效果。与扩散模型相比,流匹配结构简单,资源需求低,适合多模态分布生成。
863 13
比扩散策略更高效的生成模型:流匹配的理论基础与Pytorch代码实现
|
11月前
|
负载均衡 应用服务中间件 nginx
如何使用nginx实现负载均衡?
如何使用nginx实现负载均衡?
|
存储 安全 数据安全/隐私保护
Maccy: 轻量级剪贴板管理器
【10月更文挑战第10天】
1519 4
|
存储 算法 Linux
深入理解Linux内存管理brk 和 sbrk 与以及使用C++ list实现内存分配器
深入理解Linux内存管理brk 和 sbrk 与以及使用C++ list实现内存分配器
1068 0
|
API
【vue2项目总结】——接口配置
【vue2项目总结】——接口配置
462 0
|
算法 计算机视觉 Python
【OpenCV】-算子(Sobel、Canny、Laplacian)学习
【OpenCV】-算子(Sobel、Canny、Laplacian)学习
1442 2

热门文章

最新文章