❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
原文链接:https://mp.weixin.qq.com/s/n7_9RwaZD7IhQr7Fe2pQHQ
🚀 快速阅读
- 功能:VE-Bench 包含视频质量评估模型和数据库,用于评估文本驱动的视频编辑任务。
- 技术:采用深度学习算法和多模态学习框架,评估文本-视频一致性和源视频-编辑后视频动态相关性。
- 应用:适用于电影制作、短视频平台内容优化和广告行业精准营销。
正文(附运行示例)
VE-Bench 是什么
VE-Bench 是北京大学研究团队 MMCAL 发布的首个专门针对视频编辑质量评估的指标。其设计目标是与人类感知能力高度一致,更准确地评估视频编辑效果。VE-Bench 不仅考虑了传统视频质量评估方法强调的审美、失真等视觉质量指标,还专注于文本与视频的对齐以及源视频与编辑后视频之间的相关性建模。
VE-Bench 包含两个主要部分:VE-Bench DB 和 VE-Bench QA。VE-Bench DB 是一个视频质量评估数据库,包含了丰富的源视频、编辑指令、不同视频编辑模型的编辑结果,以及24名不同背景参与者的主观评分样本,共计28,080个评分样本。VE-Bench QA 是一个量化的、与人类感知一致的度量工具,专门用于文本驱动的视频编辑任务。
VE-Bench 的主要功能
- 视频质量评估模型(VE-Bench QA):为编辑后的视频提供与人类感知一致的度量标准,考虑了传统视频质量评估方法强调的审美、失真等视觉质量指标,还专注于文本与视频的对齐以及源视频与编辑后视频之间的相关性建模。
- 视频质量评估数据库(VE-Bench DB):包含了丰富的源视频、编辑指令、不同视频编辑模型的编辑结果,以及24名不同背景参与者的主观评分样本,共计28,080个评分样本。
- 文本-视频一致性评估:基于BLIP进行视频-文本相关性建模,通过在BLIP视觉分支的基础上加入Temporal Adapter将其扩展到三维,并与文本分支的结果通过交叉注意力得到输出。
- 源视频-编辑后视频动态相关性评估:通过时空Transformer将源视频和编辑后视频投影到高维空间,在此基础上拼接后利用注意力机制计算二者相关性,最后通过回归计算得到相应输出。
- 传统视觉质量评估:参考了过往自然场景视频质量评价的优秀工作DOVER,通过在美学和失真方面预训练过后的骨干网络输出相应结果。
- 多维度评估:从文本-视频一致性、源视频-编辑后视频动态相关性以及传统视觉质量三个维度对文本驱动的视频编辑进行评估。
VE-Bench 的技术原理
- 线性层回归:最终各个分支的输出通过线性层回归得到最终分数。
- 深度学习算法:通过对大量真实世界视频样本的学习,建立了能够模拟人类视觉和听觉系统的模型。
- 多模态学习框架:能同时处理视频中的图像、音频和文本信息,通过大量的真实世界视频样本训练,学会了如何分析视频的技术参数,捕捉那些难以量化的艺术美感和情感表达。
如何运行 VE-Bench
VE-Bench 可以通过 pip
命令安装,并支持视频对的比较评估。以下是一个简单的使用示例:
pip install vebench
from vebench import VEBenchModel
evaluator = VEBenchModel()
score1 = evaluator.evaluate('A black-haired boy is turning his head', 'assets/src.mp4', 'assets/dst.mp4')
score2 = evaluator.evaluate('A black-haired boy is turning his head', 'assets/src.mp4', 'assets/dst2.mp4')
print(score1, score2) # Score1: 1.3563, Score2: 0.66194
资源
- 项目官网:https://arxiv.org/abs/2408.11481
- GitHub 仓库:https://github.com/littlespray/VE-Bench
- arXiv 技术论文:https://arxiv.org/pdf/2408.11481
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦