VE-Bench:北京大学开源首个针对视频编辑质量的评估指标,从多角度考虑审美并准确地评估视频编辑效果

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,图像通用资源包5000点
简介: 北京大学开源了首个针对视频编辑质量评估的新指标 VE-Bench,旨在通过人类感知一致的度量标准,更准确地评估视频编辑效果。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/n7_9RwaZD7IhQr7Fe2pQHQ


🚀 快速阅读

  1. 功能:VE-Bench 包含视频质量评估模型和数据库,用于评估文本驱动的视频编辑任务。
  2. 技术:采用深度学习算法和多模态学习框架,评估文本-视频一致性和源视频-编辑后视频动态相关性。
  3. 应用:适用于电影制作、短视频平台内容优化和广告行业精准营销。

正文(附运行示例)

VE-Bench 是什么

公众号: 蚝油菜花 - VE-Bench

VE-Bench 是北京大学研究团队 MMCAL 发布的首个专门针对视频编辑质量评估的指标。其设计目标是与人类感知能力高度一致,更准确地评估视频编辑效果。VE-Bench 不仅考虑了传统视频质量评估方法强调的审美、失真等视觉质量指标,还专注于文本与视频的对齐以及源视频与编辑后视频之间的相关性建模。

VE-Bench 包含两个主要部分:VE-Bench DB 和 VE-Bench QA。VE-Bench DB 是一个视频质量评估数据库,包含了丰富的源视频、编辑指令、不同视频编辑模型的编辑结果,以及24名不同背景参与者的主观评分样本,共计28,080个评分样本。VE-Bench QA 是一个量化的、与人类感知一致的度量工具,专门用于文本驱动的视频编辑任务。

VE-Bench 的主要功能

  • 视频质量评估模型(VE-Bench QA):为编辑后的视频提供与人类感知一致的度量标准,考虑了传统视频质量评估方法强调的审美、失真等视觉质量指标,还专注于文本与视频的对齐以及源视频与编辑后视频之间的相关性建模。
  • 视频质量评估数据库(VE-Bench DB):包含了丰富的源视频、编辑指令、不同视频编辑模型的编辑结果,以及24名不同背景参与者的主观评分样本,共计28,080个评分样本。
  • 文本-视频一致性评估:基于BLIP进行视频-文本相关性建模,通过在BLIP视觉分支的基础上加入Temporal Adapter将其扩展到三维,并与文本分支的结果通过交叉注意力得到输出。
  • 源视频-编辑后视频动态相关性评估:通过时空Transformer将源视频和编辑后视频投影到高维空间,在此基础上拼接后利用注意力机制计算二者相关性,最后通过回归计算得到相应输出。
  • 传统视觉质量评估:参考了过往自然场景视频质量评价的优秀工作DOVER,通过在美学和失真方面预训练过后的骨干网络输出相应结果。
  • 多维度评估:从文本-视频一致性、源视频-编辑后视频动态相关性以及传统视觉质量三个维度对文本驱动的视频编辑进行评估。

VE-Bench 的技术原理

  • 线性层回归:最终各个分支的输出通过线性层回归得到最终分数。
  • 深度学习算法:通过对大量真实世界视频样本的学习,建立了能够模拟人类视觉和听觉系统的模型。
  • 多模态学习框架:能同时处理视频中的图像、音频和文本信息,通过大量的真实世界视频样本训练,学会了如何分析视频的技术参数,捕捉那些难以量化的艺术美感和情感表达。

如何运行 VE-Bench

VE-Bench 可以通过 pip 命令安装,并支持视频对的比较评估。以下是一个简单的使用示例:

pip install vebench
from vebench import VEBenchModel

evaluator = VEBenchModel()

score1 = evaluator.evaluate('A black-haired boy is turning his head', 'assets/src.mp4', 'assets/dst.mp4')
score2 = evaluator.evaluate('A black-haired boy is turning his head', 'assets/src.mp4', 'assets/dst2.mp4')
print(score1, score2) # Score1: 1.3563, Score2: 0.66194

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
9月前
|
机器学习/深度学习 编解码 人工智能
SeedVR:高效视频修复模型,支持任意长度和分辨率,生成真实感细节
SeedVR 是南洋理工大学和字节跳动联合推出的扩散变换器模型,能够高效修复低质量视频,支持任意长度和分辨率,生成真实感细节。
417 16
SeedVR:高效视频修复模型,支持任意长度和分辨率,生成真实感细节
|
9月前
|
人工智能 达摩院 并行计算
VideoRefer:阿里达摩院开源视频对象感知与推理框架,可集成 VLLM 提升其空间和时间理解能力
VideoRefer 是浙江大学与阿里达摩学院联合推出的视频对象感知与推理技术,支持细粒度视频对象理解、复杂关系分析及多模态交互,适用于视频剪辑、教育、安防等多个领域。
495 17
VideoRefer:阿里达摩院开源视频对象感知与推理框架,可集成 VLLM 提升其空间和时间理解能力
|
10月前
|
人工智能 搜索推荐 API
Cobalt:开源的流媒体下载工具,支持解析和下载全平台的视频、音频和图片,支持多种视频质量和格式,自动提取视频字幕
cobalt 是一款开源的流媒体下载工具,支持全平台视频、音频和图片下载,提供纯净、简洁无广告的体验
1555 9
Cobalt:开源的流媒体下载工具,支持解析和下载全平台的视频、音频和图片,支持多种视频质量和格式,自动提取视频字幕
|
9月前
|
人工智能 物联网 Python
VMix:即插即用!字节联合中科大推出增强模型生成美学质量的开源适配器,支持多源输入、高质量视频处理
VMix 是一款创新的即插即用美学适配器,通过解耦文本提示和交叉注意力混合控制,显著提升图像生成的美学质量,支持多源输入和高质量视频处理。
349 11
VMix:即插即用!字节联合中科大推出增强模型生成美学质量的开源适配器,支持多源输入、高质量视频处理
|
7月前
|
Shell 网络安全 虚拟化
XPipe:一款新型开源终端管理神器
XPipe 是一款创新的 Shell 连接中心和远程文件管理器,它能够让你从本地机器轻松访问整个服务器基础设施。这款工具运行在你已安装的命令行程序之上,无需在远程系统上进行任何额外配置。因此,如果你通常使用 CLI 工具(如 ssh、docker、kubectl 等)来连接服务器,你可以直接在 XPipe 上使用这些工具,极大地简化了操作流程。
293 15
XPipe:一款新型开源终端管理神器
|
7月前
|
语音技术 网络架构 开发者
HumanOmni:首个专注人类中心场景的多模态大模型,视觉与听觉融合的突破!
HumanOmni是业内首个理解以人为中心的场景,可以同时处理视觉信息、音频信息的多模态大模型。
393 9
HumanOmni:首个专注人类中心场景的多模态大模型,视觉与听觉融合的突破!
|
开发者 Python
Python 时间处理与时区转换:深入探究 datetime、time 模块与 pytz 库的功能与应用
Python 时间处理与时区转换:深入探究 datetime、time 模块与 pytz 库的功能与应用
212 0
|
移动开发 数据可视化 算法
Pointnet语义分割任务S3DIS数据集
Pointnet语义分割任务S3DIS数据集
1143 0
|
API
【vue2项目总结】——接口配置
【vue2项目总结】——接口配置
402 0
|
算法 计算机视觉 Python
【OpenCV】-算子(Sobel、Canny、Laplacian)学习
【OpenCV】-算子(Sobel、Canny、Laplacian)学习
997 2

热门文章

最新文章