为复杂场景而生,NTU、字节等开源大型视频目标分割数据集MOSE

简介: 为复杂场景而生,NTU、字节等开源大型视频目标分割数据集MOSE


视频目标分割 (Video Object Segmentation, VOS) 的现有 SOTA 方法在已有数据集上已经取得 90+% J&F 的优异性能,似乎已经很好地解决了这一研究问题。那么现有方法在更复杂场景中的处理能力如何呢?


为了探究这个问题,来自南洋理工大学、浙江大学、牛津大学、和字节跳动的研究者们构建了一个专门针对复杂场景的大规模视频目标分割数据集 coMplex video Object SEgmentation (MOSE)。




视频目标分割 (Video Object Segmentation, VOS) 是计算机视觉中的一个热点问题。在一段视频中,给定目标物体在视频第一帧中某些线索 (如 mask, bounding box, 或者 scribble 等形式),VOS 旨在准确地分割和追踪该目标物体,获取该物体在整个视频序列中每一帧的高质量 mask。与现有的 VOS 数据集相比,MOSE 最主要的特点是在大量复杂场景中包含了拥挤的目标群、各式各样的遮挡、消失并重现的物体、以及不明显的小物体等富有挑战的情景。因此,MOSE 可以很好地衡量 VOS 算法在复杂场景下的视频目标分割性能,并推动 VOS 在更真实场景下的应用研究。


在 MOSE 数据集上,研究者们在 4 种不同设置下对 18 种视频目标分割方法进行了广泛实验,包括 6 种使用 mask 的半监督 (semi-supervised) 方法、2 种使用 bounding box 的半监督方法、3 种多目标无监督 (unsupervised) 方法、和 7 种交互式视频分割方法。实验表明,现有方法尚不能在复杂场景下取得令人满意的结果。如在最热点的 semi-supervised VOS 任务中,现有方法的 VOS 性能从 DAVIS 和 YouTube-VOS 上的 80%~90% J&F 下降到仅 40%~50% J&F。这些实验表明,尽管当前方法在现有数据集上取得了优异的性能,但在复杂场景下的视频目标分割仍存在很多未解决的挑战,未来需要更多工作来研究和探索这些挑战。


MOSE 数据集简介


MOSE 包含共 2149 个,总时长达 443 分钟的视频,包含有 36 个类别的 5200 个物体。标注的 mask 数总计达 431,725 个。从下表中可以看出,MOSE 在标注规模和总时长上明显相较于其他数据集更大。



不仅在规模上,MOSE 在难度上也尤为突出。从表中的消失率 (Disapp. Rate) 一列来看,MOSE 中有 28.8% 的物体在至少一帧中完全消失,非常考验模型对物体的再跟踪能力。同时,从反映物体遮挡强度的 mBOR 指标来看,MOSE 视频的遮挡现象相较于其他 VOS 数据集也更加显著。


此外,在保证目标物体的多样性和复杂性的同时,MOSE 也丰富了视频长度的多样性。数据集中包含了短至 5 秒的短视频和长至 1 分钟的长视频。在保证标注帧率最低为 5fps 的基础上,数据集中还包含了很多高达 30fps 的完全标注视频,这考验模型在追踪速度方面的稳定性,也进一步提高了 MOSE 数据集的难度。


可视化


MOSE 数据集中包括大量的拥挤、消失、遮挡和非显著 / 小物体等复杂场景。下面介绍一些数据集中的典型视频。


如下视频展示了一个非常拥挤复杂但贴近现实的球赛场景。红色球员首先以背对镜头的状态被其他球员所遮挡,之后在转身后以面向镜头的状态重新出现,与蓝色球员相互遮挡,这种被遮挡前和重新出现后的巨大差别极大地增加了视频的难度。



下面的视频片段中同时包含了面积较大的物体(汽车)和面积较小的物体(行人)。对于行人来说,汽车在行驶过程中几乎将两个行人完全遮挡。而大型物体(汽车)首先被环境(树木)所遮挡,而后遮挡位于画面后方的较小物体(行人)。



如下视频展示了七只山羊大步往前跑,相互之间外观高度相似且彼此遮挡,极大增加了视频目标分割的难度。且 mask 标注质量很高,对动物的尾巴和羊角等细节都进行了精细的标注。



更多可视化片段参见项目主页。


实验


以给定第一帧 mask 的半监督 (semi-supervised) 任务为例,研究者在 MOSE 上尝试了 6 种现有的开源的 VOS 算法,结果如下表所示。可以看到 MOSE 非常具有挑战性。在之前的数据集 DAVIS 和 Youtube-VOS 上,各方法均取得了 80% J&F 以上的好成绩,近乎饱和。然而,在新的 MOSE 数据集上,各方法的性能却并不尽人意。如目前最优的方法 DeAOT 在 DAVIS 2017 上的成绩为 85.2% J&F,但在 MOSE 上却只有 59.4% J&F。实验结果表明,尽管很多方法已经在之前的基准测试中取得了出色的 VOS 性能,但在复杂场景下仍存在未解决的挑战,未来需要更多努力来探索这些挑战。



研究者基于 VOS 其他子任务:无监督视频目标分割 (Unsupervised Video Object Segmentation) 以及交互式视频目标分割 (Interactive Video Object Segmentation) 也进行了实验,更多实验结果请见论文。


总结


研究者构建了一个名为 MOSE 的大规模复杂场景视频目标分割数据集,以推动 VOS 在更真实复杂场景下的应用研究。基于提出的 MOSE 数据集,作者对现有 VOS 方法进行了基准测试并进行了全面比较。发现在拥挤、消失、遮挡、以及非显著 / 小物体等复杂场景频繁出现时,会给现有算法带来了巨大挑战,期待 MOSE 能够启发更多研究人员进行复杂场景下的视频目标理解的研究。


更多细节请参考论文原文。

相关文章
|
人工智能 编解码 虚拟化
See3D:智源研究院开源的无标注视频学习 3D 生成模型
See3D 是智源研究院推出的无标注视频学习 3D 生成模型,能够从大规模无标注的互联网视频中学习 3D 先验,实现从视频中生成 3D 内容。See3D 采用视觉条件技术,支持从文本、单视图和稀疏视图到 3D 的生成,并能进行 3D 编辑与高斯渲染。
413 13
See3D:智源研究院开源的无标注视频学习 3D 生成模型
|
9月前
|
机器学习/深度学习 人工智能 vr&ar
LHM:单图生成3D动画人!阿里开源建模核弹,高斯点云重构服装纹理
阿里巴巴通义实验室开源的LHM模型,能够从单张图像快速重建高质量可动画化的3D人体模型,支持实时渲染和姿态控制,适用于AR/VR、游戏开发等多种场景。
2151 0
LHM:单图生成3D动画人!阿里开源建模核弹,高斯点云重构服装纹理
|
前端开发 JavaScript API
现代Web开发中的前后端分离架构
本篇文章探讨了前后端分离架构在现代Web开发中的应用与优势。
|
机器学习/深度学习 人工智能 并行计算
Pytorch Lightning使用:【LightningModule、LightningDataModule、Trainer、ModelCheckpoint】
Pytorch Lightning使用:【LightningModule、LightningDataModule、Trainer、ModelCheckpoint】
1345 0
|
存储 SQL NoSQL
NoSQL数据库与传统关系型数据库的比较
【7月更文挑战第29天】NoSQL数据库与传统关系型数据库各有其独特的优势和适用场景。关系型数据库在复杂查询、事务处理和一致性方面表现出色,但在扩展性和处理大规模数据集时可能受到限制。而NoSQL数据库则以高扩展性、高性能和高可用性为目标,适用于处理大规模数据集和高并发读写场景。在选择数据库时,开发者应根据具体的应用场景和需求进行权衡和选择。
|
Web App开发 缓存 编解码
FFmpeg开发笔记(三十八)APP如何访问SRS推流的RTMP直播地址
《FFmpeg开发实战》书中介绍了轻量级流媒体服务器MediaMTX,适合测试RTSP/RTMP协议,但不适用于复杂直播场景。SRS是一款强大的开源流媒体服务器,支持多种协议,起初为RTMP,现扩展至HLS、SRT等。在FFmpeg 6.1之前,推送给SRS的HEVC流不受支持。要播放RTMP流,Android应用可使用ExoPlayer,需在`build.gradle`导入ExoPlayer及RTMP扩展,并根据URL类型创建MediaSource。若SRS播放黑屏,需在配置文件中开启`gop_cache`以缓存关键帧。
741 2
FFmpeg开发笔记(三十八)APP如何访问SRS推流的RTMP直播地址
|
存储 分布式计算 监控
如何监控和管理 Databricks 中的资源
【8月更文挑战第12天】
338 1
|
算法
递归算法实现二分查找
本文简要介绍了递归实现的二分查找算法,这是一种在有序列表中快速查找的策略。递归方法虽在实际应用中较少,但有助于理解递归思想,为学习数据结构中的树内容打下基础。文中提供了原版和递归版本的二分查找代码,并强调了递归算法中处理未找到情况的注意事项。此外,还提到了递归在解决复杂问题时的优势,并通过链接分享了一个关于递归实现素数判断的例子。
351 2
|
人工智能 自然语言处理 文字识别
社区供稿 | 元象首个多模态大模型XVERSE-V开源,刷新权威大模型榜单,支持任意宽高比输入
元象公司发布了开源多模态大模型XVERSE-V,该模型在图像输入的宽高比方面具有灵活性,并在多项评测中展现出优越性能,超越了包括谷歌在内的多个知名模型。XVERSE-V采用创新方法结合全局和局部图像信息,适用于高清全景图识别、文字检测等任务,且已在Hugging Face、ModelScope和GitHub上开放下载。此外,模型在视障场景、内容创作、教育解题、百科问答和代码生成等领域有广泛应用,并在VizWiz等测试集中表现出色。元象致力于推动AI技术的普惠,支持中小企业、研究者和开发者进行研发和应用创新。
github设置仓库可见性 私人仓库设置
github设置仓库可见性 私人仓库设置
987 0