基于 VCSL 数据集和新的评价指标,该研究首先复现了目前常见的侵权定位算法,包括霍夫投票(Hough Voting)、时域网络(Temporal Network)、动态规划(Dynamic Programming)、动态时间扭曲(Dynamic Time Warping),并结合常见的开源帧特征算法,得到如下图所示的 benchmark。
其中 SPD 是该研究团队在去年 ACM MM21 中提出的侵权定位算法,也是当前视频侵权定位效果最好的算法。其中 SPD 下划线 1 表示在之前开源数据集 VCDB 上训练的效果,下划线 2 表示在 VCSL 数据集上训练的效果。可以看到后者效果好于前者,这也说明了大规模数据集的重要性。
这里也简单介绍下该研究在 ACM MM21 上发表的论文《Learning Segment Similarity and Alignment in Large-Scale Content Based Video Retrieval》,他们提出了一种视频片段相似度和定位网络(Segment Similarity and Alignment Network,SSAN),主要由两个部分组成:自监督关键帧检测 (Self-supervised Keyframe Extraction,SKE) 和相似图侵权定位检测(Similarity Pattern Detection,SPD)。关键帧检测(SKE)主要用于提取鲁棒且有代表性的关键帧,去除相似冗余帧;相似图侵权定位检测(SPD)主要用于视频相似片段定位。整个 SSAN 可以端到端进行训练,得到现阶段最好的片段级别侵权定位效果。
论文地址:https://dl.acm.org/doi/abs/10.1145/3474085.3475301
图 5. SSAN 算法结构,包括了关键帧抽取模块,基于帧的视频检索和时域侵权定位模块
在相似图侵权定位检测(SPD)这个模块中,该研究巧妙地将侵权定位问题转变成一个目标检测问题,如下图所示,这样就只需要极少的运算量就可以得到侵权定位的结果,并且具有多段侵权检测能力。
图 6. 左图,时域侵权定位 SPD 算法示意图,右图,相似图生成与原视频对示意图
本文的所有代码都已经开源,欢迎大家交流讨论和引用!
另外在今年的 CVPR22 上,蚂蚁集团与复旦大学人工智能创新与产业研究院,在 Biometric Workshop 上联合举办“宠物生物特征识别竞赛”,近期已在阿里云天池平台拉开帷幕。通过举办本届赛事,蚂蚁集团希望与合作伙伴一起,推动计算机视觉技术在生物特征识别领域的进步,鼓励面向真实场景的技术创新,为世界带来微小而美好的改变。