AAAI 2025| S5VH: 基于选择性状态空间的高效自监督视频哈希

简介: 随着短视频、流媒体平台的爆发式增长,如何高效地索引和检索视频数据成为计算机视觉和多媒体领域的重要研究问题。视频哈希(Video Hashing) 是一种通过学习紧凑的二进制编码来高效索引和检索视频的技术,其核心目标是使哈希码的汉明距离(Hamming Distance)能够准确地反映视频之间的语义相似性。

论文标题:

Efficient Self-Supervised Video Hashing with Selective State Spaces (S5VH)

作者:

Jinpeng Wang, Niu Lian, Jun Li, Yuting Wang, Yan Feng, Bin Chen, Yongbing Zhang, Shu-Tao Xia

机构:

清华大学、哈尔滨工业大学(深圳)、美团、鹏城实验室

代码链接:

https://github.com/gimpong/AAAI25-S5VH

https://modelscope.cn/models/JUN2005/AAAI2025-S5VH

论文链接:

https://arxiv.org/abs/2412.14518

会议:

AAAI 2025 (Association for the Advancement of Artificial Intelligence)

01.研究背景

随着短视频、流媒体平台的爆发式增长,如何高效地索引和检索视频数据成为计算机视觉和多媒体领域的重要研究问题。视频哈希(Video Hashing) 是一种通过学习紧凑的二进制编码来高效索引和检索视频的技术,其核心目标是使哈希码的汉明距离(Hamming Distance)能够准确地反映视频之间的语义相似性。

近年来,自监督视频哈希(SSVH, Self-Supervised Video Hashing)受到广泛关注,因为:

  1. 无需人工标注,可以利用海量无标签视频数据进行训练,利用视频内在的时序和语义信息进行学习,具有较高的实用价值。
  2. 计算效率高,相比深度特征匹配方法,哈希方法的查询速度更快,存储成本更低。

现有主流 SSVH 方法大多采用 Transformer 进行时序建模,然而:

  • Transformer 计算复杂度随帧数呈二次增长,难以扩展到长视频。
  • 训练和推理过程占用大量显存,限制了大规模部署的可行性。

大多数方法通常遵循内部样本学习(self/intra-sample)与样本间学习(inter-sample)相结合的范式。其中,内部信号(self)主要指通过各种数据增强下的重建任务来实现视频理解;而样本间信号则依赖于视频之间的对比学习,以获得具有辨识性的哈希码。但由于样本间信号受到单个样本局部(local)信息的影响,缺乏全局语义指导,容易受到负样本采样等问题影响,训练效率和稳定性较低。

02.研究目标

为了解决上述问题,我们受到Mamba(一种先进的状态空间模型(SSM))的启发,结合创新的自监督学习策略,提出了一种全新的 SSVH 方法——S5VH,能够在高效计算与检索效果之间取得更优的平衡。

03.论文贡献

我们的研究主要做出了以下三大贡献:

  1. 创新的视频哈希网络:
  • 首次 将 Mamba 引入 SSVH,提出 双向 Mamba 层 进行高效时序建模。
  • Mamba 采用数据选择性扫描机制,计算复杂度为线性 O(N),相比 Transformer 大幅降低计算量。
  • 全新的自监督学习策略:

提出了Self-Local-Global(SLG)学习范式,结合 哈希中心生成 与 中心对齐损失(),大幅提高训练效率。

  • 传统 SSVH 主要依赖对比学习,我们引入全局语义监督,使得哈希码学习更加高效且稳定。
  • 高效的哈希学习机制:
  • 设计了一种哈希中心生成算法,将特征空间的全局语义结构映射到哈希空间,提升哈希码的语义一致性。
  • 通过中心对齐损失,显著加速训练收敛速度。

04.方法介绍

📥 Pipeline 介绍

(a) 我们设计了一种基于 双向 Mamba 层 的编码器和解码器,以实现高效且精准的时序建模。

(b) 我们提出了一种优化算法,将特征空间中的全局语义结构转换为分离性良好且语义一致的哈希中心,以增强哈希学习的全局监督。

(c) 在哈希学习过程中,我们首先对视频帧进行编码,并基于最近的特征聚类生成伪标签。随后,对视频的两个视图进行采样,并采用共享的编码器和哈希层进行特征处理,从而获得帧级软哈希向量。接着,我们对帧级哈希向量进行聚合,以生成视频级哈希向量,进一步用于对比学习与中心对齐。此外,我们引入了一种辅助解码器(推理阶段移除),利用每个视图的帧哈希向量重建屏蔽帧,以强化局部信息建模。

✨ Mamba 赋能高效时序建模

❓ 为什么选择 Mamba?

传统的 SSVH 方法主要依赖 Transformer 进行时序建模,但其计算复杂度随帧数增长呈 O(N²),对于长视频的处理十分昂贵。而 Mamba 基于状态空间模型(SSM),其核心优势在于:

  • 计算复杂度仅为 O(N),适用于长视频处理。
  • 数据选择性扫描机制 能够自适应地筛选重要信息,减少冗余计算。
  • 结构紧凑,占用显存少,能够支持更大批量的视频输入。

🏗S5VH 采用的 Mamba 结构

在 S5VH 中,我们设计了一种 双向 Mamba 结构:

  • 前向 Mamba 模块:从视频起始向末尾扫描,捕捉前向依赖关系。
  • 反向 Mamba 模块:从视频末尾向起始扫描,弥补单向建模的不足,增强全局上下文信息。
  • 融合策略:通过对前向与反向的输出进行融合,获得更为丰富的时序特征表

这种结构相比 Transformer,计算量更低,时序建模能力更强,在实验中展现出了更优的性能。

🚀 全新 Self-Local-Global(SLG)学习范式

🔥 挑战:如何高效利用全局语义信息?

现有的自监督视频哈希(SSVH)方法通常依赖两类信号:

  • 自我恢复任务(Self):例如 帧重构、遮挡帧预测、时序顺序预测等,利用视频内在的时序和局部信息进行训练。
  • 单个视频对比学习(Local):通过比较同一视频的不同增强视图(或不同视频间的样本)来获得区分性特征。

存在如下问题:

  • Self重构任务往往只能捕捉到视频内的局部细节,难以提取出数据集整体的全局语义信息。
  • Local对比学习中,负样本采样等策略容易受到噪声和样本不平衡的影响(例如只将同一个视频的视图视为正例,不同视频全部视为负例,但实际上同一类视频的视图应为正例),导致训练过程不稳定且效率有限。
  • 缺乏显示全局监督,哈希码学习不稳定

✅ 我们的解决方案

我们提出了一种基于哈希中心的全局监督策略:

  1. 全局语义提取:在特征空间进行 k-means 聚类,获得 Nc 个全局聚类中心,聚类中心被看作是语义信息的压缩表示,用于指导后续哈希码学习。
  2. 哈希中心生成:论文提出优化算法,将特征空间中的全局语义中心转换为哈希空间中的“哈希中心”,要求这些哈希中心之间具有良好的分离性和语义一致性。
  3. 中心对齐损失(LCA):通过设计中心对齐损失,直接将视频的哈希码与对应的哈希中心进行对齐。该损失作为全局学习信号补充传统的局部重构或对比损失,使模型训练更快、更稳定,同时提升了最终哈希码的语义一致性。

我们在原有的 self-local 信号基础上引入了我们提出的全局监督信号,构建了全新的 Self-Local-Global (SLG) 学习范式。通过整合这三类互补的学习信号,SLG 既能够有效捕捉 self-local 级别的特征信息,又能确保生成的哈希码在哈希空间中保持良好的全局语义一致性与区分性。此外,该范式显著提升了模型的收敛速度与泛化能力,使其在大规模视频数据处理中表现更优。

05.实验结果

通用数据集检索

我们选取了6个有代表性的基线进行比较,在数据集和代码长度上,S5VH通常优于其他方法,证明了优越的功效。特别是对于16位这样的low-bit设置,这种改进更加明显,突出了S5VH卓越的检索性能。

t-SNE比较

与ConMH生成的哈希码相比,S5VH生成的哈希码在同一类别内表现出更清晰的紧凑性,不同类别之间的分离度增加。这一发现表明,S5VH产生更具鉴别性的二进制代码,这显著提高了检索性能。

推理效率

我们可以看到基于Mamba的S5VH在内存和计算上表现出较低的推理开销,其效率优势是可扩展的,并且在更大的帧数下更加显著。同时在哈希空间引入的全局学习信号表现出更快和更好的收敛。

06.论文总结

在本文中,团队介绍了S5VH,它是第一个基于Mamba的SSVH模型,具有增强的学习范式。S5VH开发双向Mamba层来捕获全面的时间关系,用于哈希学习。为了提高训练效率,我们提出了语义哈希中心生成算法和中心对齐损失来提取和利用全局学习信号。实验表明,S5VH在各种设置下都有一致的改进,迁移能力强,推理效率更高。我们的研究表明了状态空间模型在视频哈希中的强大潜力,我们希望这能激发进一步的研究。

欢迎大家在 GitHub 上 Star 我们的代码:https://github.com/gimpong/AAAI25-S5VH

点击链接阅读原文,S5VH-视频哈希

目录
相关文章
|
机器学习/深度学习 编解码 Shell
|
10月前
|
机器学习/深度学习 测试技术
ChronosX: 可使用外生变量的时间序列预测基础模型
时间序列预测中,基础模型虽在单变量任务中表现出色,但引入协变量支持仍面临挑战。Chronos研究团队提出ChronosX架构,通过适配器层有效整合历史与未来协变量信息,适用于任何单变量模型。实验表明,ChronosX显著提升预测性能,尤其在复杂数据集上优势明显。消融研究进一步验证了协变量模块的重要性。尽管需要轻量训练,但其灵活性和通用性为时间序列建模提供了新思路,未来或可通过类似LLM提示机制实现更高效的协变量处理。
649 16
ChronosX: 可使用外生变量的时间序列预测基础模型
|
11月前
|
人工智能 安全 BI
20万奖金池×最火技术风口!欧莱雅集团首届Agent黑客松火热开启,等你来战
20万奖金池×最火技术风口!欧莱雅集团首届Agent黑客松火热开启,等你来战
289 13
|
存储 数据可视化 大数据
基于Python Django的大数据招聘数据分析系统,包括数据大屏和后台管理
本文介绍了一个基于Python Django框架开发的大数据招聘数据分析系统,该系统具备后台管理功能和数据大屏展示,利用大数据技术收集和分析招聘市场趋势,帮助企业和招聘机构提高招聘效率和质量。
566 3
|
机器学习/深度学习 数据采集 PyTorch
高效数据加载与预处理:利用 DataLoader 优化训练流程
【8月更文第29天】 在深度学习中,数据加载和预处理是整个训练流程的重要组成部分。随着数据集规模的增长,数据加载的速度直接影响到模型训练的时间成本。为了提高数据加载效率并简化数据预处理流程,PyTorch 提供了一个名为 `DataLoader` 的工具类。本文将详细介绍如何使用 PyTorch 的 `DataLoader` 来优化数据加载和预处理步骤,并提供具体的代码示例。
2460 1
|
监控 算法 Linux
LabVIEW开发CAN通讯协议
LabVIEW开发CAN通讯协议
711 0
|
分布式计算 数据可视化 大数据
阿里云大牛熬夜整理的Python大数据小抄,GitHub星标125K!
Python 是一种流行的编程语言,在大数据领域有广泛的应用。Python 拥有丰富的库和工具,可用于数据处理、分析和可视化。 在大数据处理方面,Python 可以与 Hadoop、Spark 等大数据框架集成,实现大规模数据的处理和分析。它也适用于数据清洗、数据转换、数据挖掘等任务。 此外,Python 的数据分析库如 Pandas、NumPy 和 Matplotlib 等,提供了强大的数据处理和可视化功能,使得数据分析变得更加简单和高效。
|
机器学习/深度学习
斯坦福大学博士在GitHub发布的漫画机器学习小抄,竟斩获129k标星
斯坦福大学数据科学博士Chris Albon在GitHub上发布了一份超火的机器学习漫画小抄,发布仅仅一天就斩获GitHub榜首标星暴涨120k,小编有幸获得了一份并把它翻译成中文版本,今天给大家分享出来!
|
机器学习/深度学习
基于机器学习模型预测信用卡潜在用户(XGBoost、LightGBM和Random Forest)(二)
基于机器学习模型预测信用卡潜在用户(XGBoost、LightGBM和Random Forest)(二)
386 1
|
机器学习/深度学习 数据采集 数据可视化
基于机器学习模型预测信用卡潜在用户(XGBoost、LightGBM和Random Forest)(一)
基于机器学习模型预测信用卡潜在用户(XGBoost、LightGBM和Random Forest)(一)
431 0
基于机器学习模型预测信用卡潜在用户(XGBoost、LightGBM和Random Forest)(一)

热门文章

最新文章