ACM MM24：复旦提出首个基于扩散模型的视频非限制性对抗攻击框架，主流CNN和ViT架构都防不住它-阿里云开发者社区

ACM MM24：复旦提出首个基于扩散模型的视频非限制性对抗攻击框架，主流CNN和ViT架构都防不住它

2024-09-23 378

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【9月更文挑战第23天】复旦大学研究团队提出了ReToMe-VA，一种基于扩散模型的视频非限制性对抗攻击框架，通过时间步长对抗性潜在优化（TALO）与递归令牌合并（ReToMe）策略，实现了高转移性且难以察觉的对抗性视频生成。TALO优化去噪步骤扰动，提升空间难以察觉性及计算效率；ReToMe则确保时间一致性，增强帧间交互。实验表明，ReToMe-VA在攻击转移性上超越现有方法，但面临计算成本高、实时应用受限及隐私安全等挑战。[论文链接](http://arxiv.org/abs/2408.05479)

近年来，随着深度学习的快速发展，生成对抗攻击在图像领域的应用取得了显著的成果。然而，在视频领域的研究相对较少。最近，复旦大学的研究团队提出了一种名为ReToMe-VA（Recursive Token Merging for Video Diffusion-based Unrestricted Adversarial Attack）的新型攻击框架，该框架是首个基于扩散模型的视频非限制性对抗攻击框架。

ReToMe-VA的主要目标是生成具有高转移性的难以察觉的对抗性视频片段。为了实现这一目标，研究团队提出了两种关键策略：时间步长对抗性潜在优化（TALO）和递归令牌合并（ReToMe）。

TALO策略旨在实现空间上的难以察觉性。它通过在扩散模型的潜在空间中优化每个去噪步骤的扰动来实现。这种策略提供了迭代和精确的更新，以生成更强大的对抗性帧。此外，TALO还能够减少梯度计算中的内存消耗，从而提高计算效率。

ReToMe机制则旨在实现时间上的难以察觉性。它通过在自注意力模块中匹配和合并视频帧之间的令牌来实现。这种机制确保了对抗性视频在时间上的一致性，同时促进了帧间的交互，从而产生了更多样化和鲁棒的梯度，进一步提高了攻击的转移性。

研究团队在广泛的实验中验证了ReToMe-VA的有效性。实验结果表明，ReToMe-VA在攻击转移性方面显著超过了现有的先进攻击方法，平均提高了14.16%。这一成果表明，ReToMe-VA是一种非常有前途的视频对抗攻击框架。

然而，ReToMe-VA也存在一些潜在的局限性。首先，由于视频数据的复杂性和多样性，生成具有高质量和难以察觉的对抗性视频仍然是一个具有挑战性的任务。其次，ReToMe-VA的计算成本相对较高，可能不适合实时应用。此外，由于视频数据的隐私和安全问题，使用对抗攻击来生成虚假或误导性视频也可能引发伦理和法律问题。

论文链接：http://arxiv.org/abs/2408.05479