近年来,随着深度学习的快速发展,生成对抗攻击在图像领域的应用取得了显著的成果。然而,在视频领域的研究相对较少。最近,复旦大学的研究团队提出了一种名为ReToMe-VA(Recursive Token Merging for Video Diffusion-based Unrestricted Adversarial Attack)的新型攻击框架,该框架是首个基于扩散模型的视频非限制性对抗攻击框架。
ReToMe-VA的主要目标是生成具有高转移性的难以察觉的对抗性视频片段。为了实现这一目标,研究团队提出了两种关键策略:时间步长对抗性潜在优化(TALO)和递归令牌合并(ReToMe)。
TALO策略旨在实现空间上的难以察觉性。它通过在扩散模型的潜在空间中优化每个去噪步骤的扰动来实现。这种策略提供了迭代和精确的更新,以生成更强大的对抗性帧。此外,TALO还能够减少梯度计算中的内存消耗,从而提高计算效率。
ReToMe机制则旨在实现时间上的难以察觉性。它通过在自注意力模块中匹配和合并视频帧之间的令牌来实现。这种机制确保了对抗性视频在时间上的一致性,同时促进了帧间的交互,从而产生了更多样化和鲁棒的梯度,进一步提高了攻击的转移性。
研究团队在广泛的实验中验证了ReToMe-VA的有效性。实验结果表明,ReToMe-VA在攻击转移性方面显著超过了现有的先进攻击方法,平均提高了14.16%。这一成果表明,ReToMe-VA是一种非常有前途的视频对抗攻击框架。
然而,ReToMe-VA也存在一些潜在的局限性。首先,由于视频数据的复杂性和多样性,生成具有高质量和难以察觉的对抗性视频仍然是一个具有挑战性的任务。其次,ReToMe-VA的计算成本相对较高,可能不适合实时应用。此外,由于视频数据的隐私和安全问题,使用对抗攻击来生成虚假或误导性视频也可能引发伦理和法律问题。