在最近的ACM MM2024会议上,一篇由中科院等机构联合发布的论文引起了广泛关注。该论文主要探讨了对比学习(MCL)在处理多模态数据时可能存在的隐私风险,并提出了一种名为多步误差最小化(MEM)的新颖方法来解决这一问题。
对比学习(MCL)是一种在零样本分类任务中表现出色的技术,它通过学习数百万从互联网上抓取的图像-文本对来实现。然而,这种对大规模数据的依赖也带来了潜在的隐私风险。黑客可能会未经授权地利用这些图像-文本数据进行模型训练,其中包括个人和敏感信息。
为了解决这个问题,研究人员提出了一种通过向训练图像添加难以察觉的扰动来生成不可学习样本的方法,以建立保护捷径。然而,这些方法主要是为单模态分类设计的,在多模态对比学习(MCL)中的应用仍处于探索阶段。
为了解决现有方法在多模态数据上的局限性,研究人员提出了多步误差最小化(MEM)方法。MEM是一种新颖的优化过程,用于生成多模态不可学习样本。它扩展了误差最小化(EM)框架,以优化图像噪声和附加文本触发器,从而扩大优化空间并有效地误导模型学习噪声特征和文本触发器之间的捷径。
具体而言,研究人员采用了投影梯度下降来解决噪声最小化问题,并使用HotFlip来近似梯度并替换单词以找到最佳文本触发器。广泛的实验证明了MEM的有效性,保护后的检索结果接近随机猜测的一半,并且具有很高的跨不同模型的可转移性。
MEM方法的优势在于它能够有效地保护多模态数据的隐私。通过优化图像噪声和文本触发器,MEM能够误导模型学习错误的模式,从而减少隐私泄露的风险。此外,MEM还具有很高的可转移性,可以在不同的模型上取得良好的保护效果。
然而,MEM方法也面临一些挑战。首先,生成不可学习样本的过程可能需要大量的计算资源和时间。其次,如何选择合适的文本触发器也是一个需要进一步研究的问题。最后,MEM方法的保护效果可能受到模型的鲁棒性和对抗样本攻击的影响。