ACM MM2024:对比学习滥用隐私数据!中科院等发布多步误差最小化方法

简介: 【8月更文挑战第21天】在ACM MM2024会议中,中科院等机构提出多步误差最小化(MEM)方法,针对对比学习处理多模态数据时的隐私风险。通过优化图像噪声和文本触发器,MEM能有效生成不可学习样本,误导模型学习错误模式,显著降低隐私泄露风险,并展现出高度的模型间可转移性。此方法拓宽了隐私保护技术的应用范围,同时面对计算成本与触发器选择等挑战。论文详述可见:https://arxiv.org/abs/2407.16307。

在最近的ACM MM2024会议上,一篇由中科院等机构联合发布的论文引起了广泛关注。该论文主要探讨了对比学习(MCL)在处理多模态数据时可能存在的隐私风险,并提出了一种名为多步误差最小化(MEM)的新颖方法来解决这一问题。

对比学习(MCL)是一种在零样本分类任务中表现出色的技术,它通过学习数百万从互联网上抓取的图像-文本对来实现。然而,这种对大规模数据的依赖也带来了潜在的隐私风险。黑客可能会未经授权地利用这些图像-文本数据进行模型训练,其中包括个人和敏感信息。

为了解决这个问题,研究人员提出了一种通过向训练图像添加难以察觉的扰动来生成不可学习样本的方法,以建立保护捷径。然而,这些方法主要是为单模态分类设计的,在多模态对比学习(MCL)中的应用仍处于探索阶段。

为了解决现有方法在多模态数据上的局限性,研究人员提出了多步误差最小化(MEM)方法。MEM是一种新颖的优化过程,用于生成多模态不可学习样本。它扩展了误差最小化(EM)框架,以优化图像噪声和附加文本触发器,从而扩大优化空间并有效地误导模型学习噪声特征和文本触发器之间的捷径。

具体而言,研究人员采用了投影梯度下降来解决噪声最小化问题,并使用HotFlip来近似梯度并替换单词以找到最佳文本触发器。广泛的实验证明了MEM的有效性,保护后的检索结果接近随机猜测的一半,并且具有很高的跨不同模型的可转移性。

MEM方法的优势在于它能够有效地保护多模态数据的隐私。通过优化图像噪声和文本触发器,MEM能够误导模型学习错误的模式,从而减少隐私泄露的风险。此外,MEM还具有很高的可转移性,可以在不同的模型上取得良好的保护效果。

然而,MEM方法也面临一些挑战。首先,生成不可学习样本的过程可能需要大量的计算资源和时间。其次,如何选择合适的文本触发器也是一个需要进一步研究的问题。最后,MEM方法的保护效果可能受到模型的鲁棒性和对抗样本攻击的影响。

论文链接: https://arxiv.org/abs/2407.16307

目录
相关文章
|
7月前
|
机器学习/深度学习 计算机视觉
【Tied-Augment】卷出新花样:加强数据增强的有效性!从一篇顶刊论文中窥探的一些信息,
【Tied-Augment】卷出新花样:加强数据增强的有效性!从一篇顶刊论文中窥探的一些信息,
94 0
【Tied-Augment】卷出新花样:加强数据增强的有效性!从一篇顶刊论文中窥探的一些信息,
|
2月前
|
机器学习/深度学习 存储 监控
揭秘微调‘失忆’之谜:如何运用低秩适应与多任务学习等策略,快速破解灾难性遗忘难题?
【10月更文挑战第13天】本文介绍了几种有效解决微调灾难性遗忘问题的方法,包括低秩适应(LoRA)、持续学习和增量学习策略、记忆增强方法、多任务学习框架、正则化技术和适时停止训练。通过示例代码和具体策略,帮助读者优化微调过程,提高模型的稳定性和效能。
89 5
|
7月前
终于有人调查了小模型过拟合:三分之二都有数据污染,微软Phi-3、Mixtral 8x22B被点名
【5月更文挑战第15天】研究人员发现,大型语言模型(LLM)在解决小学算术问题时可能因数据污染导致过拟合,三分之二的模型受影响,包括微软的Phi-3和Mixtral 8x22B。新基准GSM1k显示,一些LLM准确率下降13%,而Gemini/GPT/Claude等展现出较小过拟合。模型对GSM8k的依赖度与其性能差距正相关,提示记忆而非真正推理。论文呼吁研究如何提升LLM的泛化能力。[链接](https://arxiv.org/pdf/2405.00332)
42 2
|
7月前
|
机器学习/深度学习 自然语言处理
专治大模型说胡话,精确率100%!华科等提出首个故障token检测/分类方法
【4月更文挑战第29天】华中科技大学等机构研究者提出首个针对大语言模型故障token的检测与分类方法,精确率高达100%,显著提升文本质量。该方法利用上下文信息及注意力机制的神经网络,有效识别语法、语义和事实错误,但在逻辑和风格错误检测上仍有待改进。虽然计算成本高且无法实时干预生成过程,但为优化LLM提供了新途径。[论文链接](https://arxiv.org/abs/2404.09894)
65 1
|
机器学习/深度学习 算法 数据安全/隐私保护
「隐语小课」一种度量联邦学习中梯度泄露程度的方法
「隐语小课」一种度量联邦学习中梯度泄露程度的方法
392 0
|
机器学习/深度学习 人工智能 算法
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(1)
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习
102 0
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(1)
|
存储 算法 量子技术
攻克量子计算不可靠难题,IBM用误差缓解得到有用计算,登Nature封面
攻克量子计算不可靠难题,IBM用误差缓解得到有用计算,登Nature封面
122 0
|
机器学习/深度学习 编解码 人工智能
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果(1)
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果
185 0
|
机器学习/深度学习 人工智能 自然语言处理
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(2)
NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习
238 0
|
机器学习/深度学习 存储 安全
首个X光下的小样本检测基准和弱特征增强网络,北航、讯飞新研究入选ACM MM 2022
首个X光下的小样本检测基准和弱特征增强网络,北航、讯飞新研究入选ACM MM 2022
198 0