ACM MM2024:对比学习滥用隐私数据!中科院等发布多步误差最小化方法

简介: 【8月更文挑战第21天】在ACM MM2024会议中,中科院等机构提出多步误差最小化(MEM)方法,针对对比学习处理多模态数据时的隐私风险。通过优化图像噪声和文本触发器,MEM能有效生成不可学习样本,误导模型学习错误模式,显著降低隐私泄露风险,并展现出高度的模型间可转移性。此方法拓宽了隐私保护技术的应用范围,同时面对计算成本与触发器选择等挑战。论文详述可见:https://arxiv.org/abs/2407.16307。

在最近的ACM MM2024会议上,一篇由中科院等机构联合发布的论文引起了广泛关注。该论文主要探讨了对比学习(MCL)在处理多模态数据时可能存在的隐私风险,并提出了一种名为多步误差最小化(MEM)的新颖方法来解决这一问题。

对比学习(MCL)是一种在零样本分类任务中表现出色的技术,它通过学习数百万从互联网上抓取的图像-文本对来实现。然而,这种对大规模数据的依赖也带来了潜在的隐私风险。黑客可能会未经授权地利用这些图像-文本数据进行模型训练,其中包括个人和敏感信息。

为了解决这个问题,研究人员提出了一种通过向训练图像添加难以察觉的扰动来生成不可学习样本的方法,以建立保护捷径。然而,这些方法主要是为单模态分类设计的,在多模态对比学习(MCL)中的应用仍处于探索阶段。

为了解决现有方法在多模态数据上的局限性,研究人员提出了多步误差最小化(MEM)方法。MEM是一种新颖的优化过程,用于生成多模态不可学习样本。它扩展了误差最小化(EM)框架,以优化图像噪声和附加文本触发器,从而扩大优化空间并有效地误导模型学习噪声特征和文本触发器之间的捷径。

具体而言,研究人员采用了投影梯度下降来解决噪声最小化问题,并使用HotFlip来近似梯度并替换单词以找到最佳文本触发器。广泛的实验证明了MEM的有效性,保护后的检索结果接近随机猜测的一半,并且具有很高的跨不同模型的可转移性。

MEM方法的优势在于它能够有效地保护多模态数据的隐私。通过优化图像噪声和文本触发器,MEM能够误导模型学习错误的模式,从而减少隐私泄露的风险。此外,MEM还具有很高的可转移性,可以在不同的模型上取得良好的保护效果。

然而,MEM方法也面临一些挑战。首先,生成不可学习样本的过程可能需要大量的计算资源和时间。其次,如何选择合适的文本触发器也是一个需要进一步研究的问题。最后,MEM方法的保护效果可能受到模型的鲁棒性和对抗样本攻击的影响。

论文链接: https://arxiv.org/abs/2407.16307

目录
相关文章
|
9月前
|
人工智能 搜索推荐 小程序
分享技术---AI智能题库考试系统
本平台融合AI智能技术,打造高效试题库系统,支持PC、手机在线刷题,提供智能出题、自动解析、错题回顾等功能,提升学习效率。具备章节练习、背题模式、笔记收藏等多样化学习方式,支持全终端同步,助力学员精准突破薄弱环节,快速提分。
|
5月前
|
敏捷开发 前端开发 测试技术
测试之道:重构你的测试策略 - 测试金字塔模型
测试之道:重构你的测试策略 - 测试金字塔模型
471 118
|
12月前
|
数据采集 安全 数据挖掘
淘宝天猫宝贝详情页面商品评论采集接口全解析
淘宝天猫商品评论采集接口为电商数据挖掘提供了重要工具。通过分析海量评论,消费者可获取购买决策参考,商家能优化产品与服务,市场研究者则能洞察行业趋势与竞品表现。该接口支持Python请求,助力开发者构建智能分析应用,推动电商生态中各方价值提升。使用时需遵守平台规则,确保数据安全与合法利用。
345 15
|
机器学习/深度学习 自然语言处理 安全
NeurIPS 2024:如何防御对抗性提示攻击?AdvUnlearn让图片生成风险骤降
扩散模型在文本到图像生成上取得成功,但也带来安全风险。本文提出AdvUnlearn框架,通过结合对抗性训练增强概念擦除的鲁棒性,有效防止对抗性提示攻击,同时保持模型的图像生成质量和实用性。实验验证了其在多种场景下的优势。
383 19
|
算法 数据处理 数据库
生物学经典Blast序列比对算法原理,如何在R语言和Python中实现序列的比对分析?
生物学经典Blast序列比对算法原理,如何在R语言和Python中实现序列的比对分析?
|
机器学习/深度学习 人工智能 编解码
[大语言模型-论文精读] 词性对抗性攻击:文本到图像生成的实证研究
[大语言模型-论文精读] 词性对抗性攻击:文本到图像生成的实证研究
|
机器学习/深度学习 存储 监控
|
机器学习/深度学习 编解码 自动驾驶
低质多模态数据融合,多家机构联合出了篇综述论文
【5月更文挑战第20天】这篇联合发布的综述论文聚焦于低质多模态数据融合的挑战,提出了一套分类体系,揭示了数据噪声、缺失值、不平衡及质量动态变化四大难题。论文回顾了各种融合方法,包括特征融合、决策融合和深度学习,但强调仍有未解决的问题,如噪声鲁棒性和缺失值处理。此外,它也讨论了实际应用中的挑战,如时间尺度差异、空间分辨率不匹配和隐私保护,为未来研究指明方向。[arXiv:2404.18947]
508 1
|
Python
接上python如何处理下载中断的情况
实现断点续传机制涉及记录已下载的字节数、使用`Range`头继续下载及合并文件块。Python示例代码展示了如何通过`requests`库从上次中断的位置开始下载,将新内容追加到现有文件。函数`resume_download(url, filename, last_byte=0)`接收URL、文件名和最后字节位置作为参数。注意,实际使用时需确保URL和文件路径有效。
512 0

热门文章

最新文章