NeurIPS 2024:如何防御对抗性提示攻击?AdvUnlearn让图片生成风险骤降

简介: 扩散模型在文本到图像生成上取得成功,但也带来安全风险。本文提出AdvUnlearn框架,通过结合对抗性训练增强概念擦除的鲁棒性,有效防止对抗性提示攻击,同时保持模型的图像生成质量和实用性。实验验证了其在多种场景下的优势。

扩散模型(Diffusion Models,DMs)在文本到图像生成领域取得了显著的成功,但同时也带来了安全风险,如潜在的有害内容生成和版权侵犯。为了解决这些风险,机器遗忘(Machine Unlearning)技术,也被称为概念擦除(Concept Erasing),被开发出来。然而,这些技术仍然容易受到对抗性提示攻击(Adversarial Prompt Attacks)的影响,这些攻击可以在概念擦除后提示DMs重新生成包含被擦除概念(如裸露)的不期望的图像。

为了增强概念擦除的鲁棒性,本文将对抗性训练(Adversarial Training,AT)的原则整合到机器遗忘中,从而产生了一个名为AdvUnlearn的鲁棒遗忘框架。然而,要有效地实现这一点,面临着巨大的挑战。首先,作者发现直接实施AT会损害DMs在概念擦除后的图像生成质量。为了解决这个问题,他们在AdvUnlearn中开发了一种基于额外保留集的实用性保留正则化,以优化概念擦除鲁棒性和模型实用性之间的权衡。

此外,作者还发现文本编码器(Text Encoder)比UNet更适合进行鲁棒化,以确保遗忘的有效性。获得的文本编码器可以作为即插即用的鲁棒遗忘器,适用于各种DM类型。在实验中,作者进行了广泛的实验,以证明AdvUnlearn在各种DM遗忘场景中的鲁棒性优势,包括擦除裸露、物体和风格概念。除了鲁棒性,AdvUnlearn还实现了模型实用性和鲁棒性之间的平衡权衡。

实验结果表明,AdvUnlearn在各种DM遗忘场景中都表现出了显著的鲁棒性优势。例如,在擦除裸露概念的实验中,AdvUnlearn能够有效地防止DMs在对抗性提示攻击下重新生成包含裸露内容的图像。同样,在擦除物体和风格概念的实验中,AdvUnlearn也表现出了类似的鲁棒性优势。

除了鲁棒性,AdvUnlearn还实现了模型实用性和鲁棒性之间的平衡权衡。这意味着在增强概念擦除鲁棒性的同时,AdvUnlearn并没有显著损害DMs的图像生成质量。这对于实际应用来说非常重要,因为在许多情况下,我们需要在安全性和实用性之间取得平衡。

AdvUnlearn的提出为解决扩散模型中的安全风险提供了一种有前途的方法。通过整合对抗性训练的原则,AdvUnlearn能够有效地增强概念擦除的鲁棒性,从而减少对抗性提示攻击的风险。此外,AdvUnlearn还实现了模型实用性和鲁棒性之间的平衡权衡,这对于实际应用来说非常重要。

然而,AdvUnlearn也存在一些潜在的局限性。首先,尽管AdvUnlearn在实验中表现出了显著的鲁棒性优势,但在实际应用中可能仍然存在一些未被考虑到的攻击方式。因此,在实际部署AdvUnlearn时,需要进行更全面的安全评估。其次,AdvUnlearn的实现可能需要额外的计算资源和时间,这可能会对一些应用场景造成一定的限制。

论文地址:https://arxiv.org/abs/2405.15234

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
目录
相关文章
|
存储 机器学习/深度学习 自然语言处理
大语言模型隐私防泄漏:差分隐私、参数高效化
大语言模型隐私防泄漏:差分隐私、参数高效化
1351 4
|
算法 Java 数据安全/隐私保护
Java:Hutool工具箱之Hutool-crypto加密解密
Java:Hutool工具箱之Hutool-crypto加密解密
4285 0
Java:Hutool工具箱之Hutool-crypto加密解密
|
机器学习/深度学习 算法 安全
【博士每天一篇文献-综述】2024机器遗忘最新综述之一:An overview of machine unlearning
本文提供了机器遗忘的全面定义、问题方程、精确与近似遗忘的概念,并分类总结了机器遗忘方法,讨论了其在联邦学习和终身学习中的应用,提出了未来研究方向,为机器遗忘研究领域奠定了理论基础并指出了实际应用的潜力与挑战。
1321 5
【博士每天一篇文献-综述】2024机器遗忘最新综述之一:An overview of machine unlearning
|
机器学习/深度学习 存储 缓存
【博士每天一篇文献-综述】Machine Unlearning Solutions and Challenges
本文综述了机器遗忘的解决方案和挑战,全面分类并分析了精确遗忘和近似遗忘方法,探讨了它们在隐私保护、安全性增强、模型适应性提升中的应用,并提出了评价指标和未来研究方向。
1229 2
在Linux中,如何查看某进程所打开的所有文件?
在Linux中,如何查看某进程所打开的所有文件?
|
机器学习/深度学习 人工智能 编解码
【AI系统】GhostNet 系列
本文介绍了GhostNet系列网络,重点讲解了GhostNet V1和V2的改进。V1提出了Ghost Module,通过廉价操作生成更多特征图,构建轻量级网络。V2在此基础上引入了解耦全连接注意力(DFC)机制,增强了模型捕捉长距离依赖的能力,同时保持了高效的计算性能,特别适合移动设备。文章详细对比了V2与V1的区别,包括结构改进和性能提升。
902 4
【AI系统】GhostNet 系列
|
机器学习/深度学习 人工智能 自然语言处理
NotebookLM与NotebookLlama 了解下 | AI工具
在AI技术飞速发展的今天,Google和Meta分别推出了基于大型语言模型的笔记本应用——NotebookLM和NotebookLlama。这两款产品不仅提供了强大的文档处理和编码支持,还在文档和编码领域引领了创新。NotebookLM强调个性化和隐私保护,而NotebookLlama则以开源和高度定制性著称。本文将深入解析这两款产品并进行对比分析。【10月更文挑战第16天】
1524 2
|
机器学习/深度学习 编解码 数据可视化
转置卷积-清晰易懂
转置卷积(Transpose Convolution)是一种用于图像上采样的技术,常用于图像分割、生成对抗网络(GAN)等领域。与传统的上采样方法不同,转置卷积通过学习参数来实现更优的插值效果。本文介绍了转置卷积的背景、应用、与标准卷积的区别以及数学推导,帮助读者深入理解其原理和应用场景。
1597 1
|
人工智能 算法 数据挖掘
语义熵识破LLM幻觉!牛津大学新研究登Nature
【7月更文挑战第22天】牛津大学研究者在Nature发布"使用语义熵检测大模型幻觉"。语义熵新方法有效识别大模型(LLMs)生成的不实或误导信息,通过聚类分析不同回答的语义等价性并计算概率,展示超越基线的幻觉检测能力,提升LLMs的可靠性。
829 7
|
机器学习/深度学习 编解码 计算机视觉
【YOLOv8改进 - 特征融合NECK】 GIRAFFEDET之GFPN :广义特征金字塔网络,高效地融合多尺度特征
YOLOv8专栏探讨了目标检测的创新改进,提出了GiraffeDet,一种轻量级主干和深度颈部模块结合的高效检测网络。GiraffeDet使用S2D-chain和GFPN,优化多尺度信息交换,提升检测性能。代码和论文可在相关链接找到。GFPN通过跳跃和跨尺度连接增强信息融合。文章还展示了核心组件如SPPV4、Focus和CSPStage的代码实现。