NeurIPS 2024:如何防御对抗性提示攻击?AdvUnlearn让图片生成风险骤降

本文涉及的产品
数据管理 DMS,安全协同 3个实例 3个月
推荐场景:
学生管理系统数据库
简介: 扩散模型在文本到图像生成上取得成功,但也带来安全风险。本文提出AdvUnlearn框架,通过结合对抗性训练增强概念擦除的鲁棒性,有效防止对抗性提示攻击,同时保持模型的图像生成质量和实用性。实验验证了其在多种场景下的优势。

扩散模型(Diffusion Models,DMs)在文本到图像生成领域取得了显著的成功,但同时也带来了安全风险,如潜在的有害内容生成和版权侵犯。为了解决这些风险,机器遗忘(Machine Unlearning)技术,也被称为概念擦除(Concept Erasing),被开发出来。然而,这些技术仍然容易受到对抗性提示攻击(Adversarial Prompt Attacks)的影响,这些攻击可以在概念擦除后提示DMs重新生成包含被擦除概念(如裸露)的不期望的图像。

为了增强概念擦除的鲁棒性,本文将对抗性训练(Adversarial Training,AT)的原则整合到机器遗忘中,从而产生了一个名为AdvUnlearn的鲁棒遗忘框架。然而,要有效地实现这一点,面临着巨大的挑战。首先,作者发现直接实施AT会损害DMs在概念擦除后的图像生成质量。为了解决这个问题,他们在AdvUnlearn中开发了一种基于额外保留集的实用性保留正则化,以优化概念擦除鲁棒性和模型实用性之间的权衡。

此外,作者还发现文本编码器(Text Encoder)比UNet更适合进行鲁棒化,以确保遗忘的有效性。获得的文本编码器可以作为即插即用的鲁棒遗忘器,适用于各种DM类型。在实验中,作者进行了广泛的实验,以证明AdvUnlearn在各种DM遗忘场景中的鲁棒性优势,包括擦除裸露、物体和风格概念。除了鲁棒性,AdvUnlearn还实现了模型实用性和鲁棒性之间的平衡权衡。

实验结果表明,AdvUnlearn在各种DM遗忘场景中都表现出了显著的鲁棒性优势。例如,在擦除裸露概念的实验中,AdvUnlearn能够有效地防止DMs在对抗性提示攻击下重新生成包含裸露内容的图像。同样,在擦除物体和风格概念的实验中,AdvUnlearn也表现出了类似的鲁棒性优势。

除了鲁棒性,AdvUnlearn还实现了模型实用性和鲁棒性之间的平衡权衡。这意味着在增强概念擦除鲁棒性的同时,AdvUnlearn并没有显著损害DMs的图像生成质量。这对于实际应用来说非常重要,因为在许多情况下,我们需要在安全性和实用性之间取得平衡。

AdvUnlearn的提出为解决扩散模型中的安全风险提供了一种有前途的方法。通过整合对抗性训练的原则,AdvUnlearn能够有效地增强概念擦除的鲁棒性,从而减少对抗性提示攻击的风险。此外,AdvUnlearn还实现了模型实用性和鲁棒性之间的平衡权衡,这对于实际应用来说非常重要。

然而,AdvUnlearn也存在一些潜在的局限性。首先,尽管AdvUnlearn在实验中表现出了显著的鲁棒性优势,但在实际应用中可能仍然存在一些未被考虑到的攻击方式。因此,在实际部署AdvUnlearn时,需要进行更全面的安全评估。其次,AdvUnlearn的实现可能需要额外的计算资源和时间,这可能会对一些应用场景造成一定的限制。

论文地址:https://arxiv.org/abs/2405.15234

相关实践学习
MySQL基础-学生管理系统数据库设计
本场景介绍如何使用DMS工具连接RDS,并使用DMS图形化工具创建数据库表。
目录
相关文章
【论文速递】NDSS2021 - 操纵 Byzantine: 联邦学习的模型中毒攻击与防御优化
【论文速递】NDSS2021 - 操纵 Byzantine: 联邦学习的模型中毒攻击与防御优化
|
机器学习/深度学习 分布式计算 安全
处理基于特征的挑战的网络入侵问题
处理基于特征的挑战的网络入侵问题
108 0
处理基于特征的挑战的网络入侵问题
|
机器学习/深度学习 算法 安全
物理攻击「损害」深度学习系统,CV、语音领域如何防御?(3)
物理攻击「损害」深度学习系统,CV、语音领域如何防御?
164 0
|
机器学习/深度学习 传感器 数据可视化
物理攻击「损害」深度学习系统,CV、语音领域如何防御?(1)
物理攻击「损害」深度学习系统,CV、语音领域如何防御?
142 0
|
机器学习/深度学习 传感器 编解码
物理攻击「损害」深度学习系统,CV、语音领域如何防御?(2)
物理攻击「损害」深度学习系统,CV、语音领域如何防御?
227 0
|
机器学习/深度学习 算法 安全
深度学习中,面对不可知攻击,如何才能做到防御「有的放矢」?(2)
深度学习中,面对不可知攻击,如何才能做到防御「有的放矢」?
|
机器学习/深度学习 运维 安全
学习笔记——对抗攻击模型
学习笔记——对抗攻击模型
260 0
学习笔记——对抗攻击模型
|
机器学习/深度学习 传感器 人工智能
物理攻击「损害」深度学习系统,CV、语音领域如何防御?
本文结合三篇最新的论文具体讨论计算机视觉领域中的物理攻击及检测方法,包括视觉领域和音频领域。
306 0
物理攻击「损害」深度学习系统,CV、语音领域如何防御?
|
机器学习/深度学习 安全 算法
深度学习中,面对不可知攻击,如何才能做到防御「有的放矢」?
深度学习中,面对不可知攻击,如何才能做到防御「有的放矢」?
332 0
深度学习中,面对不可知攻击,如何才能做到防御「有的放矢」?
|
安全 云安全 数据格式
watchbog再升级,企业黄金修补期不断缩小,或面临蠕虫和恶意攻击
如果用户没有在8月9日-8月21日这个黄金时间内对漏洞进行修补,则可能遭到定向攻击者的成功攻击。而在9月6日后,存在漏洞并且还未修复的用户,面对僵尸网络不停的扫描,几乎没有侥幸逃过攻击的可能性。
2304 0