NeurIPS 2024:如何防御对抗性提示攻击?AdvUnlearn让图片生成风险骤降

简介: 扩散模型在文本到图像生成上取得成功,但也带来安全风险。本文提出AdvUnlearn框架,通过结合对抗性训练增强概念擦除的鲁棒性,有效防止对抗性提示攻击,同时保持模型的图像生成质量和实用性。实验验证了其在多种场景下的优势。

扩散模型(Diffusion Models,DMs)在文本到图像生成领域取得了显著的成功,但同时也带来了安全风险,如潜在的有害内容生成和版权侵犯。为了解决这些风险,机器遗忘(Machine Unlearning)技术,也被称为概念擦除(Concept Erasing),被开发出来。然而,这些技术仍然容易受到对抗性提示攻击(Adversarial Prompt Attacks)的影响,这些攻击可以在概念擦除后提示DMs重新生成包含被擦除概念(如裸露)的不期望的图像。

为了增强概念擦除的鲁棒性,本文将对抗性训练(Adversarial Training,AT)的原则整合到机器遗忘中,从而产生了一个名为AdvUnlearn的鲁棒遗忘框架。然而,要有效地实现这一点,面临着巨大的挑战。首先,作者发现直接实施AT会损害DMs在概念擦除后的图像生成质量。为了解决这个问题,他们在AdvUnlearn中开发了一种基于额外保留集的实用性保留正则化,以优化概念擦除鲁棒性和模型实用性之间的权衡。

此外,作者还发现文本编码器(Text Encoder)比UNet更适合进行鲁棒化,以确保遗忘的有效性。获得的文本编码器可以作为即插即用的鲁棒遗忘器,适用于各种DM类型。在实验中,作者进行了广泛的实验,以证明AdvUnlearn在各种DM遗忘场景中的鲁棒性优势,包括擦除裸露、物体和风格概念。除了鲁棒性,AdvUnlearn还实现了模型实用性和鲁棒性之间的平衡权衡。

实验结果表明,AdvUnlearn在各种DM遗忘场景中都表现出了显著的鲁棒性优势。例如,在擦除裸露概念的实验中,AdvUnlearn能够有效地防止DMs在对抗性提示攻击下重新生成包含裸露内容的图像。同样,在擦除物体和风格概念的实验中,AdvUnlearn也表现出了类似的鲁棒性优势。

除了鲁棒性,AdvUnlearn还实现了模型实用性和鲁棒性之间的平衡权衡。这意味着在增强概念擦除鲁棒性的同时,AdvUnlearn并没有显著损害DMs的图像生成质量。这对于实际应用来说非常重要,因为在许多情况下,我们需要在安全性和实用性之间取得平衡。

AdvUnlearn的提出为解决扩散模型中的安全风险提供了一种有前途的方法。通过整合对抗性训练的原则,AdvUnlearn能够有效地增强概念擦除的鲁棒性,从而减少对抗性提示攻击的风险。此外,AdvUnlearn还实现了模型实用性和鲁棒性之间的平衡权衡,这对于实际应用来说非常重要。

然而,AdvUnlearn也存在一些潜在的局限性。首先,尽管AdvUnlearn在实验中表现出了显著的鲁棒性优势,但在实际应用中可能仍然存在一些未被考虑到的攻击方式。因此,在实际部署AdvUnlearn时,需要进行更全面的安全评估。其次,AdvUnlearn的实现可能需要额外的计算资源和时间,这可能会对一些应用场景造成一定的限制。

论文地址:https://arxiv.org/abs/2405.15234

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
目录
相关文章
|
算法 Java 数据安全/隐私保护
Java:Hutool工具箱之Hutool-crypto加密解密
Java:Hutool工具箱之Hutool-crypto加密解密
3676 0
Java:Hutool工具箱之Hutool-crypto加密解密
|
4月前
|
人工智能 算法 定位技术
AR 导航导览技术如何实现的?提供全场景解决方案深度解析
传统导航在复杂场景中存在定位断层、空间认知成本高及实景导航实施难等问题。AR导航导览通过“实景+虚拟融合”,结合高精度定位引擎、实时三维渲染引擎和智能路径规划引擎,实现室内外无缝衔接的沉浸式体验。如需AR导航导览解决方案欢迎私信获取,如有项目合作及技术交流欢迎私信作者哦~
394 1
|
机器学习/深度学习 数据采集
|
SQL 监控 数据库
MSSQL性能调优实战技巧:索引优化策略、SQL查询重构与并发控制详解
在Microsoft SQL Server(MSSQL)的管理与优化过程中,性能调优是确保数据库高效运行的关键环节
|
10月前
|
机器学习/深度学习 人工智能 编解码
【AI系统】GhostNet 系列
本文介绍了GhostNet系列网络,重点讲解了GhostNet V1和V2的改进。V1提出了Ghost Module,通过廉价操作生成更多特征图,构建轻量级网络。V2在此基础上引入了解耦全连接注意力(DFC)机制,增强了模型捕捉长距离依赖的能力,同时保持了高效的计算性能,特别适合移动设备。文章详细对比了V2与V1的区别,包括结构改进和性能提升。
403 4
【AI系统】GhostNet 系列
|
机器学习/深度学习 并行计算 PyTorch
从零开始下载torch+cu(无痛版)
这篇文章提供了一个详细的无痛版教程,指导如何从零开始下载并配置支持CUDA的PyTorch GPU版本,包括查看Cuda版本、在官网检索下载包名、下载指定的torch、torchvision、torchaudio库,并在深度学习环境中安装和测试是否成功。
从零开始下载torch+cu(无痛版)
|
机器学习/深度学习 编解码 计算机视觉
【YOLOv8改进 - 特征融合NECK】 GIRAFFEDET之GFPN :广义特征金字塔网络,高效地融合多尺度特征
YOLOv8专栏探讨了目标检测的创新改进,提出了GiraffeDet,一种轻量级主干和深度颈部模块结合的高效检测网络。GiraffeDet使用S2D-chain和GFPN,优化多尺度信息交换,提升检测性能。代码和论文可在相关链接找到。GFPN通过跳跃和跨尺度连接增强信息融合。文章还展示了核心组件如SPPV4、Focus和CSPStage的代码实现。
|
机器学习/深度学习 自然语言处理 算法
ICML 2024:零阶优化器微调大模型,大幅降低内存
【7月更文挑战第14天】ICML 2024研究表明,零阶优化用于大模型微调能大幅降低内存需求。该论文通过避免反向传播,减少LLM(大型语言模型)微调的内存开销,提出新方法,适用于资源受限环境。虽然性能可能不及一阶优化器,但为高效NLP计算开辟了新途径。论文链接:[arxiv.org/abs/2402.11592](https://arxiv.org/abs/2402.11592)**
354 3
|
Docker Python 容器
5 分钟,教你用 Docker 部署一个 Python 应用!
5 分钟,教你用 Docker 部署一个 Python 应用!
1095 0