扩散模型(Diffusion Models,DMs)在文本到图像生成领域取得了显著的成功,但同时也带来了安全风险,如潜在的有害内容生成和版权侵犯。为了解决这些风险,机器遗忘(Machine Unlearning)技术,也被称为概念擦除(Concept Erasing),被开发出来。然而,这些技术仍然容易受到对抗性提示攻击(Adversarial Prompt Attacks)的影响,这些攻击可以在概念擦除后提示DMs重新生成包含被擦除概念(如裸露)的不期望的图像。
为了增强概念擦除的鲁棒性,本文将对抗性训练(Adversarial Training,AT)的原则整合到机器遗忘中,从而产生了一个名为AdvUnlearn的鲁棒遗忘框架。然而,要有效地实现这一点,面临着巨大的挑战。首先,作者发现直接实施AT会损害DMs在概念擦除后的图像生成质量。为了解决这个问题,他们在AdvUnlearn中开发了一种基于额外保留集的实用性保留正则化,以优化概念擦除鲁棒性和模型实用性之间的权衡。
此外,作者还发现文本编码器(Text Encoder)比UNet更适合进行鲁棒化,以确保遗忘的有效性。获得的文本编码器可以作为即插即用的鲁棒遗忘器,适用于各种DM类型。在实验中,作者进行了广泛的实验,以证明AdvUnlearn在各种DM遗忘场景中的鲁棒性优势,包括擦除裸露、物体和风格概念。除了鲁棒性,AdvUnlearn还实现了模型实用性和鲁棒性之间的平衡权衡。
实验结果表明,AdvUnlearn在各种DM遗忘场景中都表现出了显著的鲁棒性优势。例如,在擦除裸露概念的实验中,AdvUnlearn能够有效地防止DMs在对抗性提示攻击下重新生成包含裸露内容的图像。同样,在擦除物体和风格概念的实验中,AdvUnlearn也表现出了类似的鲁棒性优势。
除了鲁棒性,AdvUnlearn还实现了模型实用性和鲁棒性之间的平衡权衡。这意味着在增强概念擦除鲁棒性的同时,AdvUnlearn并没有显著损害DMs的图像生成质量。这对于实际应用来说非常重要,因为在许多情况下,我们需要在安全性和实用性之间取得平衡。
AdvUnlearn的提出为解决扩散模型中的安全风险提供了一种有前途的方法。通过整合对抗性训练的原则,AdvUnlearn能够有效地增强概念擦除的鲁棒性,从而减少对抗性提示攻击的风险。此外,AdvUnlearn还实现了模型实用性和鲁棒性之间的平衡权衡,这对于实际应用来说非常重要。
然而,AdvUnlearn也存在一些潜在的局限性。首先,尽管AdvUnlearn在实验中表现出了显著的鲁棒性优势,但在实际应用中可能仍然存在一些未被考虑到的攻击方式。因此,在实际部署AdvUnlearn时,需要进行更全面的安全评估。其次,AdvUnlearn的实现可能需要额外的计算资源和时间,这可能会对一些应用场景造成一定的限制。