还不如GAN!谷歌、DeepMind等发文:扩散模型直接从训练集里「抄」

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 还不如GAN!谷歌、DeepMind等发文:扩散模型直接从训练集里「抄」



 新智元报道  

编辑:LRS

【新智元导读】「图像生成质量」和「隐私保护」,二者不可得兼。

去年,图像生成模型大火,在一场大众艺术狂欢后,接踵而来的还有版权问题。

类似DALL-E 2, Imagen和Stable Diffusion等深度学习模型的训练都是在上亿的数据上进行训练的,根本无法摆脱训练集的影响,但是否某些生成的图像就完全来自于训练集?如果生成图像与原图十分类似的话,其版权又归谁所有?


最近来自谷歌、Deepmind、苏黎世联邦理工学院等多所知名大学和企业的研究人员们联合发表了一篇论文,他们发现扩散模型确实可以记住训练集中的样本,并在生成过程中进行复现。


论文链接:https://arxiv.org/abs/2301.13188


在这项工作中,研究人员展示了扩散模型如何在其训练数据中记忆单个图像,并在生成时将其重新复现出来。



文中提出一个生成和过滤(generate-and-filter)的pipeline,从最先进的模型中提取了一千多个训练实例,覆盖范围包含人物的照片、商标的公司标志等等。并且还在不同的环境中训练了数百个扩散模型,以分析不同的建模和数据决定如何影响隐私。

总的来说,实验结果显示,扩散模型对训练集的隐私保护比之前的生成模型(如GANs)要差得多。


记了,但记得不多


去噪扩散模型(denoising diffusion model)是近期兴起的新型生成式神经网络,通过迭代去噪的过程从训练分布中生成图像,比之前常用的GAN或VAE模型生成效果更好,并且更容易扩展模型和控制图像生成,所以也迅速成为了各种高分辨率图像生成的主流方法。

尤其是OpenAI发布DALL-E 2之后,扩散模型迅速火爆了整个AI生成领域。

生成式扩散模型的吸引力源于其合成表面上与训练集中的任何东西都不同的新图像的能力,事实上,过去的大规模训练工作「没有发现过拟合的问题」,而隐私敏感领域(privacy sensitive domain)的研究人员甚至提出,扩散模型可以通过合成图像来「保护真实图像的隐私」不过这些工作都依赖于一个假设:即扩散模型不会记忆并再次生成训练数据,否则就会违反隐私保证,并引起诸多关于模型泛化和数字伪造(digital forgery)的问题。但事实果真如此吗?要想判断生成的图像是否来自于训练集,首先需要定义什么是「记忆」(memorization)

之前的相关工作主要集中在文本语言模型上,如果模型能够逐字从训练集中恢复一个逐字记录的序列,那么这个序列就被称为「提取」和「记忆」了;但因为这项工作是基于高分辨率的图像,所以逐字逐句匹配的记忆定义并不适合。

下面是研究人员定义的一个基于图像相似性度量的记忆。

如果一个生成的图像x,并且与训练集中多个样本之间的距离(distance)小于给定阈值,那么该样本就被视为从训练集中得到的,即Eidetic Memorization.

然后,文中设计了一个两阶段的数据抽取攻击(data extraction attack)方法:

1. 生成大量图像

第一步虽然很简单,但计算成本很高:使用选定的prompt作为输入,以黑盒的方式生成图像。

研究人员为每个文本提示生成500张候选图像以增加发现记忆的几率。

2. 进行Membership Inference

把那些疑似是根据训练集记忆生成的图像标记出来。

研究人员设计的成员推理攻击策略基于以下思路:对于两个不同的随机初始种子,扩散模型生成的两张图像相似概率会很大,并且有可能在距离度量下被认为是根据记忆生成的。

抽取结果


为了评估攻击效果,研究人员从训练数据集中选择了35万个重复率最高的例子,并为每个提示生成500张候选图像(总共生成了1.75亿张图像)。

首先对所有这些生成的图像进行排序,通过在团(clique)中的图像之间的平均距离来识别那些可能通过记忆训练数据生成的图像。

然后把这些生成的图像与训练图像进行比较,将每张图像标注为「extracted」和「not extracted」,最终发现了94张疑似从训练集中抽取的图像。

通过视觉分析,将排名top 1000的图片手动标注为「memorized」或「not memorized」,其中发现还有13张图片是通过复制训练样本生成的。

从P-R曲线上来看,这种攻击方式是非常精确的:在1.75亿张生成的图像中,可以识别出50张被记住的图像,而假阳性率为0;并且所有根据记忆生成的图像都可以被提取出来,精确度高于50%

为了更好地理解记忆是如何以及为什么会发生的,研究人员还在CIFAR10上训练了数百个较小扩散模型,以分析模型精度、超参数、增强和重复数据删除对隐私的影响。

Diffusion vs GAN


与扩散模型不同的是,GANs并没有明确被训练来记忆和重建其训练数据集。

GANs由两个相互竞争的神经网络组成:一个生成器和一个判别器。生成器同样接收随机噪声作为输入,但与扩散模型不同的是,它必须在一次前向传递中把这种噪声转换成有效图像。

训练GAN的过程中,判别器需要预测图像是否来自于生成器,而生成器需要提升自己以欺骗判别器。

因此,二者的不同之处在于,GAN的生成器只使用关于训练数据的间接信息进行训练(即使用来自判别器的梯度),并没有直接接收训练数据作为输入。

不同的预训练生成模型中抽取的100万个无条件生成的训练图像,然后按FID排序的GAN模型(越低越好)放在上面,把扩散模型放在下面。

结果显示,扩散模型比GAN模型记忆得更多,并且更好的生成模型(较低的FID)往往能记住更多的数据,也就是说,扩散模型是最不隐私的图像模型形式,其泄露的训练数据是GANs的两倍以上。

并且从上面的结果中还可以发现,现有的隐私增强技术并不能提供一个可接受的隐私-性能权衡,想提高生成质量,就需要记住更多训练集中的数据。

总的来说,这篇论文强调了日益强大的生成模型和数据隐私之间的矛盾,并提出了关于扩散模型如何工作以及如何负责任地部署它们的问题。

版权问题


从技术上来讲,重建(reconstruction)正是扩散模型的优势;但从版权上来说,重建就是软肋。

由于扩散模型生成的图像与训练数据之间的过于相似,艺术家们对自己的版权问题进行了各种争论。

比如禁止AI使用自己的作品进行训练,发布的作品添加大量水印等等;并且Stable Diffusion也已经宣布,它计划下一步只使用包含已授权内容的训练数据集,并提供了一个艺术家退出机制。

在NLP领域同样面临这个问题,有网友表示自1993年以来已经发布了数百万字的文本,而包括ChatGPT-3等所有AI都是在「被偷走的内容」上训练的,使用基于AI的生成模型都是不道德的。

虽说天下文章一大抄,但对普通人来说,抄袭只是一种可有可无的捷径;而对创造者来说,被抄袭的内容却是他们的心血。

在未来,扩散模型还会有优势吗?

参考资料:https://arxiv.org/abs/2301.13188

相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习还不如浅层网络?RL教父Sutton持续反向传播算法登Nature
【9月更文挑战第24天】近年来,深度学习在人工智能领域取得巨大成功,但在连续学习任务中面临“损失可塑性”问题,尤其在深度强化学习中更为突出。加拿大阿尔伯塔大学的研究人员提出了一种名为“持续反向传播”的算法,通过选择性地重新初始化网络中的低效用单元,保持模型的可塑性。该算法通过评估每个连接和权重的贡献效用来决定是否重新初始化隐藏单元,并引入成熟度阈值保护新单元。实验表明,该算法能显著提升连续学习任务的表现,尤其在深度强化学习领域效果明显。然而,算法也存在计算复杂性和成熟度阈值设置等问题。
61 2
|
2月前
|
人工智能 自然语言处理 算法
GPT-4无师自通预测蛋白质结构登Nature子刊!LLM全面进军生物学,AlphaFold被偷家?
【9月更文挑战第17天】近日,《自然》子刊发表的一篇论文展示了GPT-4在预测蛋白质结构方面的惊人能力,这一突破不仅揭示了大型语言模型在生物学领域的巨大潜力,还可能影响传统预测工具如AlphaFold的地位。研究人员发现,GPT-4仅通过自然语言处理就能准确预测蛋白质的三维结构,包括常见的氨基酸序列和复杂的α-螺旋结构。实验结果显示,其预测精度与实际结构非常接近。这一成果意味着自然语言处理技术也可应用于生物学研究,但同时也引发了关于其局限性和对现有工具影响的讨论。论文详情见:https://www.nature.com/articles/s41598-024-69021-2
50 8
|
1月前
|
机器学习/深度学习 自然语言处理
【绝技揭秘】模型微调与RAG神技合璧——看深度学习高手如何玩转数据,缔造预测传奇!
【10月更文挑战第5天】随着深度学习的发展,预训练模型因泛化能力和高效训练而备受关注。直接应用预训练模型常难达最佳效果,需进行微调以适应特定任务。本文介绍模型微调方法,并通过Hugging Face的Transformers库演示BERT微调过程。同时,文章探讨了检索增强生成(RAG)技术,该技术结合检索和生成模型,在开放域问答中表现出色。通过实际案例展示了RAG的工作原理及优势,提供了微调和RAG应用的深入理解。
48 0
|
2月前
|
机器学习/深度学习 人工智能
CMU清华教LLM练成数学高手,LeanSTaR训练模型边思考边证明,登顶新SOTA
【9月更文挑战第2天】卡内基梅隆大学与清华大学的研究团队开发出名为LeanSTaR的语言模型,该模型结合形式化验证与机器学习技术,在数学证明上取得了重大突破,实现了类似人类数学家的思考和证明能力。这一成果不仅提升了数学证明任务的性能,尤其在复杂推理方面表现突出,还为数学研究和教育提供了有力支持。论文详细内容可访问 https://arxiv.org/abs/2407.10040。
51 12
|
3月前
|
机器学习/深度学习 自然语言处理
准确率达60.8%,浙大基于Transformer的化学逆合成预测模型,登Nature子刊
【8月更文挑战第29天】浙江大学团队在《Nature》子刊上发表的论文介绍了一款名为EditRetro的基于Transformer架构的化学逆合成预测模型,其准确率高达60.8%,为化学合成领域带来了革命性的变化。此模型无需依赖传统化学反应模板,具备更强的泛化能力和多样化合成路线生成能力,在药物研发和材料科学领域展现出巨大潜力,尽管仍存在一定的错误率和计算资源需求高等挑战。论文详情见:https://www.nature.com/articles/s41467-024-50617-1。
56 3
|
4月前
|
人工智能 算法 数据挖掘
语义熵识破LLM幻觉!牛津大学新研究登Nature
【7月更文挑战第22天】牛津大学研究者在Nature发布"使用语义熵检测大模型幻觉"。语义熵新方法有效识别大模型(LLMs)生成的不实或误导信息,通过聚类分析不同回答的语义等价性并计算概率,展示超越基线的幻觉检测能力,提升LLMs的可靠性。
137 7
|
5月前
|
机器学习/深度学习 人工智能 搜索推荐
Anthropic公开Claude 3,像人类一样特殊性格训练方法
【6月更文挑战第18天】Anthropic的Claude 3是款独特的人工智能模型,经“Constitutional AI”训练,发展出类似人类的性格。此方法涉及监督和强化学习,让模型自我改进并依据规则评估行为。虽然可能引入偏见和不可预测性,但旨在增强AI的适应性和人性化交互。[[1](https://arxiv.org/abs/2212.08073)]
115 2
|
机器学习/深度学习 缓存 搜索推荐
GAN、扩散模型应有尽有,CMU出品的生成模型专属搜索引擎Modelverse来了
GAN、扩散模型应有尽有,CMU出品的生成模型专属搜索引擎Modelverse来了
131 0
|
机器学习/深度学习 监控 自动驾驶
差点被ECCV错过的Oral论文:视频理解新框架,仅用微调的「成本」,达到预训练的「全能」
差点被ECCV错过的Oral论文:视频理解新框架,仅用微调的「成本」,达到预训练的「全能」
148 0
|
机器学习/深度学习 人工智能 算法
AlphaZero的黑箱打开了!DeepMind论文登上PNAS
AlphaZero的黑箱打开了!DeepMind论文登上PNAS
136 0

热门文章

最新文章