使用纹理对比度检测检测AI生成的图像

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 在本篇文章中我们将介绍如何开发一个深度学习模型来检测人工智能生成的图像

大多数用于检测人工智能生成图像的深度学习方法取决于生成图像的方法,或者取决于图像的性质/语义,其中模型只能检测人工智能生成的人、脸、汽车等特定对象。

但是这篇论文“Rich and Poor Texture Contrast: A Simple yet Effective Approach for AI-generated Image Detection”所提出的方法克服了上述问题,适用范围更广。我们将解释这篇论文,以及它是如何解决许多其他检测人工智能生成图像的方法所面临的问题的。

泛化性问题

当我们训练一个模型(如ResNet-50)来检测人工智能生成的图像时,模型会从图像的语义中学习。如果训练一个通过使用真实图像和人工智能生成的不同汽车图像来检测人工智能生成的汽车图像的模型,那么目前的模型只能从该数据中获得有关汽车的信息,而对于其他的物体就无法进行判别

虽然可以在各种对象的数据上进行训练,但当我们尝试这样做时,这种方法慢得多,并且只能够在未见过的数据上给出大约72%的准确率。虽然可以通过更多的训练和更多的数据来提高准确率,但我们不可能找到无穷无尽的数据进行训练。

也就是说目前检测模型的泛化性有很大的问题,为了解决这个问题,论文提出了以下的方法

Smash&Reconstruction

这篇论文提出了一种独特的方法来防止模型从图像的形状(在训练期间)学习人工智能生成的特征。它通过一个名为Smash&Reconstruction的方法来实现这一点。

在该方法将图像分成预定大小的小块,并对它们进行打乱洗牌生成形成新图像。这只是一个简单的解释,因为在形生成模型最终的输入图像之前还有一个额外的步骤。

将图像分割成小块后,我们将小块分成两组,一组是纹理丰富的小块,另一组是纹理较差的小块。

图像中细节丰富的区域,如物体或两个对比色区域之间的边界,就成为一个丰富的纹理块。与主要是背景的纹理区域(如天空或静止的水)相比,丰富的纹理区域在像素上有很大的变化。

计算纹理丰富的指标

首先将图像分成预先确定大小的小块,如上图所示。然后找到这些图像块的像素梯度(即找出水平方向、对角线方向和反对角线方向上的像素值之差并将它们相加),并将它们分离成丰富纹理块和纹理较差块。

与纹理较差的块相比,纹理丰富的块具有更高的像素梯度值,计算图像梯度值得公式如下:

在像素对比度的基础上对图像进行分离,得到两幅合成图像。这一过程是本文称之为“Smash&Reconstruction”的完整过程。

这样就让模型学习到得是纹理的细节,而不是物体的内容表征

fingerprint

大多数基于指纹的方法受到图像生成技术的限制,这些模型/算法只能检测由特定方法/类似方法(如扩散、GAN或其他基于CNN的图像生成方法)生成的图像。

为了精确地解决这个问题,论文已经将这些图像块划分为丰富或贫乏的纹理。然后作者又提出了一种识别人工智能生成图像指纹的新方法,这也就是论文的标题。他们提出在应用30个高通滤波器后,找到图像中丰富和贫乏纹理斑块之间的对比度。

丰富和贫乏的纹理块之间的对比度有什么帮助呢?

为了更好理解,我们将图像并排比较,真实图像和人工智能生成的图像。

这两张图像使用肉眼观看也是很难查看他们的去别的对吧

论文首先使用Smash&Reconstruction 过程:

在每个图像上应用30个高通滤波器后,它们之间的对比度:

从这些结果中我们可以看到,人工智能生成的图像与真实图像的对比度相比,纹理斑块丰富和贫乏的对比度要高得多。

这样我们用肉眼就可以看到区别了,所以可以将对比度的结果放入可训练模型,并将结果数据输入分类器,这样就是我们这篇论文的模型架构:

分类器的结构如下:

论文中提到了30个高通滤波器,这些滤波器最初是为隐写分析而引入的。

注:

图片隐写的方式有很多种。广义上,只要通过某种方式将信息隐藏到图片中而难以通过普通方式发现,就可以称为图片隐写,对于隐写分析有很多相关的研究,有兴趣的可以查阅相关资料。

这里的过滤器是使用卷积方法应用于图像的矩阵值,所使用的滤波器是高通滤波器,它只允许图像的高频特征通过它。高频特征通常包括边缘、精细细节和强度或颜色的快速变化。

除(f)和(g)外,所有滤波器在重新应用于图像之前都以一定角度旋转,因此总共形成30个滤波器。这些矩阵的旋转是用仿射变换完成的,而仿射变换是用SciPy完成的。

总结

论文的结果已经达到了92%的验证精度,并且据说如果训练的更多还会有更好的结果,这是一个非常有意思的研究,我还找到了训练的代码,有兴趣的可以深入研究:

论文:
https://avoid.overfit.cn/post/3aa6760ae9a9409896683fb17af7f876

作者:Hriday Keswani

目录
相关文章
|
14天前
|
机器学习/深度学习 人工智能 编解码
Inf-DiT:清华联合智谱AI推出超高分辨率图像生成模型,生成的空间复杂度从 O(N^2) 降低到 O(N)
Inf-DiT 是清华大学与智谱AI联合推出的基于扩散模型的图像上采样方法,能够生成超高分辨率图像,突破传统扩散模型的内存限制,适用于多种实际应用场景。
68 21
Inf-DiT:清华联合智谱AI推出超高分辨率图像生成模型,生成的空间复杂度从 O(N^2) 降低到 O(N)
|
11天前
|
人工智能
RealisHuman:AI 生成的人像不真实?后处理框架帮你修复生成图像中畸形人体部位
RealisHuman 是一个创新的后处理框架,专注于修复生成图像中畸形的人体部位,如手和脸,通过两阶段方法提升图像的真实性。
53 11
RealisHuman:AI 生成的人像不真实?后处理框架帮你修复生成图像中畸形人体部位
|
18天前
|
人工智能 UED
VersaGen:生成式 AI 代理,基于 Stable Diffusion 生成图像,专注于控制一至多个视觉主体等生成细节
VersaGen 是一款生成式 AI 代理,专注于文本到图像合成中的视觉控制能力,支持多种视觉控制类型,并通过优化策略提升图像生成质量和用户体验。
38 8
VersaGen:生成式 AI 代理,基于 Stable Diffusion 生成图像,专注于控制一至多个视觉主体等生成细节
|
5天前
|
机器学习/深度学习 人工智能 算法
昇腾AI行业案例(一):基于AI图像处理的疲劳驾驶检测
在本实验中,您将学习如何使用利用CV(Computer Vision)领域的AI模型来构建一个端到端的疲劳驾驶检测系统,并使用开源数据集进行效果验证。为此,我们将使用昇腾的AI硬件以及CANN等软件产品。
35 3
|
1月前
|
机器学习/深度学习 人工智能
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
Leffa 是 Meta 开源的图像生成框架,通过引入流场学习在注意力机制中精确控制人物的外观和姿势。该框架不增加额外参数和推理成本,适用于多种扩散模型,展现了良好的模型无关性和泛化能力。
79 11
Leffa:Meta AI 开源精确控制人物外观和姿势的图像生成框架,在生成穿着的同时保持人物特征
|
1月前
|
人工智能 API 语音技术
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
TEN Agent 是一个开源的实时多模态 AI 代理框架,集成了 OpenAI Realtime API 和 RTC 技术,支持语音、文本和图像的多模态交互,具备实时通信、模块化设计和多语言支持等功能,适用于智能客服、实时语音助手等多种场景。
179 15
TEN Agent:开源的实时多模态 AI 代理框架,支持语音、文本和图像的实时通信交互
|
1月前
|
存储 人工智能 安全
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
|
22天前
|
机器学习/深度学习 人工智能 安全
阿里云先知安全沙龙(武汉站) ——AI赋能软件漏洞检测,机遇, 挑战与展望
本文介绍了漏洞检测的发展历程、现状及未来展望。2023年全球披露的漏洞数量达26447个,同比增长5.2%,其中超过7000个具有利用代码,115个已被广泛利用,涉及多个知名软件和系统。文章探讨了从人工审计到AI技术的应用,强调了数据集质量对模型性能的重要性,并展示了不同检测模型的工作原理与实现方法。此外,还讨论了对抗攻击对模型的影响及提高模型可解释性的多种方法,展望了未来通过任务大模型实现自动化漏洞检测与修复的趋势。
|
1月前
|
机器学习/深度学习 人工智能
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
SNOOPI是一个创新的AI文本到图像生成框架,通过增强单步扩散模型的指导,显著提升模型性能和控制力。该框架包括PG-SB和NASA两种技术,分别用于增强训练稳定性和整合负面提示。SNOOPI在多个评估指标上超越基线模型,尤其在HPSv2得分达到31.08,成为单步扩散模型的新标杆。
74 10
SNOOPI:创新 AI 文本到图像生成框架,提升单步扩散模型的效率和性能
|
1月前
|
人工智能 搜索推荐 开发者
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问
Aurora是xAI为Grok AI助手推出的新图像生成模型,专注于生成高逼真度的图像,特别是在人物和风景图像方面。该模型支持文本到图像的生成,并能处理包括公共人物和版权形象在内的多种图像生成请求。Aurora的可用性因用户等级而异,免费用户每天能生成三张图像,而Premium用户则可享受无限制访问。
78 11
Aurora:xAI 为 Grok AI 推出新的图像生成模型,xAI Premium 用户可无限制访问