趋势来袭!大模型时代的文档图像发展与图像安全剖析

简介: 趋势来袭!大模型时代的文档图像发展与图像安全剖析

1. 前言背景

自去年ChatGPT发布之后,各大科技公司纷纷推出了自家的大模型,标志这人类社会正式进入了大模型时代。大模型的发展速度惊人,从最初的只能根据提问生成自然语言文本,到现在可以根据输入文本来绘图,根据输入图像来进行OCR识别,并对文档或图像的内容进行解释。这意味着现在的大模型已经从单一模态的输入和输出,进化到了多模态的输入和输出。

在近期召开的第六届中国模式识别与计算机视觉大会上。我专门学习了合合信息的郭丰俊博士关于文档图像前沿技术探索的分享。郭博士是上海交通大学模式识别与智能系统博士,他首先介绍了多模态在文档图像领域的应用以及合合信息在此方向的最新研究成果。接着,他阐述了如何应对各类图像安全问题,特别是图像篡改以及AI换脸等造假行为的甄别新思路。通过郭博士的分享,我对大模型时代文档图像领域的发展趋势有了更深入的了解。

2. 大模型在文档图像领域的应用

通用大语言模型(Large Language  Models,LLM)是以深度学习为基础,包含超大规模参数的预训练模型,主要应用于自然语言领域。这些模型的训练需要大量的高质量数据语料。然而,随着大模型的快速发展和广泛应用,高质量的数据语料逐渐被消耗殆尽。据预测,到2026年全世界可用于大模型训练的高质量数据语料将面临枯竭的风险。这对大模型的发展和应用提出了严峻挑战。

为了应对这一问题,单一的文本数据输入已无法满足需求,大模型需要引入多种模态的数据语料。电子文档作为丰富的数据源,具有巨大的潜力。首先,电子文档提供了丰富多样的文本内容,涵盖了各种领域的专业知识,专业术语,实际场景将这些文档作为语料库,可以有效扩大大语言模型的训练数据范围,提高其语言理解和生成能力。其次,电子文档通常经过精心编辑,逻辑清晰、可读性强。其章节分明、段落明确的结构有助于大模型更好地学习理解上下文规则。此外,通过电子文档的训练,大模型还能够适应不同的语境和用法。

考虑到电子文档中存在大量的扫描件,文档图像处理技术的发展对大模型的进步具有重要意义。图像处理和自然语言处理相结合,将为大模型提供更加全面和多样的数据支持,进一步推动其发展和应用。

同时,这种技术也可以给图像识别提供新的思路和方法。通过结合自然语言处理,图像识别可以更加准确地理解图像中的文本信息,从而提高图像识别的准确性和可靠性。这种跨模态的技术将为人工智能领域的发展带来新的机遇和挑战。

2.1. 文档图像大模型的进展

目前,业界已经涌现出了一批知名的文档图像大模型,其中有代表性的包括多模态模型BLP2,微软的LLaVA以及DeepMind的Flamingo。这些模型在工作机制上有所不同,但都展现了在文档图像处理领域的强大能力。

BLP2多模态模型使用Q-Former连接图像编码器(ViT) 和LLM解码器,通过Image  Encode将图像进行编码,然后使用Q-Former将图像部分和文字部分进行融合,最后对接大模型进行理解和生成。这种工作机制使得BLP2不仅能够进行图像识别,还能充分利用大模型的理解能力,提高了模型的性能和应用范围。

微软的LLaVA模型则采用CLIP ViT-L图像编码器和LLaMA解码器,并使用GPT-4和自注意力生成高质量的158K  instruction following数据。这种方法使得LLaVA能够在文档图像处理任务中取得较好的效果,提高了模型的准确性和可靠性。

DeepMind的Flamingo模型则在大语言模型中增加了Gated Attention层,通过计算图像特征和文本特征之间的注意力权重,生成与文本特征相匹配的视觉向量。这个视觉向量与文本向量一起作为输入,使得语言模型的输出更加准确和生动。

尽管这些文档图像大模型在工作机制上有所不同,但它们都依赖于OCR引擎进行文本识别。这种模式存在的一个问题是误差的累积,目前这些模型在OCR识别上的系统性能还有待进一步提高。

郭丰俊博士指出了当前文档图像大模型在处理细粒度文本时存在的局限性,可能的原因之一是视觉编码器的分辨率不足。在真实的应用场景中,细粒度文本往往会受到光照、噪声、变形等各种因素的干扰,这增加了文字识别的难度。现有的多模态大模型中的视觉编码器,如基于卷积神经网络或Transformer的模型,在处理图像时会受到分辨率的限制,导致对细粒度文本的识别效果不佳。

另一方面,训练数据集的缺乏也是影响模型性能的重要因素。由于缺少针对细粒度文本的标注数据,模型难以从数据中学习到有效的细粒度文本特征表示。因此,虽然现有的多模态大模型在处理显著文本时表现较好,但在处理细粒度文本时仍存在很大的局限性。

为了克服这些局限性,需要进一步开展深入的研究和探索。

3. 图像安全

图像安全与每个人的日常生活紧密相连,许多诈骗分子利用伪造的身份证冒充他人进行非法交易,或者通过虚假发票实施金融诈骗。

在传统图像处理中,人们通过PS(Photoshop)等工具对图像进行篡改,例如添加水印,修改原图内容等。这种篡改方式相对较易检测出来。然而,随着大模型时代的到来,AI换脸技术的出现使得图像篡改变得更加复杂和难以检测。通过运用大量的训练数据和强大的神经网络模型,AI可以生成非常逼真的人脸图像,与真实的人脸几乎无法区分。由此,利用AI换了技术进行欺诈的案例屡见不鲜。

除了AI换脸技术,通过生成对抗网络(GAN)等技术 ,AIGC还能生成各种类型的图像,包括风景、动物、物体等。这些生成的图像可以非常逼真,与真实的图片相比真假难辨。这给图像安全带来了巨大的挑战,因为人们很难判断一张图像是真实拍摄的还是由AI所生成的。

为了应对这些挑战,研究人员正在努力开发新的技术和方法来检测和防止图像篡改和伪造。

3.1. 图像篡改检测

传统的图像篡改检测技术主要通过应用Sobel算子计算图像的梯度,然后进行阈值处理,将梯度幅值较小的像素设为零。接着通过分析非零像素数量来判断图像是否被篡改。具体来说,如果非零像素数量超过图像总像素数的1%,那么该图像会被认定为已被篡改。

这种方法对于相片这类有明显像素差异的图片有一定的效果,但对于截图这类缺乏纹路和底色、光照差异的图片则显得力不从心,鉴别准确率不高。

为了应对这种情况,合合信息提出了一种全新的分割模型Backbone,该模型采用了ConvNeXt作为编码器,同时使用LightHam和EANet两个网络并行作为解码器。

编码器的作用是将输入的图像数据进行特征提取和压缩,将其转化为低维的特征表示。在这个分割模型中,选择的ConvNeXt编码器是一种基于卷积神经网络(CNN)的新型架构。它在保持计算效率的同时,能够有效地捕捉图像中的局部和全局信息,提高了网络的性能和表达能力。

解码器的作用则是将编码器提取的特征表示恢复为原始图像的大小,并进行像素级别的分类。在这个分割模型中,采用了并行的两个解码器:LightHam和EANet。LightHam是一种轻量级的解码器结构,通过分层注意力机制和多尺度融合策略,实现了高效的图像分割。而EANet(Efficient  Attention Network)则是一种高效的解码器结构,通过引入自底向上的注意力机制和空间金字塔池化等技术,提高了分割的准确性和速度。

最后,这两个解码器并行工作,分别生成两个独立的分割结果。这两个结果可以进一步融合或选择最优的结果作为最终的分割输出。这种并行处理的方式可以提高模型的鲁棒性和准确性,同时也增加了模型的复杂度和计算开销。

Backbone分割模型架构图如下图所示:

合合信息自研的图片篡改检测系统,在 ICDAR2023 文档图像篡改检测竞赛中,凭借卓越的检测性能,成功荣获赛道冠军。

合合信息自研的图片篡改检测系统已经在多个行业成功落地,包括证券、保险、银行、零售等。这些行业的业务流程涉及到大量的图像信息处理和审核,如证件照、合同、发票等,因此对图像篡改检测的需求较大。

通过引入合合信息的图片篡改检测系统,企业可以提高业务审核的准确性和效率,有效减少因图像篡改而引发的风险和损失。同时,该系统还可以提升企业的业务流程自动化水平,降低人工审核的成本和误差。

为了方便更多用户体验和使用该系统,合合信息已在其官网上线了这套图片篡改检测系统。有需求的小伙伴可以到官网进行免费体验。体验地址为: PS检测网址。通过这一系统, 用户可以快速检测图像是否被篡改,提高图像信息的可信度。

3.2. 生成式图像鉴别

生成式图像鉴别主要面临两大难题:首先,AI生成的图像涵盖了丰富多样的场景,这使得通过穷举法进行鉴别变得非常困难;其次,AI生成的图像非常的逼真,与真实图片相似度极高,这对人类的判断构成了极大的挑战。

为了应对这些难点,合合信息提出了一种创新的方法,基于空域和频域关系建模。这种方法无需穷举所有可能的图像,而是通过捕捉多维度的特征来准确地分辨真实图片和生成式图片之间的微妙差异。

这种多维度特征的分析方式为机器提供了一种更加精确的判断图像真实性的能力,从而有效地解决了生成式图片与真实图片相似度过高的问题。这使得机器能够更加可靠地鉴别图像的来源,提高了生成式图像鉴别的准确性。

模型结构图如下图所示:

以人脸为例,该模型通过运用多个空间注意力头来聚焦空间特征,并结合纹理增强模块对浅层特征中的细微伪影进行放大处理。这些技术手段大大增强了模型真实人脸和伪造人脸的感知与判断准确度。在各种复杂场景下,该模型均能够表现出高度可靠的性能,准确区分真实人脸和伪造人脸。随着相关技术的快速迭代,模型的性能也在不断提升,进一步优化了对生成式图像鉴别的能力。

4. 总结

通过郭丰俊博士的分享,我深入了解了大模型在文档图像领域应用的广阔前景。合合信息将大模型与OCR技术巧妙结合,创新地将端到端的检测识别定义为图片到序列的预测任务,只需单点标注指示文本位置,无需额外的ROI采样和复杂的后处理操作,真正实现了检测与识别的完美融合。这一创新方法极大地提高了文档图像识别的效率,展现了大模型在文档图像处理中的优势。

此外,合合信息还提出了一种空域和频率建模的方法,以解决AI换脸和AI生成图片的图像篡改鉴别问题。该方法通过捕捉多维度的特征,精确地分辨真实图片和生成式图片之间的细微差异,在实际场景中表现出可靠的性能。

值得一提的是,合合信息在文档图像领域拥有近20年的丰富积累,具备OCR识别、版面分析等技术领域的坚实基础。公司推出了多款知名产品,如扫描全能王和名片全能王等,展现了其在文档图像处理领域的领先地位。

相关文章
|
人工智能 芯片
通义千问上新,可一键免费解析超万页文档、速读百份文档
通义千问上新,可一键免费解析超万页文档、速读百份文档
2490 0
|
10月前
|
云安全 人工智能 安全
大模型+安全,阿里云发布AI云盾系列产品!
阿里云正式发布AI云盾(Cloud Shield for AI)系列安全产品,包括AI安全护栏、升级云安全中心、WAAP和云防火墙。该系列提供模型输入输出安全、AI-BOM、AI-SPM等能力,构建三层模型安全防御体系,涵盖AI基础设施、大模型及应用安全。其中,AI安全护栏保障生成式AI合规性,实时检测威胁并维护模型健康,支持多模态内容交叉检测的All In One API调用模式。此外,AI-BOM与AI-SPM助力客户持续监控AI资产及安全状态。
1214 3
大模型+安全,阿里云发布AI云盾系列产品!
|
8月前
|
机器学习/深度学习 传感器 监控
基于多模态感知的工业安全行为识别技术突破
本项目通过分层特征增强架构,突破工业安全监控中微小目标检测难、行为理解缺失和响应延迟高等技术瓶颈。采用动态ROI聚焦、时空域建模与联邦学习等创新技术,实现厘米级行为捕捉,准确率提升300%,隐患识别响应速度提高112倍,并已在危化、电力、医疗等行业落地应用,具备广阔推广前景。
464 0
|
5月前
|
人工智能 监控 安全
06_LLM安全与伦理:部署大模型的防护指南
随着大型语言模型(LLM)在各行业的广泛应用,其安全风险和伦理问题日益凸显。2025年,全球LLM市场规模已超过6400亿美元,年复合增长率达30.4%,但与之相伴的是安全威胁的复杂化和伦理挑战的多元化
755 0
|
存储 人工智能 搜索推荐
WiseMindAI:一款AI智能知识库,数据完全本地化,支持文档对话、10+种文档、10+AI大模型等
WiseMindAI 是一款由 Chris 开发的 AI 智能学习助手,支持数据完全本地化存储,确保用户隐私安全。它兼容多种文档格式(如 PDF、Markdown 等),并提供 AI 文档总结、智能笔记、沉浸式翻译、知识卡片生成等功能。此外,WiseMindAI 支持 10+ 大语言模型和自定义 AI 插件,适用于 Windows 和 Mac 平台,支持简体中文、繁体中文及英文。
1283 74
WiseMindAI:一款AI智能知识库,数据完全本地化,支持文档对话、10+种文档、10+AI大模型等
|
机器学习/深度学习 安全 大数据
揭秘!企业级大模型如何安全高效私有化部署?全面解析最佳实践,助你打造智能业务新引擎!
【10月更文挑战第24天】本文详细探讨了企业级大模型私有化部署的最佳实践,涵盖数据隐私与安全、定制化配置、部署流程、性能优化及安全措施。通过私有化部署,企业能够完全控制数据,确保敏感信息的安全,同时根据自身需求进行优化,提升计算性能和处理效率。示例代码展示了如何利用Python和TensorFlow进行文本分类任务的模型训练。
1038 6
|
10月前
|
SQL 人工智能 JSON
借助大模型提升甲方安全黑白灰运营效率实践
背景 随着大模型时代的到来,许多领域都能够借助大模型提高生产效率,安全领域也不例外。本文通过实践探索了如何借助大模型提升甲方安全运营中的漏洞发现效率和漏洞修复推荐效率。 甲方安全运营过程中,不仅需要能够发现漏洞,还需要将漏洞推进给业务线修复,本文实践主要围绕,通过GPT来提高漏洞审核效率,以及漏洞推进效率而进行。 本文使用 AWVS、DongTai IAST、CodeQl 等工具,并整合到安全工具集成平台 QingScan 中,以便实践和测试。
194 9
|
8月前
|
人工智能 安全 数据可视化
安全领航!阿里云AI Stack一体机首批通过国家信通院大模型安全能力认证
在人工智能深度渗透千行百业的当下,阿里云AI Stack一体机首批通过中国信通院《大模型一体机安全能力要求》标准评估,成为国内首批在系统架构上达标的标杆产品,标志着企业级大模型部署迈入安全可信新阶段。
707 0
|
人工智能 安全 算法
算力与安全:当千问大模型点亮超算互联网的“普罗米修斯之火”
**技术革命的新纪元:从“火种”到“燎原”** 2025年,中国国家超算互联网平台接入阿里巴巴“千问QwQ-32B”大模型,标志着算力资源整合迈入新阶段。用户可免费调用百万级Token的计算资源,将智能播撒至各领域。然而,这也带来了网络安全新挑战,如数据泄露、虚假信息传播和智能体失控等风险。 **算力与安全的辩证:一场永无止境的“矛与盾”博弈** 国家超算互联网通过连接20余家超算中心,汇聚6500余款算力商品,提升效率的同时也扩散了安全风险。基座模型幻觉、知识库渗透和智能体失控等问题凸显了安全防护的重要性,需构建全链路防护体系。

热门文章

最新文章