文档处理容易“翻车”,来看看CCIG上的大咖怎么说

简介: 文档处理容易“翻车”,来看看CCIG上的大咖怎么说

一、前言

哪怕在互联网时代高速发展的今天,文档依然是人们在日常生活、工作中产生的信息的重要载体。

学生的作业、开具的发票、医生的医嘱、合同、简历、金融票据等都是通过文档来呈现的,它在我们的生活中随处可见。

现在我们为了更高效、安全的开展业务,常常需要对文档信息进行识别提取,比如:检测传递的证件是否有效,通过识别身份证照自动录入其对应的信息,以及提取手写稿的文字等场景。因此,让计算机具备阅读、理解和解释这些文档图像的能力在许多领域都具有广阔的应用价值。

然而在现阶段,文档图像的处理过程中还面临着诸多挑战:文档类型的多样产生了繁杂的版式与结构;受拍摄器材、背景环境影响,图像时常存在噪声和质量问题等:

因为有这些问题的存在,导致在文档处理上很容易“翻车”!

幸运的是,业界有很多大佬都在努力攻克这些难点,也取得了一些进展。在这次CCIG(中国图象图形大会)上,这些大咖也做了分享,让我们来看看他们是如何面对这些问题的以及他们对文档处理的看法是怎样的。

二、大会分享

1)文档分析与识别快速进步,但仍有很大的研究空间

来自中国科学院自动化研究所的副所长刘成林分享了在人工智能大模型时代下,他对文档识别的理解。

他们团队的主要研究内容是在版面分析(分割),文本定位、文本识别、表格识别,信息提取、公式、图形、符号等:

刘成林所长在会上带我们回顾了文档识别的研究简史,介绍了文档的种类以及现存的问题:

还分享了他们的研究现状:

一句话概括就是部分场景成功应用,大部分场景还不好用,在可靠性、可解释性、自适应性方面还需要提升。

另外,也分享了大模型GPT-4在文档处理中的应用:


他认为现阶段的大模型仍有很多不足,大模型现在未进行大规模的验证,识别精度可能不高,OCR模型的设计仍然很重要。但我们还是可以在文档处理上充分利用大模型的特征表示及语言能力。

未来他们会以设计自动化,应用无人化为目标,通过深度学习+结构化模型,生成模型、领域知识,迁移学习,领域泛化(利用相关领域数据和知识)、弱监督学习,跨模态学习、预训练(自监督学习)等方法来解决文档中各种元素和内容,多语言,多场景,多类型文档这类的广度研究问题,和文档语义理解,可解释性,可信度,字符结构分析,小样本学习,自适应之类的深度研究问题。

我很认同刘成林的观点,虽然现阶段文档处理在大多场景的应用并不乐观,但利用大模型的特征表示及语言能力会是一个不错的改善方案。

2)篡改文本图像的生成与检测

随着人工智能合成技术的发展,伪造多媒体信息在网络上泛滥成灾,干扰社会舆论和秩序,严重危害国家安全和社会稳定:

目前图像篡改生成与检测的研究都集中在自然图像,针对文本图像篡改生成与检测的相关研究较少。

2.1篡改文本图像生成

篡改文本图像生成指的是对场景图像中的指定文本进行编辑,在保留原始字体风格和背景纹理的同时,使目标文本尽可能清晰、容易辨认:

中国科学技术大学教授谢洪涛指出生成检测的任务难点是文字、字体、背景多样性:

也总结了现阶段几种常见模型的优缺点:

端到端场景文本擦除

1)EnsNet模型—通过条件对抗生成网络构建文本擦除器

优点:模型简单,提出文本擦除基本解决思路;

缺点:对复杂文本图像擦除效果较差;

2)EraseNet模型—引入文本感知分支,提升网络对文本区域的捕捉能力

优点:引入多级擦除策略,对擦除效果提升明显;

缺点:网络结构相较复杂,参数量较厚重;

3)CTRNet模型—以低维结构信息和高维上下文特征作为先验知识指导文本擦除和背景重建过程

优点:多维语义先验引入指导文字擦除和背景重建,针对复杂背景效果好;

缺点:同样依赖于GAN loss,训练过程相对复杂;


端到端场景文本篡改

1)SRNet模型—将文本部分和背景部分的生成方法分开学习,然后通过融合算法生成篡改图像

优点:模型简单,对简单文本篡改效果不错;

缺点:对复杂背景的文本图像篡改效果较差,对复杂字型有较重篡改痕迹;

2)SwapText模型—对目标文本形状先进行TPS变换,降低目标风格文本的合成难度

优点:对于曲形文本的篡改效果较好;

缺点:网络对整幅图像块进行编辑,存在对非文本区域的过度篡改;

3)TextStyleBrush模型—基于StyleGAN的篡改生成框架,能够自监督训练

优点:能够在真实数据集上训练;

缺点:网络结构复杂,模型难以收敛;

他们认为在场景文本图像擦除方面,之前的方法存在这些问题:没有显性解耦定位和重建操作,极大地增加了网络的学习难度,导致背景过度擦除,所有多阶段网络都采用相同的标签进行监督,无法平衡每个阶段的学习难度和网络结构,导致文字擦除不彻底。

所以他们的方法是基于迭代局部擦除的场景文本擦除,构建显性解耦的擦除网络,提出基于局部编辑的擦除策略,提升背景纹理完整性,构建平衡的多阶段擦除网络,提升文字擦除彻底性。

在场景文本图像篡改方面,存在需要文本风格图的监督,使其只能在合成数据集上训练。合成数据集与真实数据集的差异,导致网络在真实场景下篡改效果不佳;都是对图像块的所有像素点进行编辑,并未区分前景和背景区域,存在对非文本区域的过度篡改,所以他们以简化篡改文本生成网络,去掉不必要的监督过程;针对性地篡改,仅对文字区域进行编辑操作给出了针对笔迹级修改的篡改文本图像生成网络的方法。

现阶段他们还面临一些问题:

2.2 篡改文档检测

篡改文档检测是检测文本图像中所有文本实例,并在此基础上对文本真伪性进行鉴别,包含文本定位和文本真伪性鉴别两个步骤。

篡改文档检测的应用场景是非常广泛的且非常重要:

谢洪涛教授认为篡改文档检测的难点在于篡改文本和真实文本具有相同的语义(文本位置、几何结构),仅在局部纹理中存在一定差异,高质量的篡改文档图像数据获取困难,导致篡改文本检测网络很难在小规模样本下学到具有区分力的篡改特征:

他也分析了主流的检测方法优缺点,分享了他们课题组的检测方法——构建通用篡改文本检测器,进行多分类目标检测任务,继承场景文本检测其对文本检测的有效性及低数据依赖。

现阶段,同样存在一些问题:

谢洪涛教授认为篡改文本的生成与检测是矛与盾的良性互动的发展过程,还需要多领域的持续关注。

3)智能文档处理技术让世界更高效

来自上海合合信息科技股份有限公司智能技术平台事业部副总经理,高级工程师丁凯介绍了他们公司的一些产品服务和使命:致力于通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案为全球企业和个人用户提供创新的数字化、智能化服务,以此来让世界更高效!


丁凯工程师介绍了他们在预处理存在弯曲、阴影、摩尔纹、不清晰的图像时的整体架构:

以及图像弯曲矫正的方法从“只取头尾”到坐标变化再到基于偏移场的方法,建立起弯曲矫正系统的pipeline:


在黑板、手写板上进行拍摄时,无可避免的遇到反光的影响,他们团队通过反光擦除技术,保留笔画细节,清晰还原反光板内容:

合合信息同样在文档图像篡改检测领域上有所建树,丁凯工程师指出了传统的基于文件标记篡改检测方法并不能有效的判断图片是否有被篡改,因为第三方软件可以抹除Exif信息:

之后他分享了他们检测系统的架构和技术:


此外,他们的PS检测和摩尔纹去除等服务我之前也使用过,效果都很不错,特别是PS检测方面,它也一直是很多行业迫切需要的,尤其是在保险、金融、银行等领域,如果将虚假篡改过的信息资料审核通过可能会带来巨大的影响甚至是经济上的损失:

三、总结

众所周知,现在是数字化的时代,越来越多的企业都在走向数字化的转型。然而,现实中80%的商业数据都是非结构化格式,比如邮件、图片和各种企业文档,其中非结构化文档占据了绝大多数。这样让数字化转型变得非常困难。因此,如果能实现让企业实现文档自动化处理、智能审核、自动录入等文档处理方面的功能,那一定是非常有商业前景和价值的事情。

而且随着人工智能技术的飞速发展,文档图像智能处理在医疗、教育、金融等诸多领域都会被应用,为各行各业提供更加高效、智能的文档管理和数据分析解决方案。

经过这次大会我认为,即便现在依然面临着许多困难,但我相信在不久的将来都会迎刃而解!

目录
相关文章
|
8月前
|
设计模式 SpringCloudAlibaba 负载均衡
每天打卡,跟冰河肝这些项目,技术能力嗖嗖往上提升
前几天,就有不少小伙伴问我,冰河,你星球有哪些项目呢?我想肝你星球的项目,可以吗?今天,我就给大家简单聊聊我星球里有哪些系统性的项目吧。其实,每一个项目的价值都会远超门票。
105 0
每天打卡,跟冰河肝这些项目,技术能力嗖嗖往上提升
|
传感器 物联网 项目管理
动手做个智能水族箱
动手做个智能水族箱
162 0
|
JSON 安全 JavaScript
开源分享|速进!这些开源项目助你玩转世界杯
为了帮助大家找到更好的世界杯打开方式,OpenSCA项目组搜罗了一些与世界杯相关的开源项目。一起来看看吧~
177 0
开源分享|速进!这些开源项目助你玩转世界杯
|
Web App开发 人工智能 安全
一网打尽了!
有哪些好用的电脑软件?大家的选项会很明确,Chrome、Edge、火狐。 但是,有哪些好用的手机浏览器? 想必每个人都会有截然不同的看法。
一网打尽了!
|
Web App开发 黑灰产治理 CDN
压箱底!8个珍藏多年的Chrome插件高速下载网站
Chrome插件以轻量化、使用方便倍受欢迎,我之前也曾经很多篇文章介绍过不少好用的Chrome插件。其中,不乏一些名气很大、功能很强的插件。
压箱底!8个珍藏多年的Chrome插件高速下载网站
|
机器学习/深度学习 人工智能 自然语言处理
春节在家不再无聊,这份2019 AI研究进展回顾陪伴你
新春快乐!2019 年刚刚过去,去年有哪些最重要的研究是必须要记住的?本文将带你一并回顾
253 0
春节在家不再无聊,这份2019 AI研究进展回顾陪伴你
遇到就是一种幸运--“名师慧课”在线培训观后感
遇到就是一种幸运--“名师慧课”在线培训观后感
244 0
遇到就是一种幸运--“名师慧课”在线培训观后感
|
分布式计算 安全 前端开发
【0803 - 0807 直播导视 | PPT 下载】阿里云智能秋招空中宣讲会来啦!快上车!
本周多场技术讲座等你来pick!并且还有阿里云智能秋招空中宣讲会,还等什么,快上车!
547 0
|
Web App开发 安全 Windows
微博疯传电脑提速“秘技” 360安全专家称纯属忽悠
 近来,一则为Windows XP用户提升网速的“电脑小技巧”风靡网上,在各大微博被转发数万次。该文称:“Windows XP自动保留了20%的网速,通过一定设置取消带宽限制,就可以使用100%的网速”。
858 0
|
存储 NoSQL 数据库
外行看热闹,内行看门道,盘点精彩世界杯背后你看得见的Redis身影
背景 6月14日晚,2018年俄罗斯世界杯在莫斯科开幕。国内数以千万的观众通过优酷、央视影音或者是咪咕视频观看了此次开幕赛。阿里云公布的一份数据显示,第一波流量洪峰出现在揭幕战开场后的第44分钟,峰值达到了1.5个2018年春晚的规模。
5347 0