正文
自然场景下的图文文档处理
尽管现在对中文文档的处理已经有了很深远的研究,但是仍然有很多重要问题还未解决,例如:
自然场景下的汉字建模:如何在噪声(光照不均、背景复杂等)图像上实现更好的手写、汉字生成与识别性能?
自然场景下的表格建模:如何在噪声(形变、倾斜等)图像上实现更加鲁棒的表格分割性能?
多模态文档建模:如何实现多模态大模型下的多版式文档(简历、海报、证件等)的理解和分析?
对于这些挑战,合合信息图像算法研发总监郭丰俊在 CSIG 企业行活动分享中给出了答案——在底层视觉任务中解决这些问题。
底层视觉任务:处理输入图像并输出图像。
这些任务包括:图像预处理、图像过滤、图像复原、图像增强等。
中层/顶层视觉任务:处理输入图像并输出特征或理解。
这些任务包括:图像分割、物体检测、场景识别等。
底层视觉研究的初衷在于,计算机所接收的现实图像常常受到噪音干扰,例如扭曲、模糊、光影等现象,因此,在进一步分析和理解输入图像之前,需要进行底层视觉处理,以对图像进行“预处理”。
以试卷文档处理为例,不规范的拍照方式会严重影响文本检测和提取的成功率。
智能文档处理中,底层视觉处理的Pipeline流程主要包括以下几个步骤:
ROI提取:在该步骤,图像中的关键区域被提取出来,以减少不相关区域对后续任务的干扰;
形变矫正:该步骤主要利用矫正方法对扭曲和倾斜的图像进行整平,为后续的OCR识别创造便利条件;
图像恢复:该步骤旨在消除阴影、反光、摩尔纹等干扰图像信息的噪声,从而提高图像的可识别程度;
质量增强:该步骤通过突出图像中的文本信息,有助于提高图像的可读性、可解释性和可感知质量。
可以看出,底层视觉技术主要包括图像预处理、特征提取、边缘检测、形态学变换等。当前,底层视觉技术的前沿难点有去除摩尔纹、去除反光、手写擦除和篡改检测等等。
经过数年的技术积累,合合信息已经在智能文档处理领域沉淀了丰富的经验,并将这些技术集成到了“扫描全能王”应用和“TextIn (https://www.textin.com/)”平台上。
立足大模型,下一站在何方?
站在多模态和自然场景的角度上继续延伸,以ChatGPT为代表的对话式大语言模型的潜力还可以进一步开发。厦门大学南强特聘教授纪荣嵘从语言和视觉两个方面强调了打通各个模态之间壁垒的重要性。可以说,构建多模态模型是助力机器理解人类指令的重要踏板,以文本和图像为例,当文本信息和图像信息能够完全相互代表时,人类对于图像的操作就可以仅通过一段话来完成。
IDC发布的《2022中国大模型发展白皮书》中提到:面向未来,大模型必然成为重要的AI新型基础设施之一。任何依靠人工智能展开的研究都可以在这种生成式大模型的基础上得到发展。上海交通大学人工智能研究院常务副院长杨小康就认为,生成式人工智能为构建基于视觉直觉的物理世界模型和虚拟数字人提供了可行的途径。未来,随着数学、物理、信息论、脑认知、计算机等学科的交叉,还可以进一步夯实生成式人工智能的基础理论,实现“物理+数据”联合驱动、“虚拟+现实”深度融合,从而加速科学发现、物质合成以及世界模型的构建。
虽然通用人工智能的大门尚未完全叩开,但是我们已经看到了光明的前景,我们还有许多可以探索和实现的事物,山高水远,道阻且长。