大模型时代来临,智能文档处理该走向何方?(下)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 大模型时代来临,智能文档处理该走向何方?

正文


自然场景下的图文文档处理


尽管现在对中文文档的处理已经有了很深远的研究,但是仍然有很多重要问题还未解决,例如:


自然场景下的汉字建模:如何在噪声(光照不均、背景复杂等)图像上实现更好的手写、汉字生成与识别性能?

自然场景下的表格建模:如何在噪声(形变、倾斜等)图像上实现更加鲁棒的表格分割性能?

多模态文档建模:如何实现多模态大模型下的多版式文档(简历、海报、证件等)的理解和分析?

13.png

对于这些挑战,合合信息图像算法研发总监郭丰俊在 CSIG 企业行活动分享中给出了答案——在底层视觉任务中解决这些问题。


底层视觉任务:处理输入图像并输出图像。

这些任务包括:图像预处理、图像过滤、图像复原、图像增强等。

中层/顶层视觉任务:处理输入图像并输出特征或理解。

这些任务包括:图像分割、物体检测、场景识别等。

底层视觉研究的初衷在于,计算机所接收的现实图像常常受到噪音干扰,例如扭曲、模糊、光影等现象,因此,在进一步分析和理解输入图像之前,需要进行底层视觉处理,以对图像进行“预处理”。


以试卷文档处理为例,不规范的拍照方式会严重影响文本检测和提取的成功率。


14.png

智能文档处理中,底层视觉处理的Pipeline流程主要包括以下几个步骤:

123.jpeg


ROI提取:在该步骤,图像中的关键区域被提取出来,以减少不相关区域对后续任务的干扰;

形变矫正:该步骤主要利用矫正方法对扭曲和倾斜的图像进行整平,为后续的OCR识别创造便利条件;

图像恢复:该步骤旨在消除阴影、反光、摩尔纹等干扰图像信息的噪声,从而提高图像的可识别程度;

质量增强:该步骤通过突出图像中的文本信息,有助于提高图像的可读性、可解释性和可感知质量。

可以看出,底层视觉技术主要包括图像预处理、特征提取、边缘检测、形态学变换等。当前,底层视觉技术的前沿难点有去除摩尔纹、去除反光、手写擦除和篡改检测等等。

经过数年的技术积累,合合信息已经在智能文档处理领域沉淀了丰富的经验,并将这些技术集成到了“扫描全能王”应用和“TextIn (https://www.textin.com/)”平台上。


立足大模型,下一站在何方?


站在多模态和自然场景的角度上继续延伸,以ChatGPT为代表的对话式大语言模型的潜力还可以进一步开发。厦门大学南强特聘教授纪荣嵘从语言和视觉两个方面强调了打通各个模态之间壁垒的重要性。可以说,构建多模态模型是助力机器理解人类指令的重要踏板,以文本和图像为例,当文本信息和图像信息能够完全相互代表时,人类对于图像的操作就可以仅通过一段话来完成。


15.png

IDC发布的《2022中国大模型发展白皮书》中提到:面向未来,大模型必然成为重要的AI新型基础设施之一。任何依靠人工智能展开的研究都可以在这种生成式大模型的基础上得到发展。上海交通大学人工智能研究院常务副院长杨小康就认为,生成式人工智能为构建基于视觉直觉的物理世界模型和虚拟数字人提供了可行的途径。未来,随着数学、物理、信息论、脑认知、计算机等学科的交叉,还可以进一步夯实生成式人工智能的基础理论,实现“物理+数据”联合驱动、“虚拟+现实”深度融合,从而加速科学发现、物质合成以及世界模型的构建。


虽然通用人工智能的大门尚未完全叩开,但是我们已经看到了光明的前景,我们还有许多可以探索和实现的事物,山高水远,道阻且长。

相关文章
|
3月前
|
人工智能 文字识别 自然语言处理
【2023 CSIG垂直领域大模型】大模型时代,如何完成IDP智能文档处理领域的OCR大一统?
2023年12月28-31日,由中国图象图形学学会主办的第十九届CSIG青年科学家会议在中国广州隆重召开,会议吸引了学术界和企业界专家与青年学者,会议面向国际学术前沿与国家战略需求,聚焦最新前沿技术和热点领域,共同探讨图象图形学领域的前沿问题,分享最新的研究成果和创新观点,在垂直领域大模型专场,合合信息智能技术平台事业部副总经理、高级工程师丁凯博士为我们带来了《文档图像大模型的思考与探索》主题报告。
|
机器学习/深度学习 人工智能 测试技术
大模型时代来临,智能文档处理该走向何方?(上)
大模型时代来临,智能文档处理该走向何方?
|
16天前
|
存储 缓存 自然语言处理
LangChain在构建智能文档检索系统中的应用
【8月更文第3天】随着大数据时代的到来,企业和组织积累了大量的文档资料。如何有效地管理和检索这些文档成为了一个重要的问题。传统的关键词搜索虽然简单,但在面对复杂查询和模糊匹配时显得力不从心。LangChain 是一个强大的框架,旨在帮助开发者构建文本生成应用程序,它能够利用最新的自然语言处理技术来理解和响应自然语言查询。本文将探讨如何利用 LangChain 构建一个能够理解和响应自然语言查询的文档检索系统。
27 0
|
3月前
|
机器学习/深度学习 人工智能 文字识别
多模态产品在智能文档处理应用的展望------以TextIn模型为例
**第十四届VALSE大会在重庆举行,合合信息智能创新事业部研发总监常扬分享了“文档解析与向量化技术”,重点介绍TextIn技术。TextIn解决现有文档解析挑战,如表格解析难题,建立包含数据基建、算法、应用和接入四层架构的文档解析Pipeline。关键技术包括版面分析和文档树引擎,能准确识别文档结构和阅读顺序。TextIn在C-MTEB榜单排名第一,显示其在文本向量化领域的优势,适用于长文档处理和多行业应用,有望推动AI技术进步和产业升级。**
80 1
|
11月前
|
机器学习/深度学习 文字识别 自然语言处理
开启智能时代:深度解析智能文档分析技术的前沿与应用
开启智能时代:深度解析智能文档分析技术的前沿与应用
开启智能时代:深度解析智能文档分析技术的前沿与应用
|
7天前
|
机器学习/深度学习 算法 搜索推荐
"震撼揭秘!阿里云AIGC智能图像识别:黑科技如何颠覆你的视界,让图像识别秒变超能力,生活工作全面革新!"
【8月更文挑战第12天】在数字化浪潮中,图像数据激增,高效准确处理成为关键。阿里云智能图像识别服务(AIGC)应运而生,依托深度学习与计算机视觉技术,实现图像特征精确提取与理解。通过大规模数据训练及优化算法,AIGC在图像分类、目标检测等方面表现出色。其应用场景广泛,从电商的商品识别到内容安全审核,再到智能交通和医疗影像分析,均展现出巨大潜力。示例代码展示了AIGC图像生成的基本流程,彰显其技术实力与未来前景。
23 1
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
技术分析:AI大模型战场的分化与赛点分析
技术分析:AI大模型战场的分化与赛点分析
|
3月前
|
数据采集 人工智能 JSON
跨越千年医学对话:用AI技术解锁中医古籍知识,构建能够精准问答的智能语言模型,成就专业级古籍解读助手(LLAMA)
跨越千年医学对话:用AI技术解锁中医古籍知识,构建能够精准问答的智能语言模型,成就专业级古籍解读助手(LLAMA)【2月更文挑战第1天】
 跨越千年医学对话:用AI技术解锁中医古籍知识,构建能够精准问答的智能语言模型,成就专业级古籍解读助手(LLAMA)
|
机器学习/深度学习 人工智能 算法
“柯南领结”变成现实,字节跳动智创语音团队SAMI发布新一代实时AI变声方案
“柯南领结”变成现实,字节跳动智创语音团队SAMI发布新一代实时AI变声方案
296 0
|
机器学习/深度学习 人工智能 自然语言处理
百度大脑十年丰绩大成:6.0全新发布,具备认知能力的终端虚拟人亮相
「智能时代的操作系统」飞桨和自研 AI 处理器百度昆仑都已就位,产业智能化时代正在到来。
143 0
百度大脑十年丰绩大成:6.0全新发布,具备认知能力的终端虚拟人亮相