展望AI时代,把握文档图像智能分析与处理的未来

简介: 二、视觉- 语言预训练模型及迁移学习方法三、智能文档处理技术在工业界的应用与挑战

对于此内容部分整理了一份结构脑图,大致如下,可供参考回顾:image.png
该部分由北京大学教授邹月娴讲解,主要讲了VLP模型的参数有效迁移学习方法(PETL)、基于提示工程的VLP迁移学习方法:手工设计提示模板,clip的提升效果非常不错,coop少样本学习方法性能超越clip提示学习方法几部分。

对此部分感兴趣的小伙伴也可以看一下直播回放和查阅更多资料,这部分不多作讲解,主要还是针对图像文档处理技术展开啦~
三、智能文档处理技术在工业界的应用与挑战
本部分内容由上海合合信息科技股份有限公司高级工程师——丁凯老师讲解,主题内容为《智能文档处理技术在工业界的应用与挑战》。

内容结构图如下:image.png目前智能文档处理仍然面临着文档图像质量退化严重、文字检测及版面分析困难、非限定条件文字识别率低等技术难题。

合合科技在文档图像的分析与预处理、手写板反光擦除及文档图像篡改检测都是业界标杆级的存在。

3.1 背景介绍
图像处理技术 是用计算机对图像信息进行处理的技术。主要包括图像数字化、图像增强和复原、图像数据编码、图像分割和图像识别等。

其中图像一般有两种表达形式:

几何图形(Graphics) :由点、线、面、颜色等组成,由绘图程序产生,是一系列绘图指令的集合,一般用各种绘图软件制作。
点阵图像(Image) :由各像素点和颜色组合而成,使用摄像机、扫描仪、数码相机等设备获得,也可以使用绘图软件生成。图像表示的画面细腻,层次和色彩丰富。图像的各像素点逐点存储在计算机中,占用的存储空间大。

image.png
使命:让世界更高效
image.pngimage.png
3.2 文档图像分析与预处理
目前对于图像的处理技术包括 点处理、组处理、几何处理 和 帧处理 四种方法。

点处理方法 是处理图像最基本的方法,由于该方法处理的对象是像素,故此得名。点处理方法简单而有效,主要用于图像的亮度调整、图像对比度的调整,以及图像亮度的反置处理等。
图像的 组处理方法 处理的范围比点处理大,处理的对象是一组像素,因此又叫“区处理或块处理”。组处理方法在图像上的应用主要表现在:检测图像边缘并增强边缘、图像柔化和锐化、增加和减少图像随机噪声等。
图像的几何处理方法 是指经过运算,改变图像的像素位置和排列顺序,从而实现图像的放大与缩小、图像旋转、图像镜像、以及图像平移等效果的处理过程。
图像的 帧处理方法 是指将一幅以上的图像以某种特定的形式合成在一起,形成新的图像。其中,特定的形式是指:经过“逻辑与”运算进行图像的合成、按照“逻辑或”运算关系合成、以“异或”逻辑运算关系进行合成、图像按照相加或者相减以及有条件的复合算法进行合成、图像覆盖或取平均值进行合成。图像处理软件通常具有图像的帧处理功能,并且以多种特定的形式合成图像。
3.2.1 文档图像分析与预处理
image.png
3.2.2 文档图像预处理的整体架构image.png
3.2.3 图像预处理——弯曲矫正
我们在日常生活中在对一些图片文件拍照的时候可能会出现一些折叠弯曲的现象,这在某些时候是避免不了的。
image.png
面对这种现象自然image.png
3.3 手写板反光擦除
3.3.1 手写板反光擦除
在黑板、手写板上进行拍摄时,无可避免的遇到反光的影响,通过反光擦除技术,保留笔画细节,清晰还原。也让有相应的技术进行应对,也就是弯曲矫正技术啦。
image.png
image.png
.5 文档图像篡改检测
文档图像篡改检测也可以简单理解成PS检测, 说简单一点就是一项可以检测照片有没有被PS修改过的一个功能。

在日常生活中某些信息可能会存在造假现象,尤其是对于一些证件类的图片等信息,有些人可能会使用PS等工具对图片中的一些关键信息进行一些PS修改,以此达到一些其他目的。

Adobe 在2018 CVPR上发表了一篇利用深度神经网络检测PS痕迹的论文,Learning Rich Features for Image Manipulation Detection

PS痕迹检测,沿用物体检测套路,直接上faster rcnn,ground-truth就是p上去的区域。论文创新点就是,除了使用传统RGB图像作为网络输入外,还让RGB图像过一遍SRM filter,得到noise feature,让这个noise feature也作为网络的输入。注意,RGB和noise走的分别是两个faster rcnn网络,但只使用RGB网络训练RPN,用这个RPN,对两个网络的feature map做RoI pooling。在分别得到RGB和noise的RoI之后,对这两个RoI做Bilinear pooling,得到feature进分类器。而RGB的RoI则做bounding box回归。
image.png

相关文章
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
2025年AI客服机器人推荐:核心能力与实际场景应用分析
据《2024年全球客户服务机器人行业研究报告》预测,2025年全球AI客服机器人市场规模将超500亿美元,年复合增长率达25%以上。文章分析了主流AI客服机器人,如合力亿捷等服务商的核心功能、适用场景及差异化优势,并提出选型标准,包括自然语言处理能力、机器学习能力、多模态交互能力等技术层面考量,以及行业适配性、集成能力、数据安全、可定制化程度和成本效益等企业维度评估。
29 12
|
11天前
|
人工智能 运维 架构师
Serverless + AI 让应用开发更简单,加速应用智能化
Serverless + AI 让应用开发更简单,加速应用智能化
|
12天前
|
人工智能 自然语言处理 算法
阿里云「AI实时互动」正式上线,体验“超拟人”智能互动
阿里云「AI实时互动」正式上线,体验“超拟人”智能互动
|
13天前
|
人工智能 自然语言处理 关系型数据库
DMS+AnalyticDB助力钉钉AI助理,轻松玩转智能问数
DMS+AnalyticDB助力钉钉AI助理,轻松玩转智能问数
|
12天前
|
人工智能 搜索推荐 vr&ar
让教育更智能:HarmonyOS助力AI类目标签革新教育行业
在科技飞速发展的当下,教育行业正经历深刻变革,智能化转型成为提升教育质量与效率的关键。AI类目标签技术脱颖而出,通过分析学生多维度数据生成个性化学习标签,助力因材施教;智能管理教学资源,提高备课效率。HarmonyOS NEXT API 12及以上版本的分布式能力和强大的数据安全机制,为多设备协同学习和数据保护提供了有力支持。开发者可利用鸿蒙生态构建创新教育应用,推动教育智能化发展。
|
13天前
|
人工智能 自然语言处理 机器人
对话阿里云CIO蒋林泉:AI时代,企业如何做好智能化系统建设?
对话阿里云CIO蒋林泉:AI时代,企业如何做好智能化系统建设?
|
13天前
|
存储 人工智能 数据管理
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
媒体声音|专访阿里云数据库周文超博士:AI就绪的智能数据平台设计思路
|
13天前
|
人工智能 关系型数据库 分布式数据库
阿里云PolarDB重磅发布云原生与Data+AI新特性,打造智能时代数据引擎
阿里云PolarDB重磅发布云原生与Data+AI新特性,打造智能时代数据引擎
|
16天前
|
人工智能 Java API
Java也能快速搭建AI应用?一文带你玩转Spring AI可落地性
Java语言凭借其成熟的生态与解决方案,特别是通过 Spring AI 框架,正迅速成为 AI 应用开发的新选择。本文将探讨如何利用 Spring AI Alibaba 构建在线聊天 AI 应用,并实现对其性能的全面可观测性。
|
11天前
|
人工智能 弹性计算 Ubuntu
从零开始即刻拥有 DeepSeek-R1 满血版并使用 Dify 部署 AI 应用
本文介绍了如何使用阿里云提供的DeepSeek-R1大模型解决方案,通过Chatbox和Dify平台调用百炼API,实现稳定且高效的模型应用。首先,文章详细描述了如何通过Chatbox配置API并开始对话,适合普通用户快速上手。接着,深入探讨了使用Dify部署AI应用的过程,包括选购云服务器、安装Dify、配置对接DeepSeek-R1模型及创建工作流,展示了更复杂场景下的应用潜力。最后,对比了Chatbox与Dify的输出效果,证明Dify能提供更详尽、精准的回复。总结指出,阿里云的解决方案不仅操作简便,还为专业用户提供了强大的功能支持,极大提升了用户体验和应用效率。
712 19
从零开始即刻拥有 DeepSeek-R1 满血版并使用 Dify 部署 AI 应用

热门文章

最新文章