中科大团队新作 | 通用形变文档图像矫正框架(附在线体验DEMO)

简介: 中科大团队新作 | 通用形变文档图像矫正框架(附在线体验DEMO)

28a4f21dc543f5c294e807e625db9d7d.png


Title:Deep Unrestricted Document Image Rectification

Paper:https://arxiv.org/pdf/2304.08796.pdf

Code:https://github.com/fh2019ustc/DocTr-Plus

Demo:https://doctrp.docscanner.top/


导读


近年来,随着文档数字化的需求日益增加,文档图像矫正领域取得了显著进展。然而,现有的基于深度学习的解决方案多仅限于处理限定场景下的文档图像,即输入图像须包含完整的文档。当输入的文档图像仅包含局部区域而不包含完整的文档边界时,矫正质量会受到明显影响。为了解决这一问题,作者团队提出 DocTr++,一种面向各类文档图像的无约束统一矫正框架。


引言


如下图展示了三类常见的形变文档图像:(a) 包含完整文档边界, (b) 包含部分文档边界, © 不包含文档边界。


e0a9fcf88b5e6b631d2f2e90910187b8.png


现有的矫正方法多是聚焦于有边界的文档矫正,即 (a) 对应的图像类型,而对于后两种形变图像的矫正效果欠佳。本方法可以实现对文档边界不全或无边界文档的矫正恢复。


作者团队采用了多尺度的编码器-解码器结构进行有效的特征编解码,并且重新定义了各类形变文档图像与无形变文档图像之间的逐像素映射关系。此外,作者团队还贡献了一个新的无约束文档图像测试基准及其适用的评价指标,以便研究人员对该方法进行后续的验证和改进。


通过定量实验和定性对比,作者团队验证了 DocTr++ 的性能优势及泛化性,并在现有及所提出的基准测试中刷新了多项最佳记录。


方法


作为开始,给出一张框架图,其非常生动形象的展示了本方法的核心思想:


6584118361513078d6443b2d635d619c.png


如上图所示,本方法致力于弥补现有的基于深度学习的方法在应用场景上的不足。具体地,现有的基于深度学习的方法,大多只能矫正文档完整的图像,即文档的四条边完整地出现在输入图像中。


然而,在实际应用时,用户可能只关注于文档的部分区域或内容。例如,在教育场景中,用户可能只想分享书本中的某一道题目。


为了解决这一局限性,在我们的方法中,输入包含各类常见的形变文档图像,包含(a)有完整文档边界的图像,(b)有部分文档边界的图像,以及(c)无文档边界的图像。


我们的方法包含三个主要组件:(a) 畸变特征编码器,(b) 矫正解码器,和 © 坐标映射预测器。


首先, 在畸变特征编码器中,我们采用自注意力机制捕获形变文档的结构特征,并构建多尺度编码器提取和融合这些特征。编码器由三个子模块组成,每个子模块包含两个标准的 Transformer 编码层。这使得本方法既能编码具有高分辨率纹理细节的特征,又能获得低分辨率具有高层语义信息的特征。


接下来,矫正解码器接收编码器输出的多尺度特征以及可学习的矫正提示向量序列(learnable queries),输出解码后的表征用于后续坐标映射矩阵的预测。其中,可学习的矫正提示向量序列零初始化,并加上固定的位置编码。实验发现,每一个矫正提示向量会关注输入形变文档图像中的某一特定区域 (如下图所示),这些区域组合起来便覆盖整张输入图像。同样,解码器由三个子模块组成,每个子模块包含两个标准的 Transformer 解码层。


d8fed1fbf484a706678f869ffe6f538a.png


最后,在坐标映射预测器中,本方法根据解码器输出的特征来预测矫正图像所需的坐标映射矩阵。根据坐标映射矩阵中每一个坐标,基于双线性插值算法重采样出输入形变图像中对应的像素,填入输出图像中。在对所有映射坐标并行执行此操作后,本方法获得完整的矫正图像。


评价指标

60518c6adc3862fc3aa8c36b1ba79abc.png


在这篇文章中,作者团队提出了两种新的评价指标 MSSIM-M 和 LD-M,用于通用形变文档图像矫正质量的评估。因为边界不完整的形变文档图像在矫正后可能会出现像素缺失,如上图所示,本文将有效像素区域的掩膜矩阵与目标图像进行矩阵乘法,得到更适宜进行评价的目标图像。如下图所示,与传统的 MSSIM 和 LD 指标相比,改进后的 MSSIM-M 和 LD-M 更为稳健和可靠。


e2383953a622f74d558ce871814d80f1.png


实验


本文在公开的有边界形变文档图像测试基准和本文新提出的通用形变文档图像测试基准上都进行了性能评估,在两种数据集上都展现了优异的性能。


272f622040bf90cb7ea831c2c76831b5.png

caecd1ba7b86561f845971ab9a0e093d.png

a849ad133590d951d3413bc68227a56b.png



b34519086583ea85c29045a6e11fac33.png



可以直观地看出,本方法在有边界和边界不全两种情况下都实现了有效的矫正。


效果展示


下图展示了各类形变文档图像的矫正结果,包括试卷、文本段落、书页、手写文档等。


309ea3a6bfd6b040205f3bc93937d9ab.png


作者团队还提供了一个在线Demo供大家自行体验:


https://doctrp.docscanner.top/


ea1901d95cf4afc43a16568580d8ec74.png


总结


本文介绍了一种全新的通用形变文档图像矫正框架,作者团队的方法突破了现有多数矫正方法的场景局限性,能够恢复日常生活中常见的各种形变文档图像。为了实现优秀的矫正效果,作者团队采用了一种多尺度编解码器结构,构建各类形变文档图像与无形变文档图像之间的逐像素映射关系。此外,该团队还贡献了一个真实场景的测试基准和新的评估指标,以评估各类真实文档图像的矫正质量。


通过在公开的测试基准和本工作提出的测试基准上进行大量实验,验证了该方法的有效性和鲁棒性。作者团队希望能为未来本领域研究提供一个强有力的基准方法,为进一步研究和发展通用形变文档图像矫正方法提供基础。


CVHub是一家专注于计算机视觉领域的高质量知识分享平台,全站技术文章原创率常年高达99%,每日为您呈献全方位、多领域、有深度的前沿AI论文解决及配套的行业级应用解决方案,提供科研 | 技术 | 就业一站式服务,涵盖有监督/半监督/无监督/自监督的各类2D/3D的检测/分类/分割/跟踪/姿态/超分/重建等全栈领域以及最新的AIGC等生成式模型。欢迎关注微信公众号CVHub或添加小编好友:cv_huber,备注“知乎”,参与实时的学术&技术互动交流,领取CV学习大礼包,及时订阅最新的国内外大厂校招&社招资讯!


目录
相关文章
|
10月前
|
人工智能
基于qwen2和qwenvl的自动批改作业应用!
针对作业批改中常见的问题,如低质量作业、大量简单作业耗时、需初筛异常作业等,开发了一款自动批改作业的应用。该应用通过备份作业文件、获取文档内容、利用AI生成评语,并保存关键信息与日志,简化了教师的工作流程,提高了效率。应用设计简洁,易于扩展,支持图片转文字处理,适合教育场景使用。
2082 1
基于qwen2和qwenvl的自动批改作业应用!
|
机器学习/深度学习 并行计算 Shell
docker 获取Nvidia 镜像 | cuda |cudnn
本文分享如何使用docker获取Nvidia 镜像,包括cuda10、cuda11等不同版本,cudnn7、cudnn8等,快速搭建深度学习环境。
6831 0
|
机器学习/深度学习 文字识别 算法
【OCR学习笔记】2、OCR图像预处理(上)
【OCR学习笔记】2、OCR图像预处理(上)
1753 0
|
9月前
|
人工智能 JSON API
使用 Qwen 生成数据模型和进行结构化输出
本教程展示如何使用CAMEL框架和Qwen模型生成结构化数据。CAMEL是一个强大的多智能体框架,支持复杂的AI任务;Qwen由阿里云开发,具备自然语言处理等先进能力。教程涵盖安装、API密钥设置、定义Pydantic模型,并演示了通过Qwen生成JSON格式的学生信息。最后,介绍了如何利用Qwen生成多个随机学生信息的JSON格式数据。欢迎在[CAMEL GitHub](https://github.com/camel-ai/camel)上为项目点星支持。
2885 70
|
9月前
|
数据采集 前端开发 物联网
【项目实战】通过LLaMaFactory+Qwen2-VL-2B微调一个多模态医疗大模型
本文介绍了一个基于多模态大模型的医疗图像诊断项目。项目旨在通过训练一个医疗领域的多模态大模型,提高医生处理医学图像的效率,辅助诊断和治疗。作者以家中老人的脑部CT为例,展示了如何利用MedTrinity-25M数据集训练模型,经过数据准备、环境搭建、模型训练及微调、最终验证等步骤,成功使模型能够识别CT图像并给出具体的诊断意见,与专业医生的诊断结果高度吻合。
15967 5
【项目实战】通过LLaMaFactory+Qwen2-VL-2B微调一个多模态医疗大模型
|
11月前
|
自然语言处理 数据可视化 前端开发
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
合合信息的智能文档处理“百宝箱”涵盖文档解析、向量化模型、测评工具等,解决了复杂文档解析、大模型问答幻觉、文档解析效果评估、知识库搭建、多语言文档翻译等问题。通过可视化解析工具 TextIn ParseX、向量化模型 acge-embedding 和文档解析测评工具 markdown_tester,百宝箱提升了文档处理的效率和精确度,适用于多种文档格式和语言环境,助力企业实现高效的信息管理和业务支持。
从数据提取到管理:合合信息的智能文档处理全方位解析【合合信息智能文档处理百宝箱】
|
12月前
|
编解码 人工智能 文字识别
阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
GOT来促进OCR-2.0的到来。该模型具有580百万参数,是一个统一、优雅和端到端的模型,由高压缩编码器和长上下文解码器组成。
阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
|
10月前
|
存储 人工智能 文字识别
AI与OCR:数字档案馆图像扫描与文字识别技术实现与项目案例
本文介绍了纸质档案数字化的技术流程,包括高精度扫描、图像预处理、自动边界检测与切割、文字与图片分离抽取、档案识别与文本提取,以及识别结果的自动保存。通过去噪、增强对比度、校正倾斜等预处理技术,提高图像质量,确保OCR识别的准确性。平台还支持多字体识别、批量处理和结构化存储,实现了高效、准确的档案数字化。具体应用案例显示,该技术在江西省某地质资料档案馆中显著提升了档案管理的效率和质量。
974 1
|
12月前
|
文字识别 自然语言处理 数据可视化
Qwen2.5 全链路模型体验、下载、推理、微调、部署实战!
在 Qwen2 发布后的过去三个月里,许多开发者基于 Qwen2 语言模型构建了新的模型,并提供了宝贵的反馈。在这段时间里,通义千问团队专注于创建更智能、更博学的语言模型。今天,Qwen 家族的最新成员:Qwen2.5系列正式开源
Qwen2.5 全链路模型体验、下载、推理、微调、部署实战!
|
11月前
|
机器学习/深度学习 计算机视觉 Python
目标检测笔记(三):Mosaic数据增强完整代码和结果展示
本文介绍了Mosaic数据增强技术,通过将四张图片拼接成一张新图,极大丰富了目标检测的背景信息。文章提供了完整的Python代码,涵盖了如何处理检测框并调整其位置,以适应拼接后的图像。Mosaic技术不仅提高了学习效率,还在标准化BN计算时同时考虑了四张图片的数据,从而提升了模型的泛化能力。
962 1