中科大团队新作 | 通用形变文档图像矫正框架(附在线体验DEMO)

简介: 中科大团队新作 | 通用形变文档图像矫正框架(附在线体验DEMO)

28a4f21dc543f5c294e807e625db9d7d.png


Title:Deep Unrestricted Document Image Rectification

Paper:https://arxiv.org/pdf/2304.08796.pdf

Code:https://github.com/fh2019ustc/DocTr-Plus

Demo:https://doctrp.docscanner.top/


导读


近年来,随着文档数字化的需求日益增加,文档图像矫正领域取得了显著进展。然而,现有的基于深度学习的解决方案多仅限于处理限定场景下的文档图像,即输入图像须包含完整的文档。当输入的文档图像仅包含局部区域而不包含完整的文档边界时,矫正质量会受到明显影响。为了解决这一问题,作者团队提出 DocTr++,一种面向各类文档图像的无约束统一矫正框架。


引言


如下图展示了三类常见的形变文档图像:(a) 包含完整文档边界, (b) 包含部分文档边界, © 不包含文档边界。


e0a9fcf88b5e6b631d2f2e90910187b8.png


现有的矫正方法多是聚焦于有边界的文档矫正,即 (a) 对应的图像类型,而对于后两种形变图像的矫正效果欠佳。本方法可以实现对文档边界不全或无边界文档的矫正恢复。


作者团队采用了多尺度的编码器-解码器结构进行有效的特征编解码,并且重新定义了各类形变文档图像与无形变文档图像之间的逐像素映射关系。此外,作者团队还贡献了一个新的无约束文档图像测试基准及其适用的评价指标,以便研究人员对该方法进行后续的验证和改进。


通过定量实验和定性对比,作者团队验证了 DocTr++ 的性能优势及泛化性,并在现有及所提出的基准测试中刷新了多项最佳记录。


方法


作为开始,给出一张框架图,其非常生动形象的展示了本方法的核心思想:


6584118361513078d6443b2d635d619c.png


如上图所示,本方法致力于弥补现有的基于深度学习的方法在应用场景上的不足。具体地,现有的基于深度学习的方法,大多只能矫正文档完整的图像,即文档的四条边完整地出现在输入图像中。


然而,在实际应用时,用户可能只关注于文档的部分区域或内容。例如,在教育场景中,用户可能只想分享书本中的某一道题目。


为了解决这一局限性,在我们的方法中,输入包含各类常见的形变文档图像,包含(a)有完整文档边界的图像,(b)有部分文档边界的图像,以及(c)无文档边界的图像。


我们的方法包含三个主要组件:(a) 畸变特征编码器,(b) 矫正解码器,和 © 坐标映射预测器。


首先, 在畸变特征编码器中,我们采用自注意力机制捕获形变文档的结构特征,并构建多尺度编码器提取和融合这些特征。编码器由三个子模块组成,每个子模块包含两个标准的 Transformer 编码层。这使得本方法既能编码具有高分辨率纹理细节的特征,又能获得低分辨率具有高层语义信息的特征。


接下来,矫正解码器接收编码器输出的多尺度特征以及可学习的矫正提示向量序列(learnable queries),输出解码后的表征用于后续坐标映射矩阵的预测。其中,可学习的矫正提示向量序列零初始化,并加上固定的位置编码。实验发现,每一个矫正提示向量会关注输入形变文档图像中的某一特定区域 (如下图所示),这些区域组合起来便覆盖整张输入图像。同样,解码器由三个子模块组成,每个子模块包含两个标准的 Transformer 解码层。


d8fed1fbf484a706678f869ffe6f538a.png


最后,在坐标映射预测器中,本方法根据解码器输出的特征来预测矫正图像所需的坐标映射矩阵。根据坐标映射矩阵中每一个坐标,基于双线性插值算法重采样出输入形变图像中对应的像素,填入输出图像中。在对所有映射坐标并行执行此操作后,本方法获得完整的矫正图像。


评价指标

60518c6adc3862fc3aa8c36b1ba79abc.png


在这篇文章中,作者团队提出了两种新的评价指标 MSSIM-M 和 LD-M,用于通用形变文档图像矫正质量的评估。因为边界不完整的形变文档图像在矫正后可能会出现像素缺失,如上图所示,本文将有效像素区域的掩膜矩阵与目标图像进行矩阵乘法,得到更适宜进行评价的目标图像。如下图所示,与传统的 MSSIM 和 LD 指标相比,改进后的 MSSIM-M 和 LD-M 更为稳健和可靠。


e2383953a622f74d558ce871814d80f1.png


实验


本文在公开的有边界形变文档图像测试基准和本文新提出的通用形变文档图像测试基准上都进行了性能评估,在两种数据集上都展现了优异的性能。


272f622040bf90cb7ea831c2c76831b5.png

caecd1ba7b86561f845971ab9a0e093d.png

a849ad133590d951d3413bc68227a56b.png



b34519086583ea85c29045a6e11fac33.png



可以直观地看出,本方法在有边界和边界不全两种情况下都实现了有效的矫正。


效果展示


下图展示了各类形变文档图像的矫正结果,包括试卷、文本段落、书页、手写文档等。


309ea3a6bfd6b040205f3bc93937d9ab.png


作者团队还提供了一个在线Demo供大家自行体验:


https://doctrp.docscanner.top/


ea1901d95cf4afc43a16568580d8ec74.png


总结


本文介绍了一种全新的通用形变文档图像矫正框架,作者团队的方法突破了现有多数矫正方法的场景局限性,能够恢复日常生活中常见的各种形变文档图像。为了实现优秀的矫正效果,作者团队采用了一种多尺度编解码器结构,构建各类形变文档图像与无形变文档图像之间的逐像素映射关系。此外,该团队还贡献了一个真实场景的测试基准和新的评估指标,以评估各类真实文档图像的矫正质量。


通过在公开的测试基准和本工作提出的测试基准上进行大量实验,验证了该方法的有效性和鲁棒性。作者团队希望能为未来本领域研究提供一个强有力的基准方法,为进一步研究和发展通用形变文档图像矫正方法提供基础。


CVHub是一家专注于计算机视觉领域的高质量知识分享平台,全站技术文章原创率常年高达99%,每日为您呈献全方位、多领域、有深度的前沿AI论文解决及配套的行业级应用解决方案,提供科研 | 技术 | 就业一站式服务,涵盖有监督/半监督/无监督/自监督的各类2D/3D的检测/分类/分割/跟踪/姿态/超分/重建等全栈领域以及最新的AIGC等生成式模型。欢迎关注微信公众号CVHub或添加小编好友:cv_huber,备注“知乎”,参与实时的学术&技术互动交流,领取CV学习大礼包,及时订阅最新的国内外大厂校招&社招资讯!


目录
相关文章
|
人工智能
基于qwen2和qwenvl的自动批改作业应用!
针对作业批改中常见的问题,如低质量作业、大量简单作业耗时、需初筛异常作业等,开发了一款自动批改作业的应用。该应用通过备份作业文件、获取文档内容、利用AI生成评语,并保存关键信息与日志,简化了教师的工作流程,提高了效率。应用设计简洁,易于扩展,支持图片转文字处理,适合教育场景使用。
3189 1
基于qwen2和qwenvl的自动批改作业应用!
|
机器学习/深度学习 文字识别 算法
【OCR学习笔记】2、OCR图像预处理(上)
【OCR学习笔记】2、OCR图像预处理(上)
2054 0
|
3月前
|
监控 Linux 数据安全/隐私保护
Python实现Word转PDF全攻略:从入门到实战
在数字化办公中,Python实现Word转PDF自动化,可大幅提升处理效率,解决格式兼容问题。本文详解五种主流方案,包括跨平台的docx2pdf、Windows原生的pywin32、服务器部署首选的LibreOffice命令行、企业级的Aspose.Words,以及轻量级的python-docx+pdfkit组合。每种方案均提供核心代码与适用场景,并涵盖中文字体处理、表格优化、批量进度监控等实用技巧,助力高效办公自动化。
956 0
|
11月前
|
数据采集 前端开发 物联网
【项目实战】通过LLaMaFactory+Qwen2-VL-2B微调一个多模态医疗大模型
本文介绍了一个基于多模态大模型的医疗图像诊断项目。项目旨在通过训练一个医疗领域的多模态大模型,提高医生处理医学图像的效率,辅助诊断和治疗。作者以家中老人的脑部CT为例,展示了如何利用MedTrinity-25M数据集训练模型,经过数据准备、环境搭建、模型训练及微调、最终验证等步骤,成功使模型能够识别CT图像并给出具体的诊断意见,与专业医生的诊断结果高度吻合。
21352 162
【项目实战】通过LLaMaFactory+Qwen2-VL-2B微调一个多模态医疗大模型
|
9月前
|
机器学习/深度学习 文字识别 自然语言处理
分析对比大模型OCR、传统OCR和深度学习OCR
OCR技术近年来迅速普及,广泛应用于文件扫描、快递单号识别、车牌识别及日常翻译等场景,极大提升了便利性。其发展历程从传统方法(基于模板匹配和手工特征设计)到深度学习(采用CNN、LSTM等自动学习高级语义特征),再到大模型OCR(基于Transformer架构,支持跨场景泛化和少样本学习)。每种技术在特定场景下各有优劣:传统OCR适合实时场景,深度学习OCR精度高但依赖大量数据,大模型OCR泛化能力强但训练成本高。未来,大模型OCR将结合多模态预训练,向通用文字理解方向发展,与深度学习OCR形成互补生态,最大化平衡成本与性能。
|
编解码 人工智能 文字识别
阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
GOT来促进OCR-2.0的到来。该模型具有580百万参数,是一个统一、优雅和端到端的模型,由高压缩编码器和长上下文解码器组成。
阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
|
存储 人工智能 文字识别
AI与OCR:数字档案馆图像扫描与文字识别技术实现与项目案例
本文介绍了纸质档案数字化的技术流程,包括高精度扫描、图像预处理、自动边界检测与切割、文字与图片分离抽取、档案识别与文本提取,以及识别结果的自动保存。通过去噪、增强对比度、校正倾斜等预处理技术,提高图像质量,确保OCR识别的准确性。平台还支持多字体识别、批量处理和结构化存储,实现了高效、准确的档案数字化。具体应用案例显示,该技术在江西省某地质资料档案馆中显著提升了档案管理的效率和质量。
1376 1
|
JSON 达摩院 Java
大模型时代下的文档智能 | 文档解析(大模型版)
文档智能(Document Mind)是基于阿里巴巴达摩院技术打造的多模态文档识别与理解引擎,提供通用文档智能、行业文档智能和文档自学习能力,满足各类智能文档处理需求。尤其在企业中,它能有效处理文本、图片、扫描件等多种非结构化文档,释放数据价值。本文将介绍文档智能的应用场景、产品架构及其核心功能——文档解析(大模型版),并展示其在线体验与API接口调用方法。
|
机器学习/深度学习 并行计算 PyTorch
ONNX 优化技巧:加速模型推理
【8月更文第27天】ONNX (Open Neural Network Exchange) 是一个开放格式,用于表示机器学习模型,使模型能够在多种框架之间进行转换。ONNX Runtime (ORT) 是一个高效的推理引擎,旨在加速模型的部署。本文将介绍如何使用 ONNX Runtime 和相关工具来优化模型的推理速度和资源消耗。
6662 4