中科大团队新作 | 通用形变文档图像矫正框架(附在线体验DEMO)

简介: 中科大团队新作 | 通用形变文档图像矫正框架(附在线体验DEMO)

28a4f21dc543f5c294e807e625db9d7d.png


Title:Deep Unrestricted Document Image Rectification

Paper:https://arxiv.org/pdf/2304.08796.pdf

Code:https://github.com/fh2019ustc/DocTr-Plus

Demo:https://doctrp.docscanner.top/


导读


近年来,随着文档数字化的需求日益增加,文档图像矫正领域取得了显著进展。然而,现有的基于深度学习的解决方案多仅限于处理限定场景下的文档图像,即输入图像须包含完整的文档。当输入的文档图像仅包含局部区域而不包含完整的文档边界时,矫正质量会受到明显影响。为了解决这一问题,作者团队提出 DocTr++,一种面向各类文档图像的无约束统一矫正框架。


引言


如下图展示了三类常见的形变文档图像:(a) 包含完整文档边界, (b) 包含部分文档边界, © 不包含文档边界。


e0a9fcf88b5e6b631d2f2e90910187b8.png


现有的矫正方法多是聚焦于有边界的文档矫正,即 (a) 对应的图像类型,而对于后两种形变图像的矫正效果欠佳。本方法可以实现对文档边界不全或无边界文档的矫正恢复。


作者团队采用了多尺度的编码器-解码器结构进行有效的特征编解码,并且重新定义了各类形变文档图像与无形变文档图像之间的逐像素映射关系。此外,作者团队还贡献了一个新的无约束文档图像测试基准及其适用的评价指标,以便研究人员对该方法进行后续的验证和改进。


通过定量实验和定性对比,作者团队验证了 DocTr++ 的性能优势及泛化性,并在现有及所提出的基准测试中刷新了多项最佳记录。


方法


作为开始,给出一张框架图,其非常生动形象的展示了本方法的核心思想:


6584118361513078d6443b2d635d619c.png


如上图所示,本方法致力于弥补现有的基于深度学习的方法在应用场景上的不足。具体地,现有的基于深度学习的方法,大多只能矫正文档完整的图像,即文档的四条边完整地出现在输入图像中。


然而,在实际应用时,用户可能只关注于文档的部分区域或内容。例如,在教育场景中,用户可能只想分享书本中的某一道题目。


为了解决这一局限性,在我们的方法中,输入包含各类常见的形变文档图像,包含(a)有完整文档边界的图像,(b)有部分文档边界的图像,以及(c)无文档边界的图像。


我们的方法包含三个主要组件:(a) 畸变特征编码器,(b) 矫正解码器,和 © 坐标映射预测器。


首先, 在畸变特征编码器中,我们采用自注意力机制捕获形变文档的结构特征,并构建多尺度编码器提取和融合这些特征。编码器由三个子模块组成,每个子模块包含两个标准的 Transformer 编码层。这使得本方法既能编码具有高分辨率纹理细节的特征,又能获得低分辨率具有高层语义信息的特征。


接下来,矫正解码器接收编码器输出的多尺度特征以及可学习的矫正提示向量序列(learnable queries),输出解码后的表征用于后续坐标映射矩阵的预测。其中,可学习的矫正提示向量序列零初始化,并加上固定的位置编码。实验发现,每一个矫正提示向量会关注输入形变文档图像中的某一特定区域 (如下图所示),这些区域组合起来便覆盖整张输入图像。同样,解码器由三个子模块组成,每个子模块包含两个标准的 Transformer 解码层。


d8fed1fbf484a706678f869ffe6f538a.png


最后,在坐标映射预测器中,本方法根据解码器输出的特征来预测矫正图像所需的坐标映射矩阵。根据坐标映射矩阵中每一个坐标,基于双线性插值算法重采样出输入形变图像中对应的像素,填入输出图像中。在对所有映射坐标并行执行此操作后,本方法获得完整的矫正图像。


评价指标

60518c6adc3862fc3aa8c36b1ba79abc.png


在这篇文章中,作者团队提出了两种新的评价指标 MSSIM-M 和 LD-M,用于通用形变文档图像矫正质量的评估。因为边界不完整的形变文档图像在矫正后可能会出现像素缺失,如上图所示,本文将有效像素区域的掩膜矩阵与目标图像进行矩阵乘法,得到更适宜进行评价的目标图像。如下图所示,与传统的 MSSIM 和 LD 指标相比,改进后的 MSSIM-M 和 LD-M 更为稳健和可靠。


e2383953a622f74d558ce871814d80f1.png


实验


本文在公开的有边界形变文档图像测试基准和本文新提出的通用形变文档图像测试基准上都进行了性能评估,在两种数据集上都展现了优异的性能。


272f622040bf90cb7ea831c2c76831b5.png

caecd1ba7b86561f845971ab9a0e093d.png

a849ad133590d951d3413bc68227a56b.png



b34519086583ea85c29045a6e11fac33.png



可以直观地看出,本方法在有边界和边界不全两种情况下都实现了有效的矫正。


效果展示


下图展示了各类形变文档图像的矫正结果,包括试卷、文本段落、书页、手写文档等。


309ea3a6bfd6b040205f3bc93937d9ab.png


作者团队还提供了一个在线Demo供大家自行体验:


https://doctrp.docscanner.top/


ea1901d95cf4afc43a16568580d8ec74.png


总结


本文介绍了一种全新的通用形变文档图像矫正框架,作者团队的方法突破了现有多数矫正方法的场景局限性,能够恢复日常生活中常见的各种形变文档图像。为了实现优秀的矫正效果,作者团队采用了一种多尺度编解码器结构,构建各类形变文档图像与无形变文档图像之间的逐像素映射关系。此外,该团队还贡献了一个真实场景的测试基准和新的评估指标,以评估各类真实文档图像的矫正质量。


通过在公开的测试基准和本工作提出的测试基准上进行大量实验,验证了该方法的有效性和鲁棒性。作者团队希望能为未来本领域研究提供一个强有力的基准方法,为进一步研究和发展通用形变文档图像矫正方法提供基础。


CVHub是一家专注于计算机视觉领域的高质量知识分享平台,全站技术文章原创率常年高达99%,每日为您呈献全方位、多领域、有深度的前沿AI论文解决及配套的行业级应用解决方案,提供科研 | 技术 | 就业一站式服务,涵盖有监督/半监督/无监督/自监督的各类2D/3D的检测/分类/分割/跟踪/姿态/超分/重建等全栈领域以及最新的AIGC等生成式模型。欢迎关注微信公众号CVHub或添加小编好友:cv_huber,备注“知乎”,参与实时的学术&技术互动交流,领取CV学习大礼包,及时订阅最新的国内外大厂校招&社招资讯!


目录
相关文章
|
Windows
游戏编程之十 图像引擎DirectXDraw
游戏编程之十 图像引擎DirectXDraw
84 0
|
8月前
|
数据采集 人工智能 Rust
『GitHub项目圈选周刊01』一款构建AI数字人项目开源了!自动实现音视频同步!
『GitHub项目圈选周刊01』一款构建AI数字人项目开源了!自动实现音视频同步!
1146 0
|
5月前
|
存储 Linux 开发工具
告别Hugging Face模型下载难题:掌握高效下载策略,畅享无缝开发体验
【8月更文挑战第2天】告别Hugging Face模型下载难题:掌握高效下载策略,畅享无缝开发体验
告别Hugging Face模型下载难题:掌握高效下载策略,畅享无缝开发体验
|
6月前
|
存储 人工智能 自然语言处理
社区供稿 | 源大模型的快速部署与高效推理——GGUF格式模型介绍与使用教程
在人工智能领域,大型语言模型的发展日新月异,它们在自然语言处理、机器翻译、智能助手等多个领域展现出了前所未有的能力。
社区供稿 | 源大模型的快速部署与高效推理——GGUF格式模型介绍与使用教程
|
7月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之对于生成式图像卡通化,怎么编写自定义策略
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
8月前
|
编解码 人工智能
DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩
【5月更文挑战第23天】研究人员提出Lumina-T2X框架,统一生成和编辑图像、视频、音频及3D内容。使用Flow-based Large Diffusion Transformer (Flag-DiT)模型,实现多模态生成,支持内容编辑。尽管面临训练资源需求高、生成质量不及人类创作等问题,该框架在娱乐、广告等领域有广泛应用潜力。[论文链接](https://arxiv.org/pdf/2405.05945)
121 1
|
8月前
|
人工智能 自然语言处理 搜索推荐
阿里推出 AtomoVideo 高保真图生视频框架,兼容多种文生图模型
【2月更文挑战第17天】阿里推出 AtomoVideo 高保真图生视频框架,兼容多种文生图模型
973 5
阿里推出 AtomoVideo 高保真图生视频框架,兼容多种文生图模型
语音平台源码搭建开发之表情功能的实现
语音平台源码搭建开发表情功能对用户不管是语言表达或是体验新歌都是非常重要的,经过一番操作,我们就成功实现了语音平台源码表情功能,后续我会继续为大家分享语音平台源码搭建开发知识。
语音平台源码搭建开发之表情功能的实现
|
人工智能 并行计算 PyTorch
YOLOv5项目搭建(AI识别皮卡丘)
在网上看了很多关于yolov5的博客,很多都是解读参数配置,或者是解析它的底层原理什么的,对新手不是特别友好,我认为学一样东西,先不管其他的,先把这个东西做出来,然后再去学习内部的原理,这样学习起来就不会那么枯燥乏味了,本篇博客就是纯手把手教你yolov5的搭建、训练、识别。
279 1