面向古籍版面数字化识别应用研究—基于HisDoc-DETR模型深入剖析

简介: 针对古籍版面复杂、文字稀疏、数据稀缺等难题,合合信息与华南理工大学联合提出HisDoc-DETR模型。该框架融合Transformer全局建模与CNN局部特征提取优势,创新引入语义关系学习、双流特征融合及GIoU感知预测头三大模块,显著提升古籍逻辑与物理结构的识别精度,在SCUT-CAB数据集上性能超越主流方法,为古籍数字化、知识库构建与文化遗产传播提供强有力的技术支撑。

一、研究背景

古籍承载着丰富的历史、文化与思想价值,但其数字化与智能化利用始终面临难题。传统的古籍版面复杂多变,存在稀疏文字、跨栏结构、插图混排等特征,这些都给自动化版面分析带来极大挑战。
早期研究多依赖人工制定规则或启发式算法,虽然能在特定场景下发挥作用,但通用性和适应性不足。随着深度学习的兴起,研究者开始尝试利用卷积神经网络和目标检测模型进行版面分析,但现有方法大多针对现代印刷文档,难以应对古籍的复杂版式。
在这里插入图片描述

随着数字人文与智慧档案的发展需求日益增长,如何高效、准确地解析古籍版面,已经成为学术界与产业界的共同关注点。现有的通用文档分析算法,虽然在现代书籍、报纸等规则化文本中表现优异,但在面对古籍时往往力不从心:

  • 结构复杂:古籍版式缺乏统一标准,不仅存在竖排、横排混用,还可能出现多栏式、题跋、插图与正文交错的情况;
  • 质量参差:由于年代久远,古籍纸张发黄、字迹模糊,甚至存在残缺、污染,直接影响版面识别的准确度;
  • 训练数据有限:古籍图像标注成本高,导致大规模高质量数据集的缺乏,使得深度学习模型难以获得充分训练。

因此,亟需一种既能理解古籍长距离语义关系,又能兼顾局部细节特征的智能化版面分析方法。
在这一背景下,合合信息与华南理工大学文档图像分析识别与理解联合实验室发表论文提出了一种面向古籍版面分析的创新框架——HisDoc-DETR,针对历史文献的特点进行了定制化优化。

在这里插入图片描述
该方法在继承 Transformer 模型强大建模能力的同时,结合古籍特有的稀疏结构与复杂布局特点,设计了多项创新机制。其核心目标是:在有限训练数据下,依旧能够实现对古籍逻辑结构(如段落、标题、注释)与物理结构(如文字块、插图、边框)的精准识别与定位。

二、方法与技术创新

在面对古籍这种“版面复杂、文字稀疏、元素多样”的文档时,传统的版面分析方法常常捉襟见肘。为此,HisDoc-DETR专门面向历史文献的版面分析模型。它继承了 Transformer 的全局建模优势,同时针对古籍的特殊性设计了三大核心模块与改进机制。

2.1 总体架构

HisDoc-DETR 采用 Transformer 编码器–解码器架构,整体流程为:

ResNet-50 特征提取 → 语义关系学习(Encoder) → 查询预测与筛选 → Deformable Transformer(Decoder) → GIoU-aware 预测头。

这种基于查询的端到端框架能够灵活地适应不同数量和复杂结构的版面元素,非常契合古籍的开放性和非规则性。

在这里插入图片描述

2.2 三大技术创新模块

(1)语义关系学习模块

古籍版式往往存在跨列、题跋、注释等远距离依赖,传统卷积网络难以捕捉这种全局联系。HisDoc-DETR 在编码器中加入 基于Transformer 的语义关系学习模块,利用自注意力机制在整页范围内建模元素间的关系,从而提升模型对复杂布局的整体理解。

在这里插入图片描述
上图的语义关系学习模块融合Transformer与CNN设计思路,输入X先经“卷积式”位置编码器(由Conv3×3、SiLU、Conv1×1等卷积操作构成,为输入添加位置与局部特征信息)处理并融合,再经Flatten调整结构后,送入多头自注意力模块从多维度学习元素关联,其输出通过残差连接与层归一化后,进入前馈网络进一步提取抽象语义,最后再次经残差连接与层归一化得到结果;整体结合了CNN局部特征提取与Transformer全局语义关联学习的优势,还通过残差连接和层归一化保障深层网络训练稳定。

综上所述,可以看出该模块创新融合Transformer与CNN,既借CNN提取古籍局部特征,又靠Transformer自注意力捕捉跨列等全局语义关联;“卷积式”位置编码适配古籍局部视觉特点;残差连接和层归一化还保障了深层训练稳定高效,有力提升对古籍复杂布局的理解。

(2)双流特征融合模块

单纯的高层语义特征会忽视古籍中小字、边框等细节,HisDoc-DETR 提出 双流融合机制:

  • 上采样路径传递全局语义;
  • 下采样路径保留局部细节;
  • 再通过 通道注意力(ECA) 与 坐标注意力(CA) 综合筛选关键信息。
    这一设计保证了模型既能看清整体布局,也不会漏掉细小的元素。
    在这里插入图片描述
    该融合层通过上/下采样匹配特征尺寸,利用1×1卷积调整通道,再结合 ECA(侧重通道注意力)和 CA(兼顾通道与空间坐标注意力)两种注意力机制,从不同维度(通道、空间)对特征进行增强,最后融合得到更具判别性的特征,可用于需要多维度特征融合的任务(如图像分割、目标检测等)。
    上文可见该双流特征融合模块亮点十足:一是采用双流机制,上采样传全局语义、下采样保局部细节,完美平衡古籍整体布局与小字、边框等细节;二是结合ECA(聚焦通道)和CA(兼顾通道与空间坐标)两种注意力,从多维度精准筛选关键信息;三是通过1×1卷积、上/下采样等操作,高效完成特征尺寸匹配与通道调整,让融合后的特征更具判别性,有力提升了古籍版式分析等任务的效果。

    (3)GIoU 感知预测头

在传统的目标检测方法中,分类分支和定位分支通常是独立的:分类分支判断目标属于哪一类,定位分支负责输出边界框的位置。然而,这种割裂设计往往带来一个问题——模型可能会输出一个框的位置并不准确,但分类置信度却很高的结果。对于复杂的古籍文档,这种问题尤为严重:
一方面,古籍中存在小尺寸文字块和稀疏布局,框偏移一点,就可能导致文字被截断或元素被误分类;
另一方面,古籍页面中有大量背景区域,如果分类分支置信度过高但定位不准,就会增加误检和虚框。

为了解决这一矛盾,HisDoc-DETR 提出了 GIoU-aware 预测头,其核心思想是让分类分支感知定位质量。

在这里插入图片描述

技术原理

GIoU(Generalized IoU):是一种比 IoU 更稳定的边界框重叠度量方式,能在框不重叠的情况下也提供梯度信号。
在 HisDoc-DETR 中,研究者将预测框与真实框的 GIoU 值映射到 [0,1][0,1][0,1] 区间,记作g。
然后,分类分支不再单纯预测“属于某类的概率”,而是要输出一个接近 g 的值。换句话说,分类分支的输出既表示“属于某一类别的置信度”,同时也体现了“定位的好坏”。
这样一来,如果一个框位置准确(GIoU 高),模型才会给予高置信度;如果位置偏差大(GIoU 低),即便分类正确,置信度也会降低。
论文在分类损失中引入了 GIoU-aware score,并借鉴了 Focal Loss 的思想,引入参数 γ(控制难样本权重)和 α(平衡正负样本):
●当 g>0(有目标匹配时),分类分支的预测值 p 只有在接近 g 时损失最小;
●当 g=0(背景时),分类分支会被引导输出接近 0 的概率,避免无效框的高置信度输出。

这种机制有效地把“分类是否正确”与“定位是否准确”统一起来。这一设计对古籍版面分析尤其关键:
1.减少误检:许多古籍页面有大面积留白或装饰元素,传统模型可能在这些区域给出“置信度高但框偏差大”的错误检测。GIoU-aware 机制能够降低这些虚假检测的置信度。
2.保证边界精度:古籍 OCR 依赖边界框的精准定位,如果边框稍有偏移,后续的文字切割与识别都会受影响。通过 GIoU-aware,系统能优先输出定位精准的框。
3.提升模型稳定性:在后处理(例如阈值筛选和非极大值抑制)中,框的置信度更真实地反映了检测质量,从而提高整体预测的可靠性。

在这里插入图片描述

2.3 训练优化与损失设计

HisDoc-DETR 在训练过程中充分考虑了古籍场景的复杂性与数据稀缺性,提出了一套联合优化方案。其目标不仅是提升模型的检测精度,还要保证在有限数据条件下的稳定收敛与泛化能力。

在 SCUT-CAB 数据集中,文档提供了完整的阅读顺序标注。正如下图所示,正文的正确阅读顺序遵循“自上而下、从左到右”的规则。我们的研究主要关注正文部分的阅读顺序,忽略了页码、经卷编号、跨页插页等辅助标签。对于复印件或扫描件,为避免极小的标签干扰阅读顺序,我们对这些微小标签进行了过滤处理,如图所示,从而保证阅读顺序标注的准确性与一致性。
在这里插入图片描述
在训练时,HisDoc-DETR 采用 联合损失函数:
●分类损失:基于 GIoU-aware 机制;
●边界框回归:L1 损失 + GIoU 损失;
●结合 DINO 的去噪查询(denoising queries)与查询初始化策略,加速模型收敛,尤其适合标注有限的古籍场景。
总的来说,联合损失函数模型的总损失由三部分组成:

  • 分类损失(Classification Loss)
    采用 GIoU-aware 机制,使分类置信度直接与边界框的定位质量挂钩。这样一来,只有同时“类别正确 + 定位精确”的预测,才会获得高置信度,显著降低虚假检测。
  • 边界框回归(Bounding Box Regression)
    结合 L1 损失(保证数值上的精确回归)与 GIoU 损失(保证几何重叠质量),两者互补,使预测框既靠近真实框的位置,也具备良好的形状与覆盖度。
  • 去噪辅助(Denoising Loss)
    借鉴 DINO 思路,引入额外的“噪声查询”进行训练。这些查询包含故意扰动的类别或位置标注,模型在修正它们的过程中学习到更鲁棒的表征,从而提升抗干扰能力。
    最终的总损失形式为:

在这里插入图片描述

其中 λ 系数用于平衡不同损失的贡献。

HisDoc-DETR 在 Encoder 阶段生成候选区域,并从中筛选置信度最高的若干位置,作为 Decoder 的初始化查询(queries)。
●这一机制保证了 Decoder 一开始就“关注可能的目标区域”,而不是盲目搜索;
●特别适合古籍这种“目标稀疏、结构多样”的场景,能够显著提升收敛速度和召回率。

综上所述,HisDoc-DETR 针对古籍场景 “复杂性高、数据稀缺” 的核心痛点,设计了针对性的训练优化方案与损失体系。在损失函数上,通过联合优化策略实现多目标提升:分类损失采用 GIoU-aware 机制,将分类置信度与边界框定位质量绑定,大幅减少虚假检测;边界框回归结合 L1 损失(保证数值精度)与 GIoU 损失(保证几何重叠度),实现预测框位置与形状的双重精准;同时引入 DINO 的去噪损失,借助 “噪声查询” 训练提升模型抗干扰能力与表征鲁棒性。

在查询策略上,Encoder 阶段筛选高置信度候选区域作为 Decoder 初始化查询,让模型聚焦潜在目标区域,适配古籍 “目标稀疏、结构多样” 的特点,显著加快收敛速度并提升召回率。整体方案兼顾检测精度、收敛稳定性与泛化能力,有效解决了古籍场景下数据有限、目标检测难度大的问题。

2.4 效果与验证

在 SCUT-CAB 古籍数据集上,HisDoc-DETR 相比 DINO 等先进模型,取得了显著提升:
●逻辑结构分析中 Average Precision (AP) 提升 4.1%;
●物理结构分析中 Average Precision (AP) 提升 3.2%。
这充分证明了三大模块的互补性与有效性,也展示了该方法在古籍复杂场景下的独特优势。

表 1. HisDoc-DETR核心模块缺失后的实验结果

在这里插入图片描述

表 2. 特征融合模块对比结果
在这里插入图片描述
表 3. GIoU 感知预测头超参数调优的实验结果

在这里插入图片描述

Table 1 展现了特征融合模块与GIoU感知预测头协同作用的优势;
Table 2 验证了特征融合模块的优秀效果;
Table 3 说明了 GIoU-aware 在较低的IoU阈值下表现更佳。

上文的三张表格分别展现了 HisDoc-DETR 的整体协作优势、特征融合模块的效果以及 GIoU-aware 机制的最佳参数调优,系统支撑了方法的有效性与可靠性。

表 4. SCUT-CAB 物理版面各类别的 AP@[0.5:0.95]
在这里插入图片描述
上文表格4通过量化的指标对比,直观证明了 HisDoc-DETR 在历史文档版面分析任务中的优越性;文本则从 “应用场景(历史书籍)” 和 “方法价值(鲁棒性)” 角度,解读了数据背后的意义 —— 该方法能更可靠地完成不同版面元素的检测与分类,对历史文档的数字化与智能化分析具有实用价值。

三、应用场景与价值

HisDoc-DETR 的研究突破不仅在算法层面带来了创新,更为古籍数字化保护、利用和传播提供了全新的技术支撑。基于其在复杂版面解析上的高精度和鲁棒性,该模型在多个实际场景中具备广泛应用价值。

3.1 数字人文研究

在数字人文领域,学者们需要从大量古籍中快速提取结构化信息,如目录、章节、段落、题跋与注释等。传统人工整理不仅耗时长、效率低,还容易出现遗漏或标注不一致的情况。HisDoc-DETR 利用自动化版面分析技术,能够精确识别古籍的逻辑结构,实现对章节、段落的快速抽取,同时自动检测题跋、注释、插图等特殊元素。这不仅大幅提升了文献整理效率,也为历史学者和文献学者提供了高质量的结构化数据支持,助力他们更高效地开展研究与分析。
在这里插入图片描述

3.2 古籍数字化与知识库建设

高精度的版面解析是古籍 OCR(文字识别)和语义理解的前提。HisDoc-DETR 可精准定位文字块和插图,为后续文字识别和知识抽取提供可靠输入,从而支持:
●提升古籍数字化转化效率,提高 OCR 识别率;
●构建大型古籍知识图谱,实现文献结构化和信息可视化;
●支撑数字图书馆、在线古籍平台和智能检索系统的发展。
凭借对跨页、跨栏及混排等复杂版式的适应能力,HisDoc-

DETR 能够满足古籍数字化的系统化管理需求,确保古籍信息的完整性与可利用性,为数字化古籍资源建设提供强有力的技术保障。

在这里插入图片描述

3.3 文化遗产保护与传播

在文化遗产保护与传播方面,HisDoc-DETR 同样展现了重要价值。借助自动化版面分析技术,可以:
●实现古籍批量化整理,降低人工成本;
●快速生成可用于展示和教育的数字内容;
●支持博物馆、数字展览及教育平台中的古籍展示,提升公众的文化体验。

通过将高精度版面解析与数字展示相结合,珍贵古籍能够更快、更安全地进入公众视野,同时确保内容结构和信息完整性,为文化传承提供坚实的技术基础。
在这里插入图片描述

四、心得

HisDoc-DETR 的成功在于对古籍特性的深入理解与针对性优化。它提醒我们,技术创新不仅是算法性能的提升,更在于将技术与实际场景紧密结合,从而实现学术价值与社会价值的双重提升。未来,类似的方法有望进一步拓展到多语种、跨时代文献的数字化处理,推动古籍保护与利用进入智能化新时代。

附录

HisDoc-DETR:https://link.springer.com/chapter/10.1007/978-3-032-04624-6_13
github:https://github.com/HCIILAB/SCUT-CAB_Dataset_Release/blob/main/img/cab_binding.png

相关文章
|
8天前
|
弹性计算 关系型数据库 微服务
基于 Docker 与 Kubernetes(K3s)的微服务:阿里云生产环境扩容实践
在微服务架构中,如何实现“稳定扩容”与“成本可控”是企业面临的核心挑战。本文结合 Python FastAPI 微服务实战,详解如何基于阿里云基础设施,利用 Docker 封装服务、K3s 实现容器编排,构建生产级微服务架构。内容涵盖容器构建、集群部署、自动扩缩容、可观测性等关键环节,适配阿里云资源特性与服务生态,助力企业打造低成本、高可靠、易扩展的微服务解决方案。
1194 4
|
7天前
|
机器学习/深度学习 人工智能 前端开发
通义DeepResearch全面开源!同步分享可落地的高阶Agent构建方法论
通义研究团队开源发布通义 DeepResearch —— 首个在性能上可与 OpenAI DeepResearch 相媲美、并在多项权威基准测试中取得领先表现的全开源 Web Agent。
950 12
|
6天前
|
机器学习/深度学习 物联网
Wan2.2再次开源数字人:Animate-14B!一键实现电影角色替换和动作驱动
今天,通义万相的视频生成模型又又又开源了!Wan2.2系列模型家族新增数字人成员Wan2.2-Animate-14B。
536 11
|
17天前
|
人工智能 运维 安全
|
8天前
|
弹性计算 Kubernetes jenkins
如何在 ECS/EKS 集群中有效使用 Jenkins
本文探讨了如何将 Jenkins 与 AWS ECS 和 EKS 集群集成,以构建高效、灵活且具备自动扩缩容能力的 CI/CD 流水线,提升软件交付效率并优化资源成本。
341 0
|
8天前
|
消息中间件 Java Apache
SpringBoot集成RocketMq
RocketMQ 是一款开源的分布式消息中间件,采用纯 Java 编写,支持事务消息、顺序消息、批量消息、定时消息及消息回溯等功能。其优势包括去除对 ZooKeeper 的依赖、支持异步和同步刷盘、高吞吐量及消息过滤等特性。RocketMQ 具备高可用性和高可靠性,适用于大规模分布式系统,能有效保障消息传输的一致性和顺序性。
463 2
|
15天前
|
人工智能 异构计算
敬请锁定《C位面对面》,洞察通用计算如何在AI时代持续赋能企业创新,助力业务发展!
敬请锁定《C位面对面》,洞察通用计算如何在AI时代持续赋能企业创新,助力业务发展!
|
8天前
|
云栖大会
阿里云云栖大会2025年9月24日开启,免费申请大会门票,速度领取~
2025云栖大会将于9月24-26日举行,官网免费预约畅享票,审核后短信通知,持证件入场
1566 12