论文推荐|[PR 2019]SegLink++:基于实例感知与组件组合的任意形状密集场景文本检测方法

简介: 本文简要介绍Pattern Recognition 2019论文“SegLink++: Detecting Dense and Arbitrary-shaped Scene Text by Instance-aware Component Grouping”的主要工作。该论文提出一种对文字实例敏感的自下而上的文字检测方法,解决了自然场景中密集文本和不规则文本的检测问题。

image.png
    本文简要介绍Pattern Recognition 2019论文“SegLink++: Detecting Dense and Arbitrary-shaped Scene Text by Instance-aware Component Grouping”的主要工作。该论文提出一种对文字实例敏感的自下而上的文字检测方法,解决了自然场景中密集文本和不规则文本的检测问题。该论文提出的Instance-aware Component Grouping(ICG)方法,能够在自下而上的文字检测方法的基础上大大提高密集文本检测的效果。在该论文提出的一个商品密集文本检测数据集DAST1500上,该方法的结果明显优于同时期的其他文字检测方法。
image.png

Fig.1. Comparison of different scene text detectors on one proposed DAST1500 image. (a)SegLink; (b) CTD+TLOC; (c) PixelLink; (d)Proposed ICG.

一、研究背景

    近年来场景文字检测工作主要分为两大类:自上而下的方法和自下而上的方法。自上而下的方法主要借鉴的是通用物体检测的思路,并且根据文字的特点设计相应的检测模型。这类方法通常难以处理不规则文本的检测问题。自下而上的方法,通常先学习文本行的基本组成单元,然后进行单元之间的组合得到文本行检测框。由于其灵活的表征方式,对不规则形状的文本检测有着天然的优势。自下而上的方法按照组成单元的不同又分为两类:组成单元为像素的基于分割的方法,以及组成单元为文字块的基于单元组合的方法。但是,自下而上的方法通常很难区分密集文本。密集文本检测问题是文本检测中一个广泛存在的难点问题。

二、原理简述

image.png

Fig.2. Pipeline of the proposed method.


    现有的自下而上的文字检测方法存在两个问题:一是难以区分密集文本,二是自下而上的方法通常需要一定的后处理进行单元组合,而这个后处理过程一般不能和网络一起进行端到端的训练。为了解决这些问题,该论文首先提出了一种文本块单元之间的吸引关系和排斥关系的表征,然后设计了一种最小生成树算法进行单元组合得到最终的文本检测框。另外,该论文还设计了Instance-aware Loss损失函数,把文本行实例的信息引入到文本块单元的训练过程,实现了后处理过程和网络端到端的训练。
    具体的方法细节如图2所示。对于一张待检测的图片,先用VGG16网络进行特征提取,然后在不同层得到网络输出,其中有文字块单元的分类得分和文字块单元检测框的回归值,包括中心偏移量,宽和高以及旋转角度。另外,网络在不同层还会学习相邻文字块单元之间的吸引和排斥的强弱程度。对应到图2中,蓝色框表示文字块单元,绿色线段表示文字块单元之间的吸引关系,红色线段表示文字块单元之间的排斥关系,为了表示的方便,只画了其中两行文字中的文字块单元以及单元关系。
    在后处理阶段,首先利用阈值得到有效的文字块单元。这些单元以及之间的连接关系可以构成一个图的表征G=(V,E)。其中的节点V代表多尺度的图像金字塔中的文字块单元,边E代表在同一层以及跨层的文字块单元之间的连接关系。其中每个边对应这两个吸引和排斥权重值:和。
    然后设计了一种最小生成树算法进行文字块单元组合,算法伪代码如图3所示。具体的算法流程是,按照吸引关系和排斥关系的强弱值从大到小考察每个关系。如果是吸引关系,则其连接的两个文字单元属于同一个文字单元组;如果是排斥关系,则其连接的两个文字单元之间有一个排斥的约束。遍历所有有效的文字块单元关系,可以得到组合好的文字块单元组,对应图2中,不同的文字块单元组用不同的颜色表示。最后,利用每组文字块单元,可以提取出对应的文字区域的外接检测框。
image.png

Fig.3. Modified MST for text component grouping.


    本文的损失函数分为两部分,。一部分是文字块单元分类和回归的损失函数,另一部分是单元关系的损失函数。这两个函数都有一个实例相关的权重,该权重衡量的是对应标注框与最优检测框的匹配程度,用每个标注框与检测框最大的的倒数表示,整个过程对应图2的绿色虚线框,论文中称之为Instance-aware Loss。这样可以把后处理过程引入到网络的训练过程中,自适应调节每个文字区域中的文字单元和单元关系的损失函数权重,从而进一步提升文字检测效果。

三、主要实验结果及可视化效果

    为了验证方法在不规则密集文本上的检测效果,本文公开了一个商品密集行数据集DAST1500,包括1036张训练图片和500张测试图片,利用ICDAR2015的IoU0.5的方法进行评测。
image.png
image.png
image.png
image.png
image.png

Fig. 4. Some qualitative results on DAST1500, ICDAR15 and CTW1500.


    从Table 1来看,文中的方法在商品密集行数据集DAST1500上取得了优异的性能,大幅领先同时期的其他方法。从方法自身的对比来看,在Baseline基础上引入文字块单元间吸引和排斥的关系表征以及Instance-aware Loss都能有效提升密集文本检测效果。
    对于Table 2,文中的方法在ICDAR15多方向文本检测数据集上取得较好的结果,而且检测效率也不错。另外对于Table 5,在CTW1500曲形文本检测数据集上,本文的方法也取得很好的结果,优于同时期的其他方法。
    图4展示了一些可视化的结果图。可以看到,该方法能处理任意形状的文本,在商品密集文本上也能取得很好的检测效果。

四、总结及讨论

    本文提出了一种Instance-aware Component Grouping(ICG)的自下而上的文字检测方法,实验证明该方法在检测不规则密集文本上的有效性和优越性。ICG中文字块单元之间吸引和排斥关系的表征,以及对文字行实例敏感的Instance-aware Loss,都能够显著改善自下而上的文字检测方法的检测效果。

五、相关资源

论文链接:https://doi.org/10.1016/j.patcog.2019.06.020

下载链接:http://www.vlrlab.net/papers/xu/icg.pdf

DAST1500数据集链接:https://tianchi.aliyun.com/dataset/dataDetail?dataId=12084

原文作者:Jun Tang, Zhibo Yang, Yongpan Wang, Qi Zheng, Yongchao Xu, Xiang Bai

撰稿:汤 俊
编排:高 学
审校:殷 飞
发布:金连文

免责声明:

本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。

出处:https://mp.weixin.qq.com/s/LS_8424jn_3ksemKBgg88w
相关文章
|
8月前
|
机器学习/深度学习 缓存 算法
【论文速递】IJCV2022 - CRCNet:基于交叉参考和区域-全局条件网络的小样本分割
【论文速递】IJCV2022 - CRCNet:基于交叉参考和区域-全局条件网络的小样本分割
|
2月前
|
机器学习/深度学习 Python
堆叠集成策略的原理、实现方法及Python应用。堆叠通过多层模型组合,先用不同基础模型生成预测,再用元学习器整合这些预测,提升模型性能
本文深入探讨了堆叠集成策略的原理、实现方法及Python应用。堆叠通过多层模型组合,先用不同基础模型生成预测,再用元学习器整合这些预测,提升模型性能。文章详细介绍了堆叠的实现步骤,包括数据准备、基础模型训练、新训练集构建及元学习器训练,并讨论了其优缺点。
70 3
|
8月前
|
机器学习/深度学习 算法 计算机视觉
YOLOv8改进-论文笔记】 AKConv(可改变核卷积):任意数量的参数和任意采样形状的即插即用的卷积
AKConv是一种可改变核卷积,旨在解决传统卷积的局限,包括固定大小的卷积窗口和卷积核尺寸。AKConv提供灵活的卷积核参数和采样形状,适应不同尺度特征。其创新点包括:1)支持任意大小和形状的卷积核;2)使用新算法确定初始采样位置;3)应用动态偏移调整采样位置;4)优化模型参数和计算效率。AKConv已应用于YOLOv8,提高网络性能。相关代码可在<https://github.com/CV-ZhangXin/AKConv>找到。
|
5月前
|
数据采集 机器学习/深度学习 算法
5.2.3 检测头设计(计算预测框位置和类别)
这篇文章详细介绍了YOLOv3目标检测模型中的检测头设计,包括预测框是否包含物体的概率计算、预测物体的位置和形状、预测物体类别的概率,并展示了如何通过网络输出得到预测值,以及如何建立损失函数来训练模型。
|
8月前
|
Python
python隶属关系图模型:基于模型的网络中密集重叠社区检测方法
python隶属关系图模型:基于模型的网络中密集重叠社区检测方法
|
机器学习/深度学习 自然语言处理 BI
FourIE:基于图卷积网络的跨任务实例表征交互和标签依赖的联合信息抽取模型
现有的信息抽取(IE)工作主要是分别解决四个主要任务(实体提及识别、关系抽取、事件触发词检测和论元抽取),无法从任务之间的相互依赖中获益。
127 2
|
传感器 编解码 计算机视觉
使用星凸随机超曲面模型对扩展对象和分组目标进行形状跟踪(Matlab代码实现)
使用星凸随机超曲面模型对扩展对象和分组目标进行形状跟踪(Matlab代码实现)
158 0
使用星凸随机超曲面模型对扩展对象和分组目标进行形状跟踪(Matlab代码实现)
|
JSON 算法 数据格式
优化cv2.findContours()函数提取的目标边界点,使语义分割进行远监督辅助标注
可以看到cv2.findContours()函数可以将目标的所有边界点都进行导出来,但是他的点存在一个问题,太过密集,如果我们想将语义分割的结果重新导出成labelme格式的json文件进行修正时,这就会存在点太密集没有办法进行修改,这里展示一个示例:没有对导出的结果进行修正,在labelme中的效果图。
246 0
|
机器学习/深度学习 人工智能 自然语言处理
CasEE: 一种用于重叠事件抽取的级联解码联合学习框架 论文解读
事件抽取(Event extraction, EE)是一项重要的信息抽取任务,旨在抽取文本中的事件信息。现有方法大多假设事件出现在句子中没有重叠,这不适用于复杂的重叠事件抽取。
290 0
|
数据采集 机器学习/深度学习 自然语言处理
实现文本数据数值化、方便后续进行回归分析等目的,需要对文本数据进行多标签分类和关系抽取
实现文本数据数值化、方便后续进行回归分析等目的,需要对文本数据进行多标签分类和关系抽取
215 0