备案控制台

开发者社区

开发者社区人工智能文章正文

文本检测 DBNet

2023-06-06 260

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 文本检测 DBNet

论文：https://arxiv.org/pdf/1911.08947.pdf

DBNet属于文本检测算法，目的是 找到图像中文字的位置。

目前文本检测算法分为两类：

1. 基于回归：与目标检测算法的方法相似，文本检测方法只有两个类别，图像中的文本视为待检测的目标，其余部分视为背景。
2. 基于分割：从像素层面做分类，判断每一个像素点是否属于一个文本目标，得到文本区域的概率图，通过后处理方式得到文本分割区域的包围曲线。
DBNet是基于分割的文本检测算法。

1 基于分割的文本检测

上图蓝色线和红色线展示了两种基于图像分割的文本检测算法思路。

蓝色路线：传统分割方法

1. 先输入图像，通过网络输出图片的文本分割结果(一个概率图，每个像素点的值代表着该点正样本的概率)
2. 设定一个固定的阈值，将分割网络生成的概率图转换为二值图像
3. 使用一些方法，如像素聚类，将像素级的结果转化成检测结果。

但是，这里有一个问题：

标准的二值化操作是不可微的。因此，无法将其写入网络一起训练，自动训练该阈值。

红色路线：即DBNet采用的算法思想，它通过训练threshold map并使用一个近似的可微的二值化函数实现了网络自动训练阈值。之后，文本框可以通过近似二值图和概率图获取。后面会详细总结

2 DBNet

网络结构如下所示：

训练过程中：

1. 先将图像输入特征提取网络backbone，其中借鉴了FPN的思想。
2. 然后利用提取的特征图生成probality map和threshold map。其中，probality map是概率图，threshold map是阈值图。
3. 最后，通过概率图和阈值图计算近似二值图。

测试时，可以通过近似二值图得到文本框的位置。

3 backbone

如上图，相加部分借鉴了FPN的思想：https://blog.csdn.net/weixin_51691064/article/details/130274488

而箭头指向的四个卷积是可变形卷积：https://blog.csdn.net/weixin_51691064/article/details/130277558

假设输入src_img为WxH，输出的Feature map是W/4xH/4

4 probability map和threshold map

训练时，网络输出的概率图，阈值图和通过DB操作得到的二值图与训练集相应的形成的特征图进行损失的计算。

测试时，对网络输出的概率图进行后处理，就可以得到框的位置。

这里里面有几个问题：

1. 由训练集标真实签如何得到对应的概率图label
2. 由训练集真实标签如何得到对应的阈值图label
3. 后处理是怎么做的（第7章总结）
4. DB如何做的（第5节总结）

4.1 概率图label的生成

如图，红色为原始区域G，通过收缩得到蓝色区域Gs，通过扩张得到绿色区域Gd。

概率图使用蓝色区域，蓝色区域内为1，蓝色外为0。

收缩量D，参考Vatti clipping算法的偏移系数D的计算方式得到：

其中A为原始区域面积。L是原始区域周长。r是收缩系数，一般设置为0.4。

4.2 阈值图的生成

1. 首先蓝色区域扩张为红色Gd。扩张量与4.1中收缩量一致。并将绿色和蓝色之间作为文本边界区域。
2. 计算边界区域每一个点到红色边界的归一化距离(距离/偏移量D)。比如：
=====================================================================
假设一点P，其到红色边界的距离d，经过归一化后的值Value，其再图中的意义如下：

=====================================================================
用1减得到的归一化后距离。此时值在红色线为1，向Gs和Gd方向递减，在Gs和Gd为0。

至此，得到了概率图label和二值图label。

5 DB

5.1 传统二值化(SB)

对于一个WxH的概率图，设置一个阈值t，对每个位置(i, j)概率超过阈值设置为1，否则设置为0：

但是该操作是不可微的，无法放入网络进行学习。

5.2 可微的二值化

DB，即可微分二值化，解决了上面的问题。通过概率图P和阈值图T通过该操作可以得到二值图B。每个点的计算公式：

其中k是一个超参数，原文中设置为50。

到这里，我们有了概率图，阈值图和二值图，接下来就是进行损失计算。

6 损失计算

训练时需要计算损失。

损失函数分为三部分：

为概率图损失
为二值图损失
为阈值图损失

6.1 概率图损失和二值图损失

这里概率图损失和二值图损失采用的是二值交叉熵损失：

这里是采样得到的样本，正负样本为1:3。

这里采样的作用是平衡正负样本，使用的是困难样本挖掘技术OHEM。

6.2 阈值损失

阈值损失采用L1 loss损失：

其中是标注框经过D偏移量扩充后得到的Gd里所有的像素。是通过4.2节中训练集真实标签计算出的阈值图中的第i个点的值。是网络输出的阈值图中第i个点的值。

7 后处理

通过预测的概率图进行文本框的生成：

1. 设置一个固定阈值，对概率图进行二值化
2. 通过二值图得到连通区域
3. 连通区域采用Vatti clipping算法的偏移系数D’进行扩张得到最终文本框，偏移系数计算公式如下：
其中A’是连通区域面积。L’是连通区域周长。r’是放缩系数，一般设置为1.5。

8 参考

OCR专栏：

https://blog.csdn.net/qq_36816848/category_12113641.html

DBNet文章：

https://blog.csdn.net/yewumeng123/article/details/127503815

https://zhuanlan.zhihu.com/p/368035566

https://blog.csdn.net/michaelshare/article/details/108811236

文章标签：

计算机视觉

数据挖掘

文字识别

图计算

算法

ThreeWhiteDots

目录

相关文章

-借我杀死庸碌的情怀-

|

2月前

|

计算机视觉

YOLO 目标检测识别框不显示文字标签（已解决）

YOLO 目标检测识别框不显示文字标签（已解决）

-借我杀死庸碌的情怀-

80 0 0

汀丶人工智能

|

8月前

|

机器学习/深度学习自然语言处理算法

解读未知：文本识别算法的突破与实际应用

解读未知：文本识别算法的突破与实际应用

汀丶人工智能

90 0 0

解读未知：文本识别算法的突破与实际应用

汀丶人工智能

|

8月前

|

人工智能数据挖掘 PyTorch

VLE基于预训练文本和图像编码器的图像-文本多模态理解模型：支持视觉问答、图文匹配、图片分类、常识推理等

VLE基于预训练文本和图像编码器的图像-文本多模态理解模型：支持视觉问答、图文匹配、图片分类、常识推理等

汀丶人工智能

153 0 0

VLE基于预训练文本和图像编码器的图像-文本多模态理解模型：支持视觉问答、图文匹配、图片分类、常识推理等

甜面酱肉丝

|

8月前

|

机器学习/深度学习编解码自然语言处理

文本检测之SegLink

翻译：《Detecting Oriented Text in Natural Images by Linking Segments》

甜面酱肉丝

77 1 1

羽林小王子

|

10月前

|

机器学习/深度学习算法计算机视觉

计算机视觉文本检测与文本识别（一）

计算机视觉文本检测与文本识别（一）

羽林小王子

103 0 0

ThreeWhiteDots

|

10月前

|

机器学习/深度学习文字识别计算机视觉

文本识别 CRNN

文本识别 CRNN

ThreeWhiteDots

231 0 0

中杯可乐多加冰

|

11月前

|

机器学习/深度学习人工智能文字识别

从模式识别到图像文档分析——浅析场景文本识别研究

文本检测领域经历了从水平文字检测到多方向文字检测再到任意形状文字检测这样越来越有挑战性的应用场景转变。在复杂场景下，由于光照、遮挡等因素的影响，图像中的文本经常会出现模糊、失真、变形等问题；其次，文本与背景之间偶尔存在相似度较高的情况，文字颜色和背景颜色相近或者噪点过多等情况会严重干扰文本的准确识别；此外，在某些场景下（如手写体、印章、二维码等），不同于常规字体的字形特征也会增加识别难度。复杂场景下的文本识别依然是目前难以解决的问题。

中杯可乐多加冰

191 1 1

Matlab科研工作室

|

机器学习/深度学习传感器文字识别

【图像检测】基于计算机实现交通标志图像检测提取附matlab代码和报告

【图像检测】基于计算机实现交通标志图像检测提取附matlab代码和报告

Matlab科研工作室

117 0 0

Deephub

|

机器学习/深度学习 TensorFlow 算法框架/工具

FOTS：自然场景的文本检测与识别（下）

FOTS：自然场景的文本检测与识别

Deephub

146 0 0

FOTS：自然场景的文本检测与识别（下）

Deephub

|

机器学习/深度学习

FOTS：自然场景的文本检测与识别（上）

FOTS：自然场景的文本检测与识别

Deephub

117 0 0

FOTS：自然场景的文本检测与识别（上）

热门文章

最新文章

疑犯追踪第一季/全集Person Of Interest迅雷下载

【直播系列之一】1篇文章看懂峰值带宽、流量、转码、连麦、截图五大直播计费方式

理解事务的4种隔离级别

阿里云网站域名备案流程全过程讲解(图文)

在服务器的raid1中安装windows server系统（踩坑记录）

如何用Vue实现简易的富文本编辑器，并支持Markdown语法

怎么才能快速提高小程序留存率！

程序员请放下浮躁的心

如何解决域中普通用户只限于10台客户机加入域的数量问题

博客园模板样式优化

未来技术纵横谈：区块链、物联网与虚拟现实的融合与创新

软件体系结构 - 缓存技术（9）缓存穿透

提升Android应用性能的实用技巧

工具变量法(两阶段最小二乘法2SLS)线性模型分析人均食品消费时间序列数据和回归诊断（下）

软件体系结构 - 缓存技术（8）缓存雪崩

软件体系结构 - 缓存技术（7）Redis持久化方法

Python用KShape对时间序列进行聚类和肘方法确定最优聚类数k可视化

软件体系结构 - 缓存技术（6）淘汰策略

基于R语言股票市场收益的统计可视化分析

软件体系结构 - 数据分片（2）一致性哈希分片

相关电子书

更多

营销设计场景下的图像和文字生成

低代码开发师（初级）实战教程

阿里巴巴DevOps 最佳实践手册

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）