一、前言
使用基于深度学习的文本检测器和 OCR 执行文本识别。在此示例中,使用预训练的 CRAFT(文本字符区域感知)深度学习网络来检测输入图像中的文本区域。可以修改 CRAFT 模型的区域阈值和关联性阈值,以本地化整个段落、句子或单词。然后,使用 OCR 识别检测到的文本区域中的字符。
二、读取图像
将图像读入工作区。
三、检测文本区域
使用该函数检测输入图像中的文本区域。该值是用于本地化图像中每个字符的区域阈值。该值是相关性阈值,用于定义将两个检测到的文本分组到单个实例中的分数。您可以通过修改区域和相关性阈值来微调检测结果。增加相关性阈值的值,以进行更多字级和字符级检测。
要检测停车标志上的每个单词,请将区域阈值的值设置为 0.3。相关性阈值的默认值为 0.4。输出是一组边界框,用于本地化图像场景中的单词。边界框指定图像中检测到的文本区域的空间坐标。使用该函数在图像上绘制输出边界框。显示输入图像和输出文本检测。
四、识别文本
该函数在浅色背景上包含深色文本的图像上表现最佳。将输入图像转换为二进制图像并反转以获取在浅色背景上包含深色文本的图像。
显示二进制图像和反转二进制图像。
使用该函数识别边界框中的文本。将“名称-值”参数设置为“字”,因为词区域是在 ROI 输入中手动提供的。显示识别的单词。