使用OCR库Pix2Text执行p2t.recognize()时出现list index out of range的错误信息(附有Pix2Text识别图片内容和laTex公式的代码)

简介: 有时候报错并不是你代码有问题,源码出错也是很常见的情况,比如之前使用mxgraph也出现了不知名bug,最后也是修改的源码解决的。有疑问欢迎交流~ 博客不应该只有代码和解决方案,重点应该在于给出解决方案的同时分享思维模式,只有思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~


一、OCR和Pix2Text

1.1、OCR是什么

       OCR(Optical Character Recognition,光学字符识别)是一种技术,它能够将不同来源的图像文件中的文字转换成可编辑的文本数据。OCR技术可以识别印刷体文字,也可以识别手写体文字,但后者的识别准确率通常较低。OCR技术广泛应用于文档数字化、数据录入、以及自动化处理等领域。

       OCR技术的基本流程包括以下几个步骤:

  1. 预处理:对图像进行去噪、二值化、旋转校正等操作,以提高识别的准确性。
  2. 文字检测:在图像中定位文字的位置,这可能包括文字区域的检测和文字行的分割。
  3. 字符分割:将检测到的文字行进一步分割成单个字符或单词。
  4. 特征提取:从分割后的字符中提取有助于识别的特征。
  5. 分类识别:利用机器学习模型,根据提取的特征将字符分类识别成相应的文字。
  6. 后处理:对识别结果进行校正,比如通过语言模型来纠正可能的错误。

1.2、关于Pix2Text

       Pix2Text是一种特定的OCR技术,它通常指的是将图像中的文字内容转换为文本的过程。这个术语并不是一个特定的产品或技术,而是一个通用的描述,用来表示将图像中的文字信息转换为可编辑文本的技术或服务。Pix2Text可以是任何OCR技术的实现,可以是软件、应用程序或在线服务。

       OCR技术的关键点在于其准确性和速度,随着机器学习和深度学习技术的发展,现代OCR系统在识别多种语言和复杂文档格式方面取得了显著的进步。这些系统能够更好地处理不同的字体、大小、颜色以及图像质量,从而提供更高的识别准确率和更广泛的应用场景。

二、Pix2Text正常识别图片内容的代码

  先上源码,这是一个通过Pix2Text来识别图片内容的脚本,Pix2Text识别精度和速度都还不错,主要是能有效识别公式,并生成laTex代码。

import os
import glob
from pix2text import Pix2Text, merge_line_texts
# 获取待识别的图片列表
img_fp_list = glob.glob(r'E:\code\python\textRecognition\data\test\pic1.*.png')
for img_fp in img_fp_list:
    # 新建pix2text对象,mfd是默认模式
    p2t = Pix2Text(analyzer_config=dict(model_name='mfd'))
    try:
        print("---start to recognize---")
        # 开始识别,得到该图片的识别结果
        outs = p2t.recognize(img_fp)  # can also use `p2t.recognize(img_fp)`  or 'p2t(img_fp, resized_shape=600)'
        print("---over---")
    except Exception as e:
        print("---error---")
        print(e)
    if outs:
        # 将内容拼接到一起
        img_name = img_fp.split('\\')[-1]
        out_fp = img_fp.replace(img_name, 'pix2text.txt')
        with open(out_fp, 'a', encoding='utf-8') as f:
            f.write(outs)
        outs = None

image.gif

  这个源码大多数情况都能执行,有需要的兄弟请自取。(注意,有博客说outs = p2t.recognize(img_fp)的返回值是一个字典,但是我的返回值是个字符串,可能和版本有关,这个看具体的情况来修改读取和拼接的代码)

三、对于部分图片执行时出现的“list index out of range”报错

  通过try-except是报这个错,如果不try直接跑应该会直接报源码的错,但是源码报错一般都是自己代码写错了,很难判断具体的原因。

  这篇博客是要解决一个莫名其妙的bug,在双列识别时,内容量过多所出现的“list index out of range”报错。

  举个例子,笔者识别这些图片都没问题

image.gif 编辑

image.gif 编辑

       但是同一篇论文,同一种格式的图片产出,这样的图片就会报错

image.gif 编辑

  经过测试,发现只要是内容满满荡荡的就会报错,稍微有点空行、图片、表格什么的还是能正常识别,追溯到源码,发现问题出在源码的utils.py的merge_line_text当中。

3.1、解决方案(小白操作版,后面有原因推测)

  现在提供一种解决的思路:

①先ctrl+点击p2t.recognize,进入到pix_to_text.py

image.gif 编辑

image.gif 编辑

②在pix_to_text.py中,找到344行的merge_line_texts方法,ctrl+点击它进入utils.py(如果找不到这个方法直接ctrl+f搜索也是可以的)

image.gif 编辑

③在utils.py中,大概在710+行的位置,找到这个循环,将if(我注释掉的就是原代码)改成while即可。

image.gif 编辑

3.2、原因推测

  简单说一下报错原因,这里其实是pix2Text的开发者在遍历识别结果_out,按照line_number和type的值拿出不同的内容,但是可能存在空行或者其他原因,经常会出现line_number并没有递增,而是突然从15变成17这样的情况,那么后面执行的时候,out_texts扩容速度跟不上导致out_texts[line_number]这个操作超出数组限制,导致报错。于是开发者添加了一个判断,如果在某一轮次出现了len(out_texts) <= line_number的情况,就给out_texts多扩容一次,但这里有个逻辑错误,if判断只能执行一次,事实上只有len(out_texts) = line_number的时候扩容一次是有效的,所有len(out_texts) < line_number的情况扩容一次是解决不了问题的。恰好我就遇到了这种情况,于是将if改成wihle,不断地扩容直到刚好len(out_texts) > line_number,这样就能正常运行了。

  至于为什么一定是内容满满当当的论文图片才会有这种错误,这就要看Pix2Text所依赖的OCR引擎CnOCR的执行逻辑了,这个我目前还没有过深的接触,有懂的大佬可以在评论区解释一下。

四、总结

       有时候报错并不是你代码有问题,源码出错也是很常见的情况,比如之前使用mxgraph也出现了不知名bug,最后也是修改的源码解决的。有疑问欢迎交流~

       更多OCR方面的小技巧和经验贴:各种常用OCR,分享特殊情况下的OCR解决方案

       博客不应该只有代码和解决方案,重点应该在于给出解决方案的同时分享思维模式,只有思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~

相关文章
|
Java
用JAVA架建List集合为树形结构的代码方法
这段代码定义了一个表示树形结构的 `Node` 类和一个用于构建树形结构的 `TreeController`。`Node` 类包含基本属性如 `id`、`pid`、`name` 和 `type`,以及子节点列表 `children`。`TreeController` 包含初始化节点列表并将其转换为树形结构的方法。通过过滤和分组操作实现树形结构的构建。详情可见:[代码示例链接1](http://www.zidongmutanji.com/zsjx/43551.html),[代码效果参考链接2](https://www.257342.com/sitemap/post.html)。
198 5
|
Java API 开发者
代码小妙招:用Java轻松获取List交集数据
在Java中获取两个 `List`的交集可以通过 `retainAll`方法和Java 8引入的流操作来实现。使用 `retainAll`方法更为直接,但会修改原始 `List`的内容。而使用流则提供了不修改原始 `List`、更为灵活的处理方式。开发者可以根据具体的需求和场景,选择最适合的方法来实现。了解和掌握这些方法,能够帮助开发者在实际开发中更高效地处理集合相关的问题。
382 1
|
存储 Java API
【Java高手必备】揭秘!如何优雅地对List进行排序?掌握这几种技巧,让你的代码瞬间高大上!
【8月更文挑战第23天】本文深入探讨了Java中对List集合进行排序的各种方法,包括使用Collections.sort()、自定义Comparator以及Java 8的Stream API。通过示例代码展示了不同情况下如何选择合适的方法:从简单的整数排序到自定义类对象的排序,再到利用Comparator指定特殊排序规则,最后介绍了Stream API在排序操作中的简洁应用。理解这些技术的区别与应用场景有助于提高编程效率。
544 4
|
运维 关系型数据库 Java
PolarDB产品使用问题之使用List或Range分区表时,Java代码是否需要进行改动
PolarDB产品使用合集涵盖了从创建与管理、数据管理、性能优化与诊断、安全与合规到生态与集成、运维与支持等全方位的功能和服务,旨在帮助企业轻松构建高可用、高性能且易于管理的数据库环境,满足不同业务场景的需求。用户可以通过阿里云控制台、API、SDK等方式便捷地使用这些功能,实现数据库的高效运维与持续优化。
|
人工智能 文字识别 开发工具
印刷文字识别使用问题之是否支持识别并返回文字在图片中的位置信息
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
文字识别 数据安全/隐私保护 iOS开发
印刷文字识别使用问题之如何识别礼品册上的卡号、密码信息
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
文字识别 安全 API
印刷文字识别使用问题之如何获取appid和key等信息
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
安全 Java
java线程之List集合并发安全问题及解决方案
java线程之List集合并发安全问题及解决方案
1280 1
|
Java API Apache
怎么在在 Java 中对List进行分区
本文介绍了如何将列表拆分为给定大小的子列表。尽管标准Java集合API未直接支持此功能,但Guava和Apache Commons Collections提供了相关API。
300 1
|
存储 安全 Java
详解Java中集合的List接口实现的ArrayList方法 | Set接口实现的HashSet方法
详解Java中集合的List接口实现的ArrayList方法 | Set接口实现的HashSet方法
228 3