开发者社区 > 视觉智能 > 文字识别 > 正文

文字识别OCR出现requestid,请问该如何解决?

文字识别OCR出现requestid:D34F2468-F762-5A44-B393-AD8D13511EED API:教育场景识别-试卷切题识别-答案识别(cuttype=answer)会返回重复的文本,且不存在层级关系,无法去除,请问该如何解决?
ccd3e34cc0e1b65c0c0a6cad8b7ab15c.png
6ef2083c172151fb4fff8a6797b61c1d.png
d65cb9dbae1d63e2874d06046015d05c.png

展开
收起
2401。 2023-07-15 19:16:15 146 0
8 条回答
写回答
取消 提交回答
  • 公众号:网络技术联盟站,InfoQ签约作者,阿里云社区签约作者,华为云 云享专家,BOSS直聘 创作王者,腾讯课堂创作领航员,博客+论坛:https://www.wljslmz.cn,工程师导航:https://www.wljslmz.com

    如果在使用阿里云文字识别OCR服务的"教育场景识别-试卷切题识别-答案识别"功能中,遇到返回重复文本且无法去除的问题,可以尝试以下解决方法:

    1. 调整参数:根据文档中的说明,可以尝试调整相关参数来优化识别结果。例如,可以尝试调整cuttype参数的取值,或者尝试使用其他相关参数。

    2. 去重处理:如果返回的文本中存在重复的内容,可以在接收到结果后进行去重处理。您可以利用编程语言或者字符串处理工具对文本进行处理,去除重复的部分。

    3. 后期处理:如果OCR返回的文本无法形成层级关系,您可以根据试卷的特点,结合自身业务逻辑进行后期处理。例如,可以根据文本的位置信息对文本进行分组,或者通过关键词的匹配等方法进行答案的提取。

    2023-08-28 07:57:24
    赞同 展开评论 打赏
  • 返回结果确实没有办法区分重复的,目前只能通过代码判断去重了。
    此回答整理自钉群“【官方】阿里云OCR公共云客户交流群”。

    2023-07-18 12:16:55
    赞同 展开评论 打赏
  • 从事java行业9年至今,热爱技术,热爱以博文记录日常工作,csdn博主,座右铭是:让技术不再枯燥,让每一位技术人爱上技术

    您好,文字识别OCR RequestId作为请求的唯一ID,是有效的返回,与您当前业务无关,无需处理即可。教育场景识别-试卷切题识别-答案识别 返回重复文本的话,这个主要是由于目前文字识别算法的精确度限制,不能保证识别内容与图片完全一致,可以通过人工审核的方式完善文字识别OCR识别错误的地方。

    2023-07-18 11:09:06
    赞同 展开评论 打赏
  • 天下风云出我辈,一入江湖岁月催,皇图霸业谈笑中,不胜人生一场醉。

    读光试题作业OCR识别产品能力,主要针对教育应用场景中对试题题目、数学公式、速算题目等信息的智能化识别需求,通过对通用OCR高精度识别能力的教育场景迭代优化,为用户提供数学试题图片中题目文本及数学公式的识别、速算题目文字的检测和识别等服务,并返回题目框位置与内容,为智慧教学场景下的拍照搜题、板书识别、自动阅卷等应用提供关键基石技术能力。可大程度辅助教师的教务工作,并协助教育进行数字化转型。https://help.aliyun.com/document_detail/295343.html?spm=a2c4g.442328.0.i8

    2023-07-18 09:11:53
    赞同 展开评论 打赏
  • 如果阿里云文字识别OCR的API在教育场景识别-试卷切题识别-答案识别中返回了重复的文本,并且没有明确的层级关系,无法去除重复的情况,您可以尝试以下解决方法:

    数据清洗:对返回的文本进行处理,去除重复的部分。可以使用字符串去重的方法,比如利用集合数据结构进行去重操作。

    文本聚类:将返回的文本进行聚类分析,通过相似度比较或者聚类算法将相似的文本归为一类,从而找出重复的文本并剔除。

    人工干预:通过人工的方式对返回的文本进行筛选和去重,手动去除重复的文本。

    调整API参数:尝试调整API的参数,比如修改切题识别的阈值、答案识别的参数等,看是否能够减少重复文本的返回。

    2023-07-17 22:12:25
    赞同 展开评论 打赏
  • 月移花影,暗香浮动

    您好,根据您提供的信息,这个问题可能是由于OCR识别算法的限制导致的。在OCR识别中,如果文本内容比较复杂,可能会出现重复的文本或者层级关系不明确的情况。这种情况下,需要对OCR识别结果进行后处理,去除重复的文本和不必要的层级关系。

    以下是一些可能有用的方法:

    • 使用正则表达式去除重复的文本。可以使用Python等编程语言编写一个脚本,对OCR识别结果进行正则表达式匹配,去除重复的文本。
    • 使用NLP技术对OCR识别结果进行分析和处理。可以使用Python等编程语言编写一个脚本,对OCR识别结果进行分词、词性标注、命名实体识别等NLP技术处理,去除不必要的层级关系。
    • 调整OCR识别参数。可以尝试调整OCR识别参数,例如设置更长的识别时间、增加识别精度等,以提高OCR识别结果的质量。
    2023-07-17 09:38:00
    赞同 展开评论 打赏
  • 北京阿里云ACE会长

    requestid是阿里云OCR服务为每个请求返回的唯一标识符,用于跟踪和诊断请求的处理过程。如果您在使用阿里云OCR服务时遇到requestid返回值,通常不需要进行额外的处理,因为该值仅用于诊断和跟踪问题。

    至于您提到的另一个问题,即OCR识别结果中出现重复的文本且不存在层级关系,无法去除的情况,这可能是因为OCR算法对于复杂场景的识别存在一定误差,特别是在多列、多行等格式复杂的场景下。为了解决这个问题,您可以考虑以下几种方式:

    调整OCR识别参数。您可以尝试调整OCR识别参数,例如调整识别模式、字体大小、图像清晰度等参数,以提高识别准确率和稳定性。

    使用OCR识别后的结果进行后处理。您可以使用文本处理工具,例如正则表达式、自然语言处理库等,对OCR识别结果进行去重、分组、排序等后处理,以提高结果的可读性和可用性。

    使用更高级别的OCR服务。您可以考虑使用更高级别的OCR服务,例如阿里云OCR的自然场景文字识别服务,该服务支持多列、多行、表格等复杂场景的识别,并且具有更高的识别准确率和稳定性。

    2023-07-15 20:59:46
    赞同 展开评论 打赏
  • 如果文字识别OCR的API在教育场景识别-试卷切题识别-答案识别(cuttype=answer)的情况下返回重复的文本且没有层级关系,您可以考虑以下解决方法:

    1. 后处理和去重操作:在获取到OCR的结果后,进行后处理操作来去除重复的文本。您可以使用字符串处理技术,比如字符串匹配、去重算法等,来检测并去除重复的文本。

    2. 分析文本布局和坐标信息:通过OCR API返回的文字识别结果中的坐标信息,分析每个字符或文本框的位置,尝试根据位置信息建立一种层级关系。这样可以帮助您更好地理解和处理文本内容。

    3. 自定义模型训练:如果现有的OCR模型无法满足您的需求,您可以考虑使用自定义模型进行训练。通过收集并标注具有正确答案的试卷数据,使用深度学习技术训练一个专门针对答案识别的OCR模型。这样可以提高识别准确性并减少重复文本的问题。

    4. 调整API参数:检查OCR API的参数设置,尤其是与答案识别相关的参数。确保您使用了适当的参数设置,以提高答案识别的准确性。

    5. 与OCR服务供应商联系:如果上述方法仍无法解决重复文本的问题,建议与您使用的OCR服务供应商联系,向他们反馈该问题并寻求技术支持。供应商可能会根据您的具体情况和需求提供更详细的解决方案。

    2023-07-15 19:51:52
    赞同 展开评论 打赏
滑动查看更多

文字识别技术可以灵活应用于证件文字识别、发票文字识别、文档识别与整理等行业场景,满足认证、鉴权、票据流转审核等业务需求。

热门讨论

热门文章

相关电子书

更多
阿里云智能-印刷文字识别OCR-产品介绍 立即下载
阿里巴巴读光OCR 立即下载
印刷文字识别算法设计与在线服务 立即下载