开发者社区 问答 正文

在文档智能中贸易单证识别 -》提单识别 里面有部分没识别出来,这个怎么解决?

在文档智能中贸易单证识别 -》提单识别里面有部分没识别出来 ,这个怎么解决?

展开
收起
花开富贵111 2024-04-16 17:58:34 68 分享 版权
阿里云 AI 助理回答

在文档智能中,如果贸易单证识别(如提单识别)存在部分字段未被识别出来的情况,可以按照以下步骤进行排查和优化:


1. 检查字段框选范围

  • 问题原因:识别字段的框选范围可能不够准确或覆盖不完整,导致模型无法正确提取信息。
  • 解决方法
    • 调整识别字段的框选范围,确保框选区域尽可能覆盖该字段文字可能出现的最大范围。
    • 如果字段内容跨行或多行分布,需逐行标注并赋予相同的字段名。
    • 对于倾斜或不规则的文字区域,使用「多边形标注」工具使框选更贴合文字区域。

2. 确认字段类型选择

  • 问题原因:字段类型设置不当可能导致识别错误或遗漏。例如,数字字段被误设为文本字段。
  • 解决方法
    • 检查未识别字段的字段类型是否正确。例如,金额、日期等字段应选择对应的专用字段类型(如“数字”或“日期”),而非通用字段类型。
    • 如果字段有特殊格式(如日期格式转换、金额纯数字提取等),可通过高级配置中的正则表达式进行后处理。

3. 配置高级选项

  • 问题原因:未启用高级配置可能导致复杂格式的字段无法被正确解析。
  • 解决方法
    • 在高级配置中,使用正则表达式对字段内容进行格式化处理。例如:
    • 去除多余空格:\s+ 替换为空字符串。
    • 日期格式转换:将 2023-2-3 转换为 2023年2月3日,正则表达式为 ^(\d+)-(\d+)-(\d+)$ 替换为 \1年\2月\3日
    • 根据实际需求设置多行连接符或其他替换规则。

4. 检查数据质量和标注质量

  • 问题原因:训练数据质量不高或标注不准确会影响模型的识别效果。
  • 解决方法
    • 数据质量:确保上传的图片清晰、字迹端正,单字大小保持在10-50像素范围内。
    • 标注质量:重新检查标注任务,确保所有字段均被完整标注,且标注框贴合文字区域。对于标注错误的数据,可驳回并重新标注。

5. 增加训练数据量

  • 问题原因:训练数据量不足可能导致模型对某些字段的识别能力较弱。
  • 解决方法
    • 至少准备20-30份同类任务的数据用于模型训练与评测。数据量越大,模型的泛化能力和识别准确率越高。
    • 确保训练数据覆盖所有可能的版式和字段类型,避免因样本分布不均导致识别遗漏。

6. 测试模板匹配情况

  • 问题原因:测试图片与模板图片版式不一致可能导致字段无法匹配。
  • 解决方法
    • 确认测试图片与模板图片是否为同一版式。如果版式不同,需调整参照字段框选范围或更换参照字段以提升模板匹配准确率。
    • 如果实在没有足够的参照字段,可跳过框选步骤,但需注意联合分类器使用时对版式相似模板的配置要求。

7. 发布模板并重新调用API

  • 问题原因:模板未发布或重新编辑后未再次发布,可能导致接口调用失败或识别效果不佳。
  • 解决方法
    • 确保模板已发布,并在重新编辑模板后再次发布,以保证模板处于最新状态。
    • 调用API时,确认接口参数与字段名一致,且字段名全局唯一。

8. 模型持续优化

  • 问题原因:模型可能存在一定的局限性,需要通过持续优化提升识别效果。
  • 解决方法
    • 定期更新训练数据,增加新的样本以覆盖更多场景。
    • 根据实际业务需求,调整字段类型、高级配置和标注规则,逐步提高模型的识别准确率。

通过以上步骤,您可以有效解决提单识别中部分字段未被识别的问题。如果问题仍然存在,建议联系技术支持团队获取进一步帮助。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答