在文档智能中,如果贸易单证识别(如提单识别)存在部分字段未被识别出来的情况,可以按照以下步骤进行排查和优化:
1. 检查字段框选范围
- 问题原因:识别字段的框选范围可能不够准确或覆盖不完整,导致模型无法正确提取信息。
- 解决方法:
- 调整识别字段的框选范围,确保框选区域尽可能覆盖该字段文字可能出现的最大范围。
- 如果字段内容跨行或多行分布,需逐行标注并赋予相同的字段名。
- 对于倾斜或不规则的文字区域,使用「多边形标注」工具使框选更贴合文字区域。
2. 确认字段类型选择
- 问题原因:字段类型设置不当可能导致识别错误或遗漏。例如,数字字段被误设为文本字段。
- 解决方法:
- 检查未识别字段的字段类型是否正确。例如,金额、日期等字段应选择对应的专用字段类型(如“数字”或“日期”),而非通用字段类型。
- 如果字段有特殊格式(如日期格式转换、金额纯数字提取等),可通过高级配置中的正则表达式进行后处理。
3. 配置高级选项
- 问题原因:未启用高级配置可能导致复杂格式的字段无法被正确解析。
- 解决方法:
- 在高级配置中,使用正则表达式对字段内容进行格式化处理。例如:
- 去除多余空格:
\s+
替换为空字符串。
- 日期格式转换:将
2023-2-3
转换为 2023年2月3日
,正则表达式为 ^(\d+)-(\d+)-(\d+)$
替换为 \1年\2月\3日
。
- 根据实际需求设置多行连接符或其他替换规则。
4. 检查数据质量和标注质量
- 问题原因:训练数据质量不高或标注不准确会影响模型的识别效果。
- 解决方法:
- 数据质量:确保上传的图片清晰、字迹端正,单字大小保持在10-50像素范围内。
- 标注质量:重新检查标注任务,确保所有字段均被完整标注,且标注框贴合文字区域。对于标注错误的数据,可驳回并重新标注。
5. 增加训练数据量
- 问题原因:训练数据量不足可能导致模型对某些字段的识别能力较弱。
- 解决方法:
- 至少准备20-30份同类任务的数据用于模型训练与评测。数据量越大,模型的泛化能力和识别准确率越高。
- 确保训练数据覆盖所有可能的版式和字段类型,避免因样本分布不均导致识别遗漏。
6. 测试模板匹配情况
- 问题原因:测试图片与模板图片版式不一致可能导致字段无法匹配。
- 解决方法:
- 确认测试图片与模板图片是否为同一版式。如果版式不同,需调整参照字段框选范围或更换参照字段以提升模板匹配准确率。
- 如果实在没有足够的参照字段,可跳过框选步骤,但需注意联合分类器使用时对版式相似模板的配置要求。
7. 发布模板并重新调用API
- 问题原因:模板未发布或重新编辑后未再次发布,可能导致接口调用失败或识别效果不佳。
- 解决方法:
- 确保模板已发布,并在重新编辑模板后再次发布,以保证模板处于最新状态。
- 调用API时,确认接口参数与字段名一致,且字段名全局唯一。
8. 模型持续优化
- 问题原因:模型可能存在一定的局限性,需要通过持续优化提升识别效果。
- 解决方法:
- 定期更新训练数据,增加新的样本以覆盖更多场景。
- 根据实际业务需求,调整字段类型、高级配置和标注规则,逐步提高模型的识别准确率。
通过以上步骤,您可以有效解决提单识别中部分字段未被识别的问题。如果问题仍然存在,建议联系技术支持团队获取进一步帮助。