文档备案控制台

开发者社区问答正文

在文档智能中贸易单证识别 -》提单识别里面有部分没识别出来，这个怎么解决？

展开

收起

花开富贵111 2024-04-16 17:58:34 225 版权

阿里云 AI 助理回答

在文档智能中，如果贸易单证识别（如提单识别）存在部分字段未被识别出来的情况，可以按照以下步骤进行排查和优化：

1. 检查字段框选范围

问题原因：识别字段的框选范围可能不够准确或覆盖不完整，导致模型无法正确提取信息。
解决方法：
- 调整识别字段的框选范围，确保框选区域尽可能覆盖该字段文字可能出现的最大范围。
- 如果字段内容跨行或多行分布，需逐行标注并赋予相同的字段名。
- 对于倾斜或不规则的文字区域，使用「多边形标注」工具使框选更贴合文字区域。

2. 确认字段类型选择

问题原因：字段类型设置不当可能导致识别错误或遗漏。例如，数字字段被误设为文本字段。
解决方法：
- 检查未识别字段的字段类型是否正确。例如，金额、日期等字段应选择对应的专用字段类型（如“数字”或“日期”），而非通用字段类型。
- 如果字段有特殊格式（如日期格式转换、金额纯数字提取等），可通过高级配置中的正则表达式进行后处理。

3. 配置高级选项

问题原因：未启用高级配置可能导致复杂格式的字段无法被正确解析。
解决方法：
- 在高级配置中，使用正则表达式对字段内容进行格式化处理。例如：
- 去除多余空格：\s+ 替换为空字符串。
- 日期格式转换：将 2023-2-3 转换为 2023年2月3日，正则表达式为 ^(\d+)-(\d+)-(\d+)$ 替换为 \1年\2月\3日。
- 根据实际需求设置多行连接符或其他替换规则。

4. 检查数据质量和标注质量

问题原因：训练数据质量不高或标注不准确会影响模型的识别效果。
解决方法：
- 数据质量：确保上传的图片清晰、字迹端正，单字大小保持在10-50像素范围内。
- 标注质量：重新检查标注任务，确保所有字段均被完整标注，且标注框贴合文字区域。对于标注错误的数据，可驳回并重新标注。

5. 增加训练数据量

问题原因：训练数据量不足可能导致模型对某些字段的识别能力较弱。
解决方法：
- 至少准备20-30份同类任务的数据用于模型训练与评测。数据量越大，模型的泛化能力和识别准确率越高。
- 确保训练数据覆盖所有可能的版式和字段类型，避免因样本分布不均导致识别遗漏。

6. 测试模板匹配情况

问题原因：测试图片与模板图片版式不一致可能导致字段无法匹配。
解决方法：
- 确认测试图片与模板图片是否为同一版式。如果版式不同，需调整参照字段框选范围或更换参照字段以提升模板匹配准确率。
- 如果实在没有足够的参照字段，可跳过框选步骤，但需注意联合分类器使用时对版式相似模板的配置要求。

7. 发布模板并重新调用API

问题原因：模板未发布或重新编辑后未再次发布，可能导致接口调用失败或识别效果不佳。
解决方法：
- 确保模板已发布，并在重新编辑模板后再次发布，以保证模板处于最新状态。
- 调用API时，确认接口参数与字段名一致，且字段名全局唯一。

8. 模型持续优化

问题原因：模型可能存在一定的局限性，需要通过持续优化提升识别效果。
解决方法：
- 定期更新训练数据，增加新的样本以覆盖更多场景。
- 根据实际业务需求，调整字段类型、高级配置和标注规则，逐步提高模型的识别准确率。

通过以上步骤，您可以有效解决提单识别中部分字段未被识别的问题。如果问题仍然存在，建议联系技术支持团队获取进一步帮助。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答标签：

文档智能识别文档智能贸易文档智能贸易单证文档智能提单

问答地址：

开发者社区 > 人工智能 > 问答

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

在文档智能中贸易单证识别 -》提单识别 里面有部分没识别出来，这个怎么解决？