开发者社区 问答 正文

文档智能中跨页的这种表格,第二页如果只有1行的话,都识别不出来;什么原因?

文档智能中跨页的这种表格,第二页如果只有1行的话,都识别不出来,什么原因?
17ba2cbc1492cddd518fb636bec5a7de.png

展开
收起
十一0204 2023-12-12 22:05:40 78 分享 版权
阿里云 AI 助理回答

文档智能在处理跨页表格时,如果第二页仅有一行数据未能被识别,可能的原因包括以下几个方面:

1. 表格模板的限制

根据知识库中的说明,自定义表格模板目前暂不支持跨页的表格或字段识别。这意味着,如果表格内容跨越多页,系统可能无法正确处理第二页的数据,尤其是当第二页仅包含少量数据(如一行)时,模型可能无法将其与第一页的表格关联起来。

2. 数据标注和训练不足

对于需要高精度识别的场景,建议使用表格信息抽取模型而非自定义模板。表格信息抽取模型依赖于训练数据的质量和数量。如果训练数据中未充分覆盖跨页表格的样本,尤其是第二页仅有一行数据的情况,模型可能无法学习到这种特殊场景的特征,从而导致识别失败。

3. 版式变化的影响

文档智能技术虽然能够处理非固定版式的文档,但其效果仍然依赖于训练数据的版式覆盖范围。如果跨页表格的版式在训练数据中未被充分覆盖,例如第二页仅有一行数据的特殊情况,模型可能无法准确识别该部分内容。

4. 参照字段和识别字段配置问题

在自定义表格模板中,参照字段的选择对识别效果至关重要。如果第二页的表格缺少足够的参照字段,或者参照字段的框选范围不准确,可能导致系统无法正确匹配模板,进而影响识别效果。


解决方案建议

1. 检查模板配置

  • 确认是否使用了自定义表格模板。如果是,请注意自定义表格模板暂不支持跨页表格识别。建议切换至表格信息抽取模型以支持更复杂的场景。
  • 如果必须使用自定义表格模板,请确保模板图片和实际业务数据的版式完全一致,并尽量避免跨页表格的使用。

2. 优化数据标注

  • 在表格信息抽取模型中,确保训练数据覆盖跨页表格的多种情况,尤其是第二页仅有一行数据的场景。
  • 对于跨页表格,建议在标注时将跨页部分作为一个整体进行标注,确保数据完整性。

3. 调整字段类型和高级配置

  • 检查字段类型的选择是否正确。例如,如果第二页的一行数据为数字类型,应将字段类型设置为数字以提高识别精度。
  • 使用正则表达式对识别结果进行后处理,确保输出格式符合预期。

4. 增加训练数据量

  • 增加训练数据量,尤其是包含跨页表格的样本。一般情况下,训练数据量达到200份时,模型的识别效果会显著提升。

5. 联系技术支持

  • 如果上述方法仍无法解决问题,建议联系阿里云技术支持团队,提供具体的样本数据和问题描述,以便进一步分析和优化模型。

重要提醒

自定义表格模板暂不支持跨页表格识别,若需处理跨页表格,请使用表格信息抽取模型,并确保训练数据覆盖相关场景。您可以复制页面截图提供更多信息,我可以进一步帮您分析问题原因。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答