文档智能里的进出口报关单识别,是针对固定的中国海关进出口报关单格式,还是说自定义的那种格式?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
文档智能中的进出口报关单识别功能,主要针对的是固定版式的中国海关进出口报关单格式。根据知识库资料,文档智能提供了两种主要的技术方案:自定义KV模板和信息抽取模型,分别适用于不同的场景需求。
如果您的业务涉及的是固定版式的中国海关进出口报关单,可以使用自定义KV模板功能。该功能通过可视化拖拉拽的方式配置模板,仅需提供一张样图即可完成模板搭建,无需进行数据标注和模型训练。这种方式适用于以下特点的场景: - 数据版式固定,字段位置明确且不变。 - 对字段抽取准确率要求不高(准确率可达85%以上)。 - 适合少样本冷启动阶段,快速上线验证。
因此,如果您的报关单是中国海关的标准格式,且版式固定,推荐使用自定义KV模板来实现结构化信息抽取。
如果您的报关单格式并非完全固定,或者存在多种版式(例如不同国家或地区的报关单),则需要使用信息抽取模型。该模型通过标注少量数据(至少20张图片)并进行训练,能够实现对版式相对固定的单据、票证类数据的高精度识别(准确率可达95%以上)。这种方式适用于以下特点的场景: - 数据版式相对固定或可枚举(不超过50种)。 - 需要较高的字段抽取准确率。 - 样本数量较为充足,支持持续优化模型效果。
重要提示:在选择方案时,请确保数据质量清晰端正,并根据实际业务需求评估对字段抽取准确率的要求。