文档智能用自学习这个识别,极氪 的 氪 老识别不对,这个有办法调整吗?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
底层OCR识别存在问题没有办法调整OCR识别模型。但是如果一直是用于“极氪 ”的租赁,可以考虑使用高级配置中的文字替换,或者使用字段属性-此回答整理自钉群“【官方】阿里云文档智能客户交流群”
如果智能文档引擎在识别过程中存在错误,有以下几种方法可以调整和改进:
提供更多标注数据
提供更多已经标注好的文档数据,让模型学习这些标注的数据,从而更准确地识别新文档。
重新训练模型
使用改进后的标注数据,重新训练整个模型,生成新的模型参数。新的模型会考虑到新增的标注数据,识别效果可能会改进。
调整模型超参数
优化模型的一些超参数,如学习率、dropout率等,有可能提高模型的性能。
采用数据增强
为数据采用技术手段实现数据增强,如随机替换单词、添加噪声等,让模型学习到更丰富的样本,增强泛化能力。
使用额外知识
提供额外的知识或词汇表,让模型可以参考这些知识来改进识别效果。
多模型融合
训练多个模型,然后进行模型融合,融合后的模型可能整体效果更好。
关注错误样本
关注出现错误的样本,分析原因,可能发现模型存在的盲点。针对这些盲点,采取相应的调整措施。
主要是从以上几个方面来调整和改进智能文档引擎的识别效果。
对于您提到的具体问题,建议:
收集更多已标注好的极氪 和 氪 相关的数据作为训练数据
重新训练模型,使用更新的数据
分析其识别错误的样本,看能否找到错误的根本原因