开发者社区 问答 正文

这里的识别场景有没有可能针对客户的单据定制一个呢?

文档类型有点像票据凭证,但是结构跟里面给的例子又不完全一样,是客户自己内部的采购订单单据image.png

展开
收起
雪哥哥 2022-11-08 18:15:28 235 分享 版权
阿里云 AI 助理回答

针对您提到的客户内部采购订单单据,该文档类型虽与标准票据凭证有所不同,但依然适用于OCR文档自学习平台进行信息抽取。以下是根据您的需求定制的详细操作指南:

1. 准备阶段

  • 数据要求
    • 确保提供至少20张以上代表性的采购订单图片或PDF文件,以满足基本训练需求。
    • 文件格式需符合规定:图片(jpg/jpeg/png),单页PDF不超过20M,压缩包(zip)不超过20M。
    • 图像质量需保证字迹清晰,单字大小建议在10-50像素内,长边最大8192像素,长宽比不超50:1。

2. 数据上传与管理

  • 在“数据中心-数据集”中上传准备好的采购订单样本,为数据集命名并上传相应文件。
  • 遵循数据准备的具体要求,确保数据覆盖所有必要的业务场景和版式变化。

3. 数据标注与质检

  • 标注过程:通过平台提供的可视化工具,对上传的数据进行字段标注,包括Key-Value对或表格内容等。
  • 质检环节:完成标注后,进行严格的质量检查,确保所有字段被正确标注。如发现问题,及时修改或驳回重做。

4. 模型创建与训练

  • 进入“模型中心”,点击“创建模型”,选择已标注且质检通过的数据集作为训练集。
  • 可选择自动划分1/10数据作为测试集,或手动指定测试集,用于评估模型性能。
  • 调优提示:配置合适的字段类型,考虑删除不必要字段,以提升训练精准度。

5. 训练与评测

  • 模型训练时长依据数据量及硬件资源而定,耐心等待训练完成。
  • 训练完成后,查看算法评估指标,包括整体准确率、单字段检测F1值和准确率,以此来判断模型效果。

6. 模型应用与优化

  • 根据评估结果,如果识别准确率未达预期,可继续收集更多样本来优化模型,或调整标注精度和字段类型设置。
  • 利用智能预标注和多人协同功能加快迭代速度。

注意事项

  • 数据多样性:确保数据来源真实,覆盖所有可能的版式和内容变化,以增强模型泛化能力。
  • 持续优化:随着新样本的积累,不断迭代模型,提高信息抽取的准确性和稳定性。

综上所述,即使您的采购订单单据结构独特,通过遵循上述步骤,利用OCR文档自学习平台的自定义能力和训练工具,您可以有效实现其结构化信息的抽取与处理。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答
问答地址: