开发者社区 > 视觉智能 > 文字识别 > 正文

文字识别OCR有一个【表格信息抽取】创建模型后,就一直卡住了,能帮忙看下吗?

文字识别OCR有一个【表格信息抽取】创建模型后,就一直卡住了,能帮忙看下吗?1fb7e4288e1c3b34090180c5b506f87b.png
206217452b600f026ce97778cdff2145.png
77f647b3f01f778c2cb2ac17187e45c9.png
数据是上方发票样式的 20个

展开
收起
三分钟热度的鱼 2023-10-18 20:33:57 56 0
1 条回答
写回答
取消 提交回答
  • 表格信息抽取https://help.aliyun.com/document_detail/603351.html?spm=a2c4g.11186623.0.i5#83b71210a9o05

    创建「表格信息抽取」流程如下图,开始模型训练需要至少 20 个训练数据。

    76b16a78f5e50ec8c90d235d9478700d_p554043.png
    提示建议:

    数据准备有什么具体要求?

    数据集可上传图片、文档、压缩包;

    文档,支持不超过20M且后缀为pdf的文件,仅支持单页pdf;

    图片,支持不超过10M且后缀为jpg、jpeg、png的文件;

    压缩包,仅支持zip格式,且单zip包不超过20M。

    单张图片最长边不超过8192像素,最短边不小于15像素。当长边超过1024像素时,长宽比不超过50 :1。

    至少准备20-30份以上同类任务的数据用于模型训练与评测。

    如何获得更好识别效果?

    在产品功能范围的任务,数据质量越高,识别与抽取效果越好,字迹清晰端正的数据能有更高的准确率。

    单字大小保持在10-50像素内,以获得较好的识别效果。

    数据来源于真实业务场景,且类型与版式完整覆盖。

    2023-10-20 09:58:46
    赞同 展开评论 打赏

文字识别技术可以灵活应用于证件文字识别、发票文字识别、文档识别与整理等行业场景,满足认证、鉴权、票据流转审核等业务需求。

相关电子书

更多
阿里云智能-印刷文字识别OCR-产品介绍 立即下载
阿里巴巴读光OCR 立即下载
印刷文字识别算法设计与在线服务 立即下载