开发者社区 > 视觉智能 > 文字识别 > 正文

想请教下文字识别OCR长文档信息抽取的成功率受什么影响呢?

想请教下OCR文档自学习长文档信息抽取的成功率受什么影响呢?d4c1a532fc1d49d99a94b52d0e88521a.png
刚才创建了一个模型,大概有123条数据,最后我们测试的识别率还是不理想

展开
收起
乐天香橙派 2023-07-12 12:04:19 132 0
7 条回答
写回答
取消 提交回答
  • 北京阿里云ACE会长

    文字质量:文字识别OCR对文本质量的要求比较高,如果文本存在模糊、变形、倾斜、颜色不一致等问题,可能会导致识别失败或者识别错误。

    字体选择:不同字体的特征不同,对于一些特殊字体或者手写字体,OCR识别的成功率可能会降低。

    语言种类:不同的语言有着不同的语法和词汇,对于一些非常规的语言或者生僻的词汇,OCR识别的成功率可能会降低。

    图像质量:OCR识别的输入是一张图片或者扫描件,图像质量的好坏直接影响识别的成功率。

    OCR引擎的选择:不同的OCR引擎有着不同的算法和模型,对于不同的文本类型和场景,适合的OCR引擎也不同,选择合适的OCR引擎可以提高识别的成功率。

    2023-07-13 08:13:06
    赞同 展开评论 打赏
  • 公众号:网络技术联盟站,InfoQ签约作者,阿里云社区签约作者,华为云 云享专家,BOSS直聘 创作王者,腾讯课堂创作领航员,博客+论坛:https://www.wljslmz.cn,工程师导航:https://www.wljslmz.com
    1. 文档质量:文档质量是影响OCR识别成功率的关键因素之一。如果文档清晰度不高、文字模糊或者有噪点等问题,都会影响识别的准确性。

    2. 文档类型:不同类型的文档对OCR识别的难度也不同。例如,表格、手写体、印刷体等不同类型的文档对OCR的要求也不同。

    3. 字体类型:OCR识别的准确率还受到字体类型的影响。一些特殊字体、模糊字体或者手写体等都可能会影响OCR的识别效果。

    4. 语言:阿里云OCR支持多种语言的识别,但是不同语言对于OCR识别的难度也不同。例如,中文、英文等欧美语言的识别准确率相对较高,而一些非欧美语言的识别难度较大。

    5. 算法模型:阿里云OCR采用了先进的深度学习算法来进行OCR识别,算法模型的优劣也会影响识别的准确性。

    2023-07-13 08:06:10
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    文字识别(OCR)长文档信息抽取的成功率受以下因素的影响:

    1. 文档质量:文档的质量对文字识别的成功率有重要影响。清晰度、对比度和光照等因素会影响 OCR 引擎的准确性。模糊、倾斜、反光或污损的文档可能导致识别错误或丢失信息。

    2. 字体和字号:OCR 引擎对不同字体和字号的处理能力有限。一些特殊字体、手写字体或极小或极大的字号可能会降低识别准确性。

    3. 文本布局和格式:复杂的文本布局、多栏、表格或其他特殊格式可能会增加识别难度。OCR 引擎在处理这些情况时需要更多的处理和解析能力。

    4. 语言和字符集:不同的语言和字符集对 OCR 引擎的支持程度各不相同。某些语言或字符集可能没有很好的支持,或者需要使用特定的 OCR 模型或配置进行处理。

    5. 算法和引擎选择:不同的 OCR 算法和引擎具有不同的识别准确性和适应性。选择合适的 OCR 算法和引擎可以提高成功率。

    6. 预处理和后处理:预处理步骤如图像增强、去噪或裁剪可以提高识别结果的质量。后处理步骤如错误校正、格式化和语义解析等可以进一步提取和处理识别得到的信息。

    7. 训练数据和模型:OCR 引擎的训练数据和模型质量对识别准确性起着关键作用。高质量、多样性的训练数据和优化的模型可以提高 OCR 的成功率。

    8. 标注和校对:标注和校对过程中的质量控制也会对 OCR 成功率产生影响。准确和一致的标注有助于训练更好的模型,并提供更可靠的结果。

    2023-07-12 16:56:12
    赞同 展开评论 打赏
  • 月移花影,暗香浮动

    阿里云文字识别OCR长文档信息抽取的成功率受多种因素影响,例如:

    1. 文档质量:如果文档质量较差,例如有模糊、扭曲或缺失的文字,那么OCR的准确性就会受到影响。
    2. 文字布局:如果文字布局混乱或者文字与背景颜色相似度较高,那么OCR的准确性也会受到影响。
    3. OCR技术本身:不同的OCR技术对于不同类型的文本和图像有不同的表现。如果您使用的是阿里云的文字识别服务,那么您可以尝试使用自学习功能来提高OCR的准确性 。
    2023-07-12 15:43:49
    赞同 展开评论 打赏
  • 从事java行业9年至今,热爱技术,热爱以博文记录日常工作,csdn博主,座右铭是:让技术不再枯燥,让每一位技术人爱上技术

    你好,文字识别OCR文档自学习长文档信息抽取在图像质量较好情况下,通过100+训练样本标注,调优后模型识别准确率可超85%+。如果想要获得更好的识别效果:

    在产品功能范围的任务,数据质量越高,识别与抽取效果越好,字迹清晰端正的数据能有更高的准确率。

    单字大小保持在10-50像素内,以获得较好的识别效果。

    数据来源于真实业务场景,且类型与版式完整覆盖。

    2023-07-12 13:20:27
    赞同 展开评论 打赏
  • 天下风云出我辈,一入江湖岁月催,皇图霸业谈笑中,不胜人生一场醉。

    OCR文档自学习长文档信息抽取的成功率受多种因素影响,包括以下几点:

    数据集质量:数据集的质量直接影响自学习模型的效果,如果数据集中存在大量噪声或错误信息,将会影响模型的准确性。
    模型参数:模型参数的选择和调整也会影响自学习模型的效果,如果参数不合适,将会影响模型的准确性和效率。
    计算资源:计算资源的限制也会影响自学习模型的效果,如果计算资源不足,将会影响模型的训练速度和效果。
    长文档内容:长文档内容的复杂性也会影响自学习模型的效果,如果文档内容过于复杂,将会增加模型的训练难度和计算成本。

    2023-07-12 13:02:53
    赞同 展开评论 打赏
  • OCR文档自学习长文档信息抽取的成功率受到多种因素的影响。以下是一些可能的影响因素:

    1. 文档质量:文档的质量对于OCR的成功率至关重要。清晰度、分辨率以及扫描或拍摄时的光照条件等都会影响OCR的准确性。如果文档模糊、有噪声或过曝/欠曝,OCR系统可能无法正确识别字符或提取信息。

    2. 文档布局和结构:文档的布局和结构也会影响OCR的成功率。特殊的文本排列、表格、图形、复杂的字体风格等都可能导致OCR系统无法正确解析或提取信息。

    3. 语言和字符集:OCR系统对不同语言和字符集的支持程度不同。一些OCR系统可能在处理某些语言或特定字符集时效果更好,而在其他情况下效果较差。选择适合目标语言和字符集的OCR系统可以提高成功率。

    4. 训练数据和模型:OCR系统使用训练数据来构建模型,从而进行文本识别和信息抽取。训练数据的质量、多样性和覆盖范围对于模型的准确性和泛化能力至关重要。更好的训练数据和模型可以提高成功率。

    5. 领域特定性:某些文档可能属于特定的领域,如法律文件、医学报告等。OCR系统的训练和优化程度也可能与特定领域的需求相关。对于某些领域特定的文档,可能需要针对性地进行模型训练或调整,以提高成功率。

    6. 后期处理和校正:即使OCR系统具有高准确性,可能仍会出现一些错误或不完全的识别结果。在抽取长文档信息之后,进行后期处理和校正可以进一步提高成功率。例如,使用自然语言处理(NLP)技术来检测和纠正语法错误、逻辑错误或不一致性。

    2023-07-12 12:57:19
    赞同 展开评论 打赏
滑动查看更多

文字识别技术可以灵活应用于证件文字识别、发票文字识别、文档识别与整理等行业场景,满足认证、鉴权、票据流转审核等业务需求。

相关电子书

更多
阿里云智能-印刷文字识别OCR-产品介绍 立即下载
阿里巴巴读光OCR 立即下载
印刷文字识别算法设计与在线服务 立即下载