想请教下文字识别OCR长文档信息抽取的成功率受什么影响呢？

想请教下OCR文档自学习长文档信息抽取的成功率受什么影响呢？
刚才创建了一个模型，大概有123条数据，最后我们测试的识别率还是不理想

展开

收起

乐天香橙派 2023-07-12 12:04:19 534 版权

7 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

文字质量：文字识别OCR对文本质量的要求比较高，如果文本存在模糊、变形、倾斜、颜色不一致等问题，可能会导致识别失败或者识别错误。

字体选择：不同字体的特征不同，对于一些特殊字体或者手写字体，OCR识别的成功率可能会降低。

语言种类：不同的语言有着不同的语法和词汇，对于一些非常规的语言或者生僻的词汇，OCR识别的成功率可能会降低。

图像质量：OCR识别的输入是一张图片或者扫描件，图像质量的好坏直接影响识别的成功率。

OCR引擎的选择：不同的OCR引擎有着不同的算法和模型，对于不同的文本类型和场景，适合的OCR引擎也不同，选择合适的OCR引擎可以提高识别的成功率。

2023-07-13 08:13:06

赞同展开评论
wljslmz

公众号：网络技术联盟站，InfoQ签约作者，阿里云社区签约作者，华为云云享专家，BOSS直聘创作王者，腾讯课堂创作领航员，博客+论坛：https://www.wljslmz.cn，工程师导航：https://www.wljslmz.com
1. 文档质量：文档质量是影响OCR识别成功率的关键因素之一。如果文档清晰度不高、文字模糊或者有噪点等问题，都会影响识别的准确性。
2. 文档类型：不同类型的文档对OCR识别的难度也不同。例如，表格、手写体、印刷体等不同类型的文档对OCR的要求也不同。
3. 字体类型：OCR识别的准确率还受到字体类型的影响。一些特殊字体、模糊字体或者手写体等都可能会影响OCR的识别效果。
4. 语言：阿里云OCR支持多种语言的识别，但是不同语言对于OCR识别的难度也不同。例如，中文、英文等欧美语言的识别准确率相对较高，而一些非欧美语言的识别难度较大。
5. 算法模型：阿里云OCR采用了先进的深度学习算法来进行OCR识别，算法模型的优劣也会影响识别的准确性。
2023-07-13 08:06:10

赞同展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
文字识别（OCR）长文档信息抽取的成功率受以下因素的影响：
1. 文档质量：文档的质量对文字识别的成功率有重要影响。清晰度、对比度和光照等因素会影响 OCR 引擎的准确性。模糊、倾斜、反光或污损的文档可能导致识别错误或丢失信息。
2. 字体和字号：OCR 引擎对不同字体和字号的处理能力有限。一些特殊字体、手写字体或极小或极大的字号可能会降低识别准确性。
3. 文本布局和格式：复杂的文本布局、多栏、表格或其他特殊格式可能会增加识别难度。OCR 引擎在处理这些情况时需要更多的处理和解析能力。
4. 语言和字符集：不同的语言和字符集对 OCR 引擎的支持程度各不相同。某些语言或字符集可能没有很好的支持，或者需要使用特定的 OCR 模型或配置进行处理。
5. 算法和引擎选择：不同的 OCR 算法和引擎具有不同的识别准确性和适应性。选择合适的 OCR 算法和引擎可以提高成功率。
6. 预处理和后处理：预处理步骤如图像增强、去噪或裁剪可以提高识别结果的质量。后处理步骤如错误校正、格式化和语义解析等可以进一步提取和处理识别得到的信息。
7. 训练数据和模型：OCR 引擎的训练数据和模型质量对识别准确性起着关键作用。高质量、多样性的训练数据和优化的模型可以提高 OCR 的成功率。
8. 标注和校对：标注和校对过程中的质量控制也会对 OCR 成功率产生影响。准确和一致的标注有助于训练更好的模型，并提供更可靠的结果。
2023-07-12 16:56:12

赞同展开评论
牧羊吖

月移花影，暗香浮动
阿里云文字识别OCR长文档信息抽取的成功率受多种因素影响，例如：
1. 文档质量：如果文档质量较差，例如有模糊、扭曲或缺失的文字，那么OCR的准确性就会受到影响。
2. 文字布局：如果文字布局混乱或者文字与背景颜色相似度较高，那么OCR的准确性也会受到影响。
3. OCR技术本身：不同的OCR技术对于不同类型的文本和图像有不同的表现。如果您使用的是阿里云的文字识别服务，那么您可以尝试使用自学习功能来提高OCR的准确性。
2023-07-12 15:43:49

赞同展开评论
六月的雨在钉钉

从事java行业9年至今，热爱技术，热爱以博文记录日常工作，csdn博主，座右铭是：让技术不再枯燥，让每一位技术人爱上技术

你好，文字识别OCR文档自学习长文档信息抽取在图像质量较好情况下，通过100+训练样本标注，调优后模型识别准确率可超85%+。如果想要获得更好的识别效果：

在产品功能范围的任务，数据质量越高，识别与抽取效果越好，字迹清晰端正的数据能有更高的准确率。

单字大小保持在10-50像素内，以获得较好的识别效果。

数据来源于真实业务场景，且类型与版式完整覆盖。

2023-07-12 13:20:27

赞同展开评论
魏红斌

天下风云出我辈，一入江湖岁月催，皇图霸业谈笑中，不胜人生一场醉。

OCR文档自学习长文档信息抽取的成功率受多种因素影响，包括以下几点：

数据集质量：数据集的质量直接影响自学习模型的效果，如果数据集中存在大量噪声或错误信息，将会影响模型的准确性。
模型参数：模型参数的选择和调整也会影响自学习模型的效果，如果参数不合适，将会影响模型的准确性和效率。
计算资源：计算资源的限制也会影响自学习模型的效果，如果计算资源不足，将会影响模型的训练速度和效果。
长文档内容：长文档内容的复杂性也会影响自学习模型的效果，如果文档内容过于复杂，将会增加模型的训练难度和计算成本。

2023-07-12 13:02:53

赞同展开评论
Star时光
OCR文档自学习长文档信息抽取的成功率受到多种因素的影响。以下是一些可能的影响因素：
1. 文档质量：文档的质量对于OCR的成功率至关重要。清晰度、分辨率以及扫描或拍摄时的光照条件等都会影响OCR的准确性。如果文档模糊、有噪声或过曝/欠曝，OCR系统可能无法正确识别字符或提取信息。
2. 文档布局和结构：文档的布局和结构也会影响OCR的成功率。特殊的文本排列、表格、图形、复杂的字体风格等都可能导致OCR系统无法正确解析或提取信息。
3. 语言和字符集：OCR系统对不同语言和字符集的支持程度不同。一些OCR系统可能在处理某些语言或特定字符集时效果更好，而在其他情况下效果较差。选择适合目标语言和字符集的OCR系统可以提高成功率。
4. 训练数据和模型：OCR系统使用训练数据来构建模型，从而进行文本识别和信息抽取。训练数据的质量、多样性和覆盖范围对于模型的准确性和泛化能力至关重要。更好的训练数据和模型可以提高成功率。
5. 领域特定性：某些文档可能属于特定的领域，如法律文件、医学报告等。OCR系统的训练和优化程度也可能与特定领域的需求相关。对于某些领域特定的文档，可能需要针对性地进行模型训练或调整，以提高成功率。
6. 后期处理和校正：即使OCR系统具有高准确性，可能仍会出现一些错误或不完全的识别结果。在抽取长文档信息之后，进行后期处理和校正可以进一步提高成功率。例如，使用自然语言处理（NLP）技术来检测和纠正语法错误、逻辑错误或不一致性。
2023-07-12 12:57:19

赞同展开评论

滑动查看更多

想请教下文字识别OCR长文档信息抽取的成功率受什么影响呢？

文字识别

相关文章

热门讨论

热门文章