开发者社区 > 视觉智能 > 文字识别 > 正文

文字识别OCR pdf文件部分文字乱码和文字重叠 能友好识别吗?

文字识别OCR pdf文件部分文字乱码和文字重叠 能友好识别吗?

展开
收起
青城山下庄文杰 2023-08-13 18:38:08 94 0
5 条回答
写回答
取消 提交回答
  • 无法保证100%完全还原-此回答整理自钉群“【官方】阿里云OCR公共云客户交流群”

    2023-08-15 11:03:45
    赞同 展开评论 打赏
  • 从事java行业8年至今,热爱技术,热爱以博文记录日常工作,csdn博主,座右铭是:让技术不再枯燥,让每一位技术人爱上技术

    您好,文字识别OCR主要是基于您提供的图片,从而将图片中的文字信息转换为可编辑文本,如果您提供的pdf本身内容就是乱码或者文字重叠的情况下,识别出来的效果也不会太好,可能出现错字,建议您按照您的业务场景提供当前场景下比较符合对应场景文件限制条件的文档或图片,以提高识别准确度。

    2023-08-15 10:08:57
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。
    • 可以识别出来的

    image.png
    image.png

    2023-08-14 13:51:50
    赞同 展开评论 打赏
  • 天下风云出我辈,一入江湖岁月催,皇图霸业谈笑中,不胜人生一场醉。

    单张图片大小不超过10M, 且图片最长边不超过8192像素,最短边不小于15像素。当长边超过1024像素时,长宽比不超过1:50。
    image.png

    建议单字大小保持在10-50像素内,以获得较好的识别效果。

    .pdf/.ofd 类型文件,仅识别第一页

    2023-08-14 09:20:58
    赞同 展开评论 打赏
  • 文字识别OCR对于PDF文件中存在的文字乱码和文字重叠情况可能会面临一些挑战。这些问题通常会影响OCR算法对文本的准确提取和识别。

    当PDF文件中存在文字乱码时,OCR算法可能会无法正确解析或识别出混乱的字符。乱码可能是由于编码问题、字体不匹配、扫描质量不佳等原因导致的。在这种情况下,OCR系统可能会返回错误或不完整的识别结果。

    另外,如果PDF文件中存在文字重叠的情况,OCR算法也可能会遇到困难。文字重叠可能导致字符之间的边界不清晰,使得OCR算法难以判断每个字符的起始和结束位置。这可能导致识别结果中出现缺失、重复或错位字符的问题。

    2023-08-13 22:46:59
    赞同 展开评论 打赏

文字识别技术可以灵活应用于证件文字识别、发票文字识别、文档识别与整理等行业场景,满足认证、鉴权、票据流转审核等业务需求。

相关电子书

更多
对象存储实战指南-试读 立即下载
OpenAnolis 龙蜥操作系统开源社区技术创新白皮书 立即下载
使用CNFS搭建弹性Web服务 立即下载