开发者社区 > 视觉智能 > 文字识别 > 正文

请教一下大神,ocr这种情况要怎么解决呀?情况说明:上传PDF至OCR文档自学习中进行数据集的新建、

请教一下大神,ocr这种情况要怎么解决呀?c4a730eee08344f49059ce2c03a62c93.png 情况说明:上传PDF至OCR文档自学习中进行数据集的新建、亦或者是建模后进行在线使用时,只要上传PDF,转化出来的图片后,数字2后面出现小数点就会拥挤在一起。 这种情况导致了要使用阿里云OCR必须自己先将PDF转为高清图片,不然无法适配数字2后面有小数点的情况。OCR识别时会忽略小数点,人工校验也会容易被误导。

展开
收起
真的很搞笑 2023-06-28 17:44:53 61 0
2 条回答
写回答
取消 提交回答
  • 是个只会写bug的程序媛啊!!!

    可以通过图片放大来增加正确小数的数量。但是这样可能还会有一小部分小数不能被正确识别。 之后就可以更改pytesseract的语言设置: 使用非英语设置,将配置更改为lang = 'eng'解决了所有剩余问题

    2023-06-30 10:51:34
    赞同 展开评论 打赏
  • 后面这张图片你是在在线使用的时候截图的还是,上传到标注任务后截图的呢,此回答整理自钉群“【官方】阿里云OCR文档自学习用户答疑群”

    2023-06-28 17:55:54
    赞同 展开评论 打赏

文字识别技术可以灵活应用于证件文字识别、发票文字识别、文档识别与整理等行业场景,满足认证、鉴权、票据流转审核等业务需求。

相关电子书

更多
阿里云智能-印刷文字识别OCR-产品介绍 立即下载
阿里巴巴读光OCR 立即下载
印刷文字识别算法设计与在线服务 立即下载