文档备案控制台

开发者社区视觉智能文字识别正文

请教一下大神，ocr这种情况要怎么解决呀？情况说明：上传PDF至OCR文档自学习中进行数据集的新建、

请教一下大神，ocr这种情况要怎么解决呀？情况说明：上传PDF至OCR文档自学习中进行数据集的新建、亦或者是建模后进行在线使用时，只要上传PDF，转化出来的图片后，数字2后面出现小数点就会拥挤在一起。这种情况导致了要使用阿里云OCR必须自己先将PDF转为高清图片，不然无法适配数字2后面有小数点的情况。OCR识别时会忽略小数点，人工校验也会容易被误导。

展开

收起

真的很搞笑 2023-06-28 17:44:53 200 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

nanana~~

是个只会写bug的程序媛啊！！！

可以通过图片放大来增加正确小数的数量。但是这样可能还会有一小部分小数不能被正确识别。之后就可以更改pytesseract的语言设置：使用非英语设置，将配置更改为lang = 'eng'解决了所有剩余问题

2023-06-30 10:51:34

赞同展开评论
芯在这

后面这张图片你是在在线使用的时候截图的还是，上传到标注任务后截图的呢，此回答整理自钉群“【官方】阿里云OCR文档自学习用户答疑群”

2023-06-28 17:55:54

赞同展开评论

问答分类：

文字识别文字识别视觉智能开放平台

问答标签：

PDF ocr PDF文档印刷文字识别pdf 印刷文字识别文档 PDF学习

问答地址：

开发者社区 > 视觉智能 > 文字识别 > 问答

相关问答

印刷文字识别

阿里云有没有什么产品能把身份证照片识别出来，进行抠图处理，再拼接成pdf文档的。类似全能扫描王类那种

119

0

0

AddFile接口上传pdf文档找不到入参category

456

1

0

AddFile接口上传pdf文档会解析失败

913

3

0

文字识别OCR ocr可以识别pdf么？

393

3

0

文字识别OCR PDF里面有多张发票的话，可以全部识别嘛？

323

2

0

对于体检报告pdf要想提取里边的所有数据用文字识别OCR什么产品比较好？

221

1

0

文字识别OCR看文档说明，篡改阈值推荐 60，这个值越大，篡改的可能性就越大？

228

1

0

访问CDN中图片显示跨域问题，而PDF文档正常的情况怎么解决？

213

0

0

在文字识别OCR中，带有水印的pdf解析应该使用哪个产品？

273

3

0

在文字识别OCR中，有这种发票类型的细分文档吗？

190

3

0

视觉智能

文字识别

文字识别技术可以灵活应用于证件文字识别、发票文字识别、文档识别与整理等行业场景，满足认证、鉴权、票据流转审核等业务需求。

我要提问

相关文章

Ж-CEH：锚定结构存在论—— 从宇宙虚无到视觉张量的统一框架

阿里云Qwen 3.7 Plus与Max全解析：资费、消耗、配置与多模态能力深度对比

内网环境跑通RPA自动化：企业级私有化部署实战

AI办公高频问题汇总梳理清单

Deepseek大语言模型在多语种手稿数字化中的工程实践与策略

热门讨论

热门文章

身份证识别ocr，每次购买需要更换url地址吗？

你好，我想问下，python调用接口，Sample.main() 函数，会return 文字识别的结

文字识别ocr支持android吗，android sdk文档链接有不？

文字识别OCR体验了一下，识别不出来，麻烦帮我看下怎么解决？

OCR中java 代码示例，返回这个是什么意思？

为什么我们这边的文字识别OCR现在出现了发票类型识别不稳定的情况？

文字识别OCR目前有哪些情况会导致识别失败？

文字识别OCR API有没有Delphi的demo哦？

目前OCR中如果部署在本地的话，识别速度怎么样？一张图片平均多久可以识别到

文字识别OCR有没有文章自然段落识别的接口呀？

展开全部

【PDF提取全自动改名】如何批量提取PDF指定区域的文字内容，用内容批量给PDF命名或者导出表格，学会全自动解放双手

OCR文字识别技术总结（一）

分析对比大模型OCR、传统OCR和深度学习OCR

【全自动改PDF名】批量OCR识别提取PDF自定义指定区域内容保存到 Excel 以及根据PDF文件内容的标题来批量重命名

图像文字识别(OCR)用什么算法小结

【繁体图片文字识别】竖排的繁体图片文字识别翻译，竖排的繁体图片文字如何识别，竖排繁体图片识别后转横排，竖排的繁体识别比较友好的方法

高效率办公PDF批量处理：批量OCR识别PDF区域文字内容，用PDF内容批量改名或导出表格的货物运单应用案例

分享：如何ocr识别身份证复印件并导出至excel表格 ? 图片批量识别导出excel表格应用，图片批量识别转excel表格的方法

【PDF提取内容改名】批量提取PDF指定区域内容重命名PDF文件，PDF自动提取内容命名的方案和详细步骤

文字识别OCR开源框架的对比--Tesseract vs EasyOCR

展开全部

还有其他疑问?