文档备案控制台

开发者社区视觉智能文字识别正文

请问咱们的OCR可以做PDF格式文件的识别吗? PDF内容是全是图片？

请问咱们的OCR可以做PDF格式文件的识别吗? PDF内容是全是图片？

展开

收起

真的很搞笑 2023-04-19 07:56:43 428 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

wljslmz

公众号：网络技术联盟站，InfoQ签约作者，阿里云社区签约作者，华为云云享专家，BOSS直聘创作王者，腾讯课堂创作领航员，博客+论坛：https://www.wljslmz.cn，工程师导航：https://www.wljslmz.com

阿里云 OCR 支持 PDF 格式文件的识别，但是仅支持可文本选取的 PDF 文件进行识别，也就是说如果是全是图片的 PDF 文件，阿里云 OCR 是无法直接识别其中的文字的。

对于全是图片的 PDF 文件，需要先使用 OCR 相关技术将图片中的文字识别出来，再将其转化为可编辑的文本格式，比如 Word 或者文本文件。然后再使用阿里云 OCR 进行识别即可。

具体操作可以采用 OCR 技术较为成熟的开源软件如 Tesseract 或者易用性较好的商用软件如 Adobe Acrobat Pro 等，来将 PDF 图像中的文字提取出来，再转化为文本格式。

2023-04-30 16:29:10

赞同展开评论
芯在这

可以，PDF的什么内容？，此回答整理自钉群“【官方】阿里云OCR公共云客户交流群”

2023-04-19 11:43:52

赞同展开评论

问答分类：

文字识别文字识别视觉智能开放平台

问答标签：

PDF ocr PDF图片 PDF文件印刷文字识别pdf 印刷文字识别图片

问答地址：

开发者社区 > 视觉智能 > 文字识别 > 问答

相关问答

印刷文字识别

在宜搭普通表单里面，怎么实现pdf转换成图片，同时保留pdf文件，

767

3

0

文字识别OCR ocr可以识别pdf么？

450

3

0

文字识别OCR的标注任务导入支持其它标注平台的数据转换格式以后导入么？

353

1

0

文字识别OCR PDF里面有多张发票的话，可以全部识别嘛？

367

2

0

对于体检报告pdf要想提取里边的所有数据用文字识别OCR什么产品比较好？

253

1

0

文字识别OCR有没有事例？这边body，二进制文件是什么格式的？

238

1

0

钉钉里如何预览PDF格式文件？

908

2

0

大写PDF后缀的文件智能媒体管理是否支持预览？

461

1

0

OSS上传的pdf文件如何调整成html格式显示

369

1

0

文字识别OCR中ocr有没有专门针对国家标准文件/行业标准文件的pdf识别接口？

221

1

0

视觉智能

文字识别

文字识别技术可以灵活应用于证件文字识别、发票文字识别、文档识别与整理等行业场景，满足认证、鉴权、票据流转审核等业务需求。

我要提问

相关文章

甲醛 (HCHO) 总柱扫描轨道

AI大模型赋能企业跨端远程办公与文件处理：用版本比对自动生成变更摘要的工程方法

AI大模型赋能企业跨端远程办公与文件处理：如何把图片、录音和表格变成可查资料

百炼CLI在AI眼镜生态中的Skill调用架构：10个企业级场景实践

热门讨论

热门文章

文字识别OCR报错403是什么意思?

文字识别ocr中身份证识别响应状态码 463 什么意思？

文字识别OCR表格识别在线测试在哪？

ocr通用文字识别后付费和资源包价格是不一样吗？

文字识别OCR报错464怎么解决？

文字识别OCR报错443是什么原因？

文字识别OCR目前有哪些情况会导致识别失败？

识别非结构化的法律文书，提取里面的结构化数据，这种是不是就用文字识别OCR长文档信息抽取模型？

OCR离线部署多通道的价格怎么算的？

麻烦问下ocr在线使用的时候报错是什么问题？

展开全部

图像文字识别(OCR)用什么算法小结

阿里云文字识别（OCR）通用文字识别-全文识别高精版产品说明

分析对比大模型OCR、传统OCR和深度学习OCR

【PDF提取全自动改名】如何批量提取PDF指定区域的文字内容，用内容批量给PDF命名或者导出表格，学会全自动解放双手

【PDF提取内容改名】批量提取PDF指定区域内容重命名PDF文件，PDF自动提取内容命名的方案和详细步骤

阿里云文字识别（OCR）服务 Quick Start

【全自动改PDF名】批量OCR识别提取PDF自定义指定区域内容保存到 Excel 以及根据PDF文件内容的标题来批量重命名

阿里云文字识别（OCR）票据凭证识别Python SDK调用

【繁体图片文字识别】竖排的繁体图片文字识别翻译，竖排的繁体图片文字如何识别，竖排繁体图片识别后转横排，竖排的繁体识别比较友好的方法

合合信息——用智能文字识别技术赋能古彝文原籍数字化

展开全部

还有其他疑问?