请问咱们的OCR可以做PDF格式文件的识别吗? PDF内容是全是图片?
阿里云 OCR 支持 PDF 格式文件的识别,但是仅支持可文本选取的 PDF 文件进行识别,也就是说如果是全是图片的 PDF 文件,阿里云 OCR 是无法直接识别其中的文字的。
对于全是图片的 PDF 文件,需要先使用 OCR 相关技术将图片中的文字识别出来,再将其转化为可编辑的文本格式,比如 Word 或者文本文件。然后再使用阿里云 OCR 进行识别即可。
具体操作可以采用 OCR 技术较为成熟的开源软件如 Tesseract 或者易用性较好的商用软件如 Adobe Acrobat Pro 等,来将 PDF 图像中的文字提取出来,再转化为文本格式。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。