开发者社区 > 视觉智能 > 文字识别 > 正文

请问咱们的OCR可以做PDF格式文件的识别吗? PDF内容是全是图片?

请问咱们的OCR可以做PDF格式文件的识别吗? PDF内容是全是图片?

展开
收起
真的很搞笑 2023-04-19 07:56:43 250 0
2 条回答
写回答
取消 提交回答
  • 公众号:网络技术联盟站,InfoQ签约作者,阿里云社区签约作者,华为云 云享专家,BOSS直聘 创作王者,腾讯课堂创作领航员,博客+论坛:https://www.wljslmz.cn,工程师导航:https://www.wljslmz.com

    阿里云 OCR 支持 PDF 格式文件的识别,但是仅支持可文本选取的 PDF 文件进行识别,也就是说如果是全是图片的 PDF 文件,阿里云 OCR 是无法直接识别其中的文字的。

    对于全是图片的 PDF 文件,需要先使用 OCR 相关技术将图片中的文字识别出来,再将其转化为可编辑的文本格式,比如 Word 或者文本文件。然后再使用阿里云 OCR 进行识别即可。

    具体操作可以采用 OCR 技术较为成熟的开源软件如 Tesseract 或者易用性较好的商用软件如 Adobe Acrobat Pro 等,来将 PDF 图像中的文字提取出来,再转化为文本格式。

    2023-04-30 16:29:10
    赞同 展开评论 打赏
  • 可以,PDF的什么内容?,此回答整理自钉群“【官方】阿里云OCR公共云客户交流群”

    2023-04-19 11:43:52
    赞同 展开评论 打赏

文字识别技术可以灵活应用于证件文字识别、发票文字识别、文档识别与整理等行业场景,满足认证、鉴权、票据流转审核等业务需求。

相关电子书

更多
阿里云智能-印刷文字识别OCR-产品介绍 立即下载
阿里巴巴读光OCR 立即下载
印刷文字识别算法设计与在线服务 立即下载