用PDF转换图片的方式弥补通义千问在扫描版PDF支持方面的缺失

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,图像资源包5000点
简介: 当前通义千问Web版和本地版qwen-VL在处理扫描版PDF时均无法直接识别,导致实际应用中处理大量扫描PDF的需求难以满足。为此,通过使用Python的pdf2image库,可将PDF文件转换为图片,再进行OCR处理,实现解决方案。文中提供了具体的代码示例,展示了如何将PDF文件的每一页转换成图片,并保存至指定文件夹,为后续的OCR处理做好准备。

当前通义千问web版在处理扫描版PDF时是直接提示异常的,这个很不make sense;如图所示:

18a9ba38c7fc99775a7c612b6120261.png

本地版的qwen-VL也不能直接处理扫描版的PDF。但是在生产环境实际应用中,业务又有大量的扫描PDF需要提交给AI来OCR,这个时候咋搞呢?

想起Python似乎有个库,可以将PDF分割为图片,于是只能曲线救国了……

已经不是大佬的大佬以前说过,talk is cheap,show you the code:

#pip install pdf2image

from pdf2image import convert_from_path

import os

def pdf_to_images(pdf_path, output_folder, dpi=300):

   """

   将PDF文件的每一页转换为图片并保存到指定的输出文件夹中。

 

   :param pdf_path: PDF文件的路径

   :param output_folder: 输出图片存放的文件夹路径

   :param dpi: 图片分辨率,默认300 DPI

   """

   # 确保输出文件夹存在

   if not os.path.exists(output_folder):

       os.makedirs(output_folder)

 

   # 转换PDF为一系列图片

   images = convert_from_path(pdf_path, dpi=dpi)

 

   # 保存图片

   for i, image in enumerate(images):

       image.save(os.path.join(output_folder, f'page_{i + 1}.png'), 'PNG')

# 使用示例

pdf_file = 'example.pdf'

output_dir = './output_images'

pdf_to_images(pdf_file, output_dir)

#以上代码由qwen生成,已经基本上可以直接跑,我本地修改就不贴上来抢风头了……

相关文章
|
7月前
|
机器学习/深度学习 人工智能 数据安全/隐私保护
免费交互式大模型在线图像去除水印.擦除.替换和增强照片项目代码(免费在线图像修复工具)
免费交互式大模型在线图像去除水印.擦除.替换和增强照片项目代码(免费在线图像修复工具)
|
20天前
|
机器学习/深度学习 人工智能 自然语言处理
Documind:开源 AI 文档处理工具,将 PDF 转换为图像提取结构化数据
Documind 是一款利用 AI 技术从 PDF 中提取结构化数据的先进文档处理工具,支持灵活的本地或云端部署。
80 8
Documind:开源 AI 文档处理工具,将 PDF 转换为图像提取结构化数据
|
6月前
|
编解码 文字识别
印刷文字识别操作报错合集之在尝试将PDF文件转换为图片时出现了问题,具体的错误代码是415,该怎么处理
在使用印刷文字识别(OCR)服务时,可能会遇到各种错误。例如:1.Java异常、2.配置文件错误、3.服务未开通、4.HTTP错误码、5.权限问题(403 Forbidden)、6.调用拒绝(Refused)、7.智能纠错问题、8.图片质量或格式问题,以下是一些常见错误及其可能的原因和解决方案的合集。
|
6月前
|
API 开发工具 Windows
视觉智能开放平台操作报错合集之通用高清分割时,任务提交成功了,但异步查的时候有概率会报400,requestid不存在。该怎么办
在使用视觉智能开放平台时,可能会遇到各种错误和问题。虽然具体的错误代码和消息会因平台而异,但以下是一些常见错误类型及其可能的原因和解决策略的概述,包括但不限于:1. 认证错误、2. 请求参数错误、3. 资源超限、4. 图像质量问题、5. 服务不可用、6. 模型不支持的场景、7. 网络连接问题,这有助于快速定位和解决问题。
|
7月前
|
存储 XML 人工智能
在线转换多种矢量和文档格式 - 免费
本文介绍了款强大的在线云库工具,支持多种矢量图形、设计文件、办公文档和字体格式的转换,如AI、CDR、SVG等。该工具具备高效转换、简便操作、高质量输出、跨平台兼容和批量处理等技术优势,适用于设计、工程、办公和网页设计等领域,提升工作效率。无论是在跨平台协作还是处理大量文件时,都是理想的选择。
155 0
在线转换多种矢量和文档格式 - 免费
|
6月前
|
机器学习/深度学习 存储 算法
真是太强大了!YOLO-World检测一切的任务框架使用指南,支持开放词汇检测任务
真是太强大了!YOLO-World检测一切的任务框架使用指南,支持开放词汇检测任务
|
机器学习/深度学习 自然语言处理 安全
【网安专题11.8】14Cosco跨语言代码搜索代码: (a) 训练阶段 相关程度的对比学习 对源代码(查询+目标代码)和动态运行信息进行编码 (b) 在线查询嵌入与搜索:不必计算相似性
【网安专题11.8】14Cosco跨语言代码搜索代码: (a) 训练阶段 相关程度的对比学习 对源代码(查询+目标代码)和动态运行信息进行编码 (b) 在线查询嵌入与搜索:不必计算相似性
269 0
|
7月前
|
机器学习/深度学习 数据处理 API
视觉智能平台常见问题之通用图像打标位置报警告如何解决
视觉智能平台是利用机器学习和图像处理技术,提供图像识别、视频分析等智能视觉服务的平台;本合集针对该平台在使用中遇到的常见问题进行了收集和解答,以帮助开发者和企业用户在整合和部署视觉智能解决方案时,能够更快地定位问题并找到有效的解决策略。
视觉智能平台常见问题之通用图像打标位置报警告如何解决
|
7月前
|
机器学习/深度学习 生物认证 API
视觉智能平台常见问题之只有一张原图设置输出图片格式如何解决
视觉智能平台是利用机器学习和图像处理技术,提供图像识别、视频分析等智能视觉服务的平台;本合集针对该平台在使用中遇到的常见问题进行了收集和解答,以帮助开发者和企业用户在整合和部署视觉智能解决方案时,能够更快地定位问题并找到有效的解决策略。
|
7月前
|
机器学习/深度学习 编解码 API
视觉智能平台常见问题之分割后的图片尺寸会变得比较大如何解决
视觉智能平台是利用机器学习和图像处理技术,提供图像识别、视频分析等智能视觉服务的平台;本合集针对该平台在使用中遇到的常见问题进行了收集和解答,以帮助开发者和企业用户在整合和部署视觉智能解决方案时,能够更快地定位问题并找到有效的解决策略。

热门文章

最新文章