用PDF转换图片的方式弥补通义千问在扫描版PDF支持方面的缺失

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
简介: 当前通义千问Web版和本地版qwen-VL在处理扫描版PDF时均无法直接识别,导致实际应用中处理大量扫描PDF的需求难以满足。为此,通过使用Python的pdf2image库,可将PDF文件转换为图片,再进行OCR处理,实现解决方案。文中提供了具体的代码示例,展示了如何将PDF文件的每一页转换成图片,并保存至指定文件夹,为后续的OCR处理做好准备。

当前通义千问web版在处理扫描版PDF时是直接提示异常的,这个很不make sense;如图所示:

18a9ba38c7fc99775a7c612b6120261.png

本地版的qwen-VL也不能直接处理扫描版的PDF。但是在生产环境实际应用中,业务又有大量的扫描PDF需要提交给AI来OCR,这个时候咋搞呢?

想起Python似乎有个库,可以将PDF分割为图片,于是只能曲线救国了……

已经不是大佬的大佬以前说过,talk is cheap,show you the code:

#pip install pdf2image

from pdf2image import convert_from_path

import os

def pdf_to_images(pdf_path, output_folder, dpi=300):

   """

   将PDF文件的每一页转换为图片并保存到指定的输出文件夹中。

 

   :param pdf_path: PDF文件的路径

   :param output_folder: 输出图片存放的文件夹路径

   :param dpi: 图片分辨率,默认300 DPI

   """

   # 确保输出文件夹存在

   if not os.path.exists(output_folder):

       os.makedirs(output_folder)

 

   # 转换PDF为一系列图片

   images = convert_from_path(pdf_path, dpi=dpi)

 

   # 保存图片

   for i, image in enumerate(images):

       image.save(os.path.join(output_folder, f'page_{i + 1}.png'), 'PNG')

# 使用示例

pdf_file = 'example.pdf'

output_dir = './output_images'

pdf_to_images(pdf_file, output_dir)

#以上代码由qwen生成,已经基本上可以直接跑,我本地修改就不贴上来抢风头了……

相关文章
|
8月前
|
数据挖掘 数据安全/隐私保护 开发者
使用Spire.PDF for Python插件从PDF文件提取文字和图片信息
使用Spire.PDF for Python插件从PDF文件提取文字和图片信息
807 0
|
21天前
|
JavaScript
jquery图片和pdf文件预览插件
EZView.js是一款jquery图片和pdf文件预览插件。EZView.js可以为图片和pdf格式文件生成在线预览效果。支持的文件格式有pdf、jpg、 png、jpeg、gif。
48 16
|
5月前
|
XML 缓存 JSON
为什么浏览器中有些图片、PDF等文件点击后有些是预览,有些是下载
为什么浏览器中有些图片、PDF等文件点击后有些是预览,有些是下载
300 0
|
4月前
|
Python
Python办公自动化:提取pdf文件中的图片
Python办公自动化:提取pdf文件中的图片
44 0
|
5月前
|
数据安全/隐私保护 Python Windows
三种方法,Python轻松提取PDF中全部图片
三种方法,Python轻松提取PDF中全部图片
165 3
|
5月前
|
Python
Python——批量将PDF文件转为图片
Python——批量将PDF文件转为图片
51 2
|
8月前
|
编解码 数据可视化 数据挖掘
【办公自动化】用Python将PDF文件转存为图片
【办公自动化】用Python将PDF文件转存为图片
180 1
|
5月前
|
Java
JAVA PDF 截取N页,生成新文件,转图片,多个PDF 合并
JAVA PDF 截取N页,生成新文件,转图片,多个PDF 合并
98 0
|
5月前
|
Python
[python]将多张图片合并为单个pdf文件
[python]将多张图片合并为单个pdf文件
|
7月前
|
文字识别 开发工具 数据安全/隐私保护
印刷文字识别产品使用合集之可以识别一张电子发票有多页(多张图片,或者一个PDF文件)的这种发票吗
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

热门文章

最新文章