当前通义千问web版在处理扫描版PDF时是直接提示异常的,这个很不make sense;如图所示:
本地版的qwen-VL也不能直接处理扫描版的PDF。但是在生产环境实际应用中,业务又有大量的扫描PDF需要提交给AI来OCR,这个时候咋搞呢?
想起Python似乎有个库,可以将PDF分割为图片,于是只能曲线救国了……
已经不是大佬的大佬以前说过,talk is cheap,show you the code:
#pip install pdf2image
from pdf2image import convert_from_path
import os
def pdf_to_images(pdf_path, output_folder, dpi=300):
"""
将PDF文件的每一页转换为图片并保存到指定的输出文件夹中。
:param pdf_path: PDF文件的路径
:param output_folder: 输出图片存放的文件夹路径
:param dpi: 图片分辨率,默认300 DPI
"""
# 确保输出文件夹存在
if not os.path.exists(output_folder):
os.makedirs(output_folder)
# 转换PDF为一系列图片
images = convert_from_path(pdf_path, dpi=dpi)
# 保存图片
for i, image in enumerate(images):
image.save(os.path.join(output_folder, f'page_{i + 1}.png'), 'PNG')
# 使用示例
pdf_file = 'example.pdf'
output_dir = './output_images'
pdf_to_images(pdf_file, output_dir)
#以上代码由qwen生成,已经基本上可以直接跑,我本地修改就不贴上来抢风头了……