三种方法，Python轻松提取PDF中全部图片-阿里云开发者社区

三种方法，Python轻松提取PDF中全部图片

2024-08-28 504

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 三种方法，Python轻松提取PDF中全部图片

基于 `fitz` 库和正则搜索

fitz 是 pymupdf 的子模块，需要先用命令行安装 pymupdf：

pip install pymupdf

但注意导入时使用 import fitz 导入模块!

下面的代码就利用 fitz 库提取图片需要通过正则匹配图片元素，将模板元素转化为像素后再以图片形式写出

import fitz
import re
import os
file_path = r'C:\xxx\xxx.pdf' # PDF 文件路径
dir_path = r'C:\xxx' # 存放图片的文件夹
def pdf2image1(path, pic_path):
    checkIM = r"/Subtype(?= */Image)"
    pdf = fitz.open(path)
    lenXREF = pdf._getXrefLength()
    count = 1
    for i in range(1, lenXREF):
        text = pdf._getXrefString(i)
        isImage = re.search(checkIM, text)
        if not isImage:
            continue
        pix = fitz.Pixmap(pdf, i)
        new_name = f"img_{count}.png"
        pix.writePNG(os.path.join(pic_path, new_name))
        count += 1
        pix = None
pdf2image1(file_path, dir_path)

运行提取示例文件后结果如下：

可以看到，有一些很小的色块也被提取成图片，那么怎么过滤掉它们呢？

有一个简单的方法是通过大小过滤，pix 像素在 fitz 库中存在一个重要的方法 pix.size 可以反映像素多少，简单的色素块该值较低，可以通过设置一个阈值过滤。以阈值 10000 为例过滤：

import fitz
import re
import os
file_path = r'C:\xxx\xxx.pdf' # PDF 文件路径
dir_path = r'C:\xxx' # 存放图片的文件夹
def pdf2image1(path, pic_path):
    checkIM = r"/Subtype(?= */Image)"
    pdf = fitz.open(path)
    lenXREF = pdf._getXrefLength()
    count = 1
    for i in range(1, lenXREF):
        text = pdf._getXrefString(i)
        isImage = re.search(checkIM, text)
        if not isImage:
            continue
        pix = fitz.Pixmap(pdf, i)
        if pix.size < 10000: # 在这里添加一处判断一个循环
            continue # 不符合阈值则跳过至下
        new_name = f"img_{count}.png"
        pix.writePNG(os.path.join(pic_path, new_name))
        count += 1
        pix = None
pdf2image1(file_path, dir_path)

可以看到，全部图片都被正常提取！

基于 `pdf2image` 库的两种方法

一看名字就知道这个库的用处了，官方文档为https://www.cnpython.com/pypi/pdf2image

可以简单通过 pip install pdf2image 安装，但poppler才是真正起做用的转换器，因此需要额外安装和配置：

“

windows用户必须安装poppler for Windows，然后将bin/文件夹添加到PATH

Mac用户必须安装poppler for Mac

”

具体发挥作用的代码官方文档也给出了详细的说明：

那么我们就分别尝试这两种方法：

from pdf2image import convert_from_path,convert_from_bytes
import tempfile
from pdf2image.exceptions import PDFInfoNotInstalledError, PDFPageCountError, PDFSyntaxError
import os
file_path = r'C:\xxx\xxx.pdf' # PDF 文件路径
dir_path = r'C:\xxx' # 存放图片的文件夹
def pdf2image2(file_path, dir_path):
    images = convert_from_path(file_path, dpi=200)
    for image in images:
        if not os.path.exists(dir_path):
            os.makedirs(dir_path)
        image.save(file_path + f'\img_{images.index(image)}.png', 'PNG')
pdf2image2(file_path, dir_path)

可以成功提取图片。再试试第二种方法：

from pdf2image import convert_from_path,convert_from_bytes
import tempfile
from pdf2image.exceptions import PDFInfoNotInstalledError, PDFPageCountError, PDFSyntaxError
import os
file_path = r'C:\xxx\xxx.pdf' # PDF 文件路径
dir_path = r'C:\xxx' # 存放图片的文件夹
def pdf2image3(file_path, dir_path):
    images = convert_from_bytes(open(file_path, 'rb').read())
    for image in images:
        if not os.path.exists(dir_path):
            os.makedirs(dir_path)
        image.save(file_path + f'\img_{images.index(image)}.png', 'PNG')
pdf2image3(file_path, dir_path)

可以看到结果和之前一致，PDF中全部图片都被提取出来！

再补充一下。核心方法covert_from_bytes包含大量参数，可以自行修改。几个常用参数总结如下：

参数	意义
pdf_path	PDF 文档路径
dpi	图像质量（如果是学术期刊杂志常见 300dpi）
output_folder	将生成的图像写入文件夹（而不是直接写入内存）
first_page	起始转换页数
last_page	转换至哪一页
fmt	图像格式，可以指定为 png，默认为 ppm
thread_count	允许参与转换的线程数
userpw	PDF 的密码
output_file	输出文件名
poppler_path	指定 poppler 的安装路径，一开始配置好就无需指定

三种方法，Python轻松提取PDF中全部图片

基于 `fitz` 库和正则搜索

基于 `pdf2image` 库的两种方法

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

三种方法，Python轻松提取PDF中全部图片

基于 fitz 库和正则搜索

基于 pdf2image 库的两种方法

热门文章

最新文章

相关课程

相关电子书

推荐镜像

基于 `fitz` 库和正则搜索

基于 `pdf2image` 库的两种方法