安利3款Python三方库！轻松实现PDF转图片，最快的只需一行代码！

2024-03-18 200

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 安利3款Python三方库！轻松实现PDF转图片，最快的只需一行代码！

大家有时候会不会有 PDF 转图片 或是 图片合成 PDF 的需求，尤其是一些扫描版的手稿、画册、字帖一类的的文档。

当大家苦于不知道找什么在线应用或软件来进行转换的时候，我们用 Python几行代码就可以实现 PDF转图片的需求了。

今天小圈给大家安利3个可以实现PDF转图片的Python库，不要 so easy 了！

✅ PyMuPDF
✅ pdfplumber
✅ python-office

一、PyMuPDF

1、PyMuPDF简介

该三方库从命名形式中就可以看出，PyMuPDF 是 MuPDF 的Python接口形式。

而 MuPDF 是一个轻量级的 PDF、XPS和电子书查看器。MuPDF 由软件库、命令行工具和各种平台的查看器组成。这个工具很小，速度很快，而且很完整。它支持多种文档格式，如PDF、XPS、OpenXPS、CBZ、EPUB和FictionBook 2。

使用PyMuPDF，你可以访问扩展名为“.pdf”、“.xps”、“.oxps”、“.cbz”、“.fb2”或“.epub”。此外，大约10种流行的图像格式也可以像文档一样处理“.png”，“.jpg”，“.bmp”，“.tiff”等。

2、安装

PyMuPDF 可以通过Python pip 官方方式安装，也可以下载离线 wheels包进行安装。

支持平台：Windows、Linux、Mac OS

pip安装命令：

pip install PyMuPDF

导入命令：

import fitz

关于命名fitz的说明

这个库的标准Python导入语句是import fitz。这是有历史原因的: MuPDF的原始渲染库被称为Libart。

在Artifex软件获得MuPDF项目后，开发的重点转移到编写一种新的现代图形图书馆称为“Fitz”。Fitz最初是作为一个研发项目，以取代老化的Ghostscript图形库，但却成为了MuPDF的渲染引擎。

3、使用方法

验证pymupdf 模块是否安装成功

import fitz
print(fitz.__doc__)

输出：

PyMuPDF 1.21.0: Python bindings for the MuPDF 1.21.0 library.
Version date: 2022-11-08 00:00:01.
Built for Python 3.8 on darwin (64-bit).

加载PDF文件

# 加载pdf 文件
doc = fitz.open("/test/demo.pdf")

获取Document 属性和方法

# 1、获取pdf 页数
pageCount = doc.page_count
print("pdf 页数: ", pageCount)
 
# 2、获取pdf 元数据
metaData = doc.metadata
print("pdf 元数据: ", metaData)
 
# 3、获取pdf 目录信息
toc = doc.get_toc()
print("pdf 目录：", toc)

Page 加载方法

page = doc.load_page(pno) # 加载每页数据
page = doc[pno] # 加载每页数据

页面展示/页面图像保存到文件中

# Page 页面-光栅图像
pix = page.get_pixmap()
print("打印页面图像对象:", pix)
# 保存光栅图像图像,需要依赖第三方框架:Pillow
pix.pil_save("page-%i.png" % page.number)

PDF保存为图片完整代码：

import os
import fitz 
def covert2pic(file_path, zoom, png_path):
    doc = fitz.open(file_path)
    total = doc.page_count
    for pg in range(total):
        page = doc[pg]
        zoom = int(zoom)  # 值越大，分辨率越高，文件越清晰
        rotate = int(0)
        trans = fitz.Matrix(zoom / 100.0, zoom / 100.0).prerotate(rotate)
        pm = page.get_pixmap(matrix=trans, alpha=False)
        if not os.path.exists(png_path):
            os.mkdir(png_path)
        save = os.path.join(png_path, '%s.png' %(pg+1))
        pm.save(save)
    doc.close()
if __name__ == "__main__":
    pdfPath = 'demo.pdf'
    imagePath = './imgs'
    covert2pic(pdfPath, 200, imagePath)

效果：

PyMuPDF 还提供了丰富的功能来操作PDF文件，如读取、写入、分割、合并、旋转、裁剪等。此外，它还支持加密和解密PDF文档，以及提取文本、图像和元数据等信息。

至于其他进阶用法，小圈下次专门写个文章进行分享，有兴趣的同学可以先去使用尝试。

二、pdfplumber

1、pdfplumber简介

pdfplumber 也是一个可以处理pdf格式信息的库，可以查找关于每个文本字符、矩阵、和行的详细信息，也可以对表格进行提取并进行可视化调试。

主要功能：

可返回csv或json格式的信息： pdf级和页面级的元数据以及字典的嵌套属性。
可以指定页面以及页面范围进行解析： 以空格分隔、1索引的页面列表或带连字符的页面范围。例如，1, 11-15将返回第 1、11、12、13、14 和 15 页的数据。
可以指定解析的类型： 比如char、rect、line、curve、image或annot等，默认为所有可用。

最终返回的是一个 pdfplumber.Page对象。

2、安装

跟PyMuPDF一样，支持使用pip安装，安装命令：

pip install pdfplumber

导入命令：

import pdfplumber

3、使用方法

pdfplumber有2个基础类：PDF和Page

PDF用来处理整个文档，Page用来处理整个页面

类	用法简介
pdfplumber.PDF	.metadata，获取pdf基础信息，返回字典格式，包含作者、创建时间等。.pages，返回pdfplumber.Page实例的列表，每一个实例包含pdf每一页的信息
pdfplumber.Page	pdfplumber核心功能，对PDF的大部分操作都是基于这个类，包括提取文本、表格等

读取pdf文件，并输出pdf文件的基础信息

import pdfplumber
# 打开pdf文件，有密码加入password参数
pdf_info =pdfplumber.open('demo.pdf')
meta_data = pdf_info.metadata  # pdf的基础信息
page_con = len(pdf_info.pages)  # 获取pdf的总页数
print('pdf文件的基础信息：\n', meta_data)
print('pdf共%s页' % page_con)

pdfplumber转图片完整代码：

import pdfplumber
def covert2pic_v2(file_path, png_path):
    with pdfplumber.open(file_path) as pdf:
        # pdf.pages默认为pdf全部页
        # 可通过切片的方式选择需要转换的1页或几页,如前2页：pdf.pages[:2]
        for i, page in enumerate(pdf.pages[:2]):
            im = page.to_image(resolution=150)
            # 保存
            save = os.path.join(png_path, '%s.png' % (int(i) + 1))
            im.save(save)
            print('----分割线,第%d页----' % (int(i) + 1))

效果跟PyMuPDF一样，这里就不展示了。

三、Python-Office

1、Python-Office简介

Python-office 是一个Python 自动化办公第三方库，能解决大部分自动化办公的问题。而且每个功能只需一行代码，不需要小白用户学习 Python 知识，做到了真正的开箱即用。

2、安装

安装命令

pip install python-office

有时候易安装失败，小圈就遇到了，所以该库只能简单介绍下，请朋友们见谅哈！偷下懒！

3、使用方法

# 导入这个库：python-office，简写为office
import office
# 一行代码，实现转换
office.pdf.pdf2imgs(
    pdf_path='demo.pdf',
    out_dir='./imgs'
)
# 参数说明：
# pdf_path = 你的PDF文件的地址 
# out_dir = 转换后的图片存放地址，可以不填，默认是PDF的地址

1行Python代码，实现PDF转图片，直接解决了！是不是还没体验够就完成了！

安利3款Python三方库！轻松实现PDF转图片，最快的只需一行代码！

一、PyMuPDF

1、PyMuPDF简介

2、安装

3、使用方法

二、pdfplumber

1、pdfplumber简介

2、安装

3、使用方法

三、Python-Office

1、Python-Office简介

2、安装

3、使用方法

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

安利3款Python三方库！轻松实现PDF转图片，最快的只需一行代码！

一、PyMuPDF

1、PyMuPDF简介

2、安装

3、使用方法

二、pdfplumber

1、pdfplumber简介

2、安装

3、使用方法

三、Python-Office

1、Python-Office简介

2、安装

3、使用方法

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像