开发者社区> 技能实验室> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

python自动化系列之操作pdf的库PyPDF2

简介: 在python中有多个对应的库可以操作Pdf文件,其中最常用的是Pypdf2
+关注继续查看

PDF是Portable Document Format的简称,意为“可携带文档格式”,是由Adobe Systems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。

在python中有多个对应的库可以操作Pdf文件,其中最常用的是Pypdf2

PyPDF是一个操作pdf的模块,现在最常用的版本是PyPDF2;
需要注意的是,这个库不能操作pdf获取文字信息

PyPDF2介绍

PyPDF2 是一个纯 Python PDF 库,可以读取文档信息(标题,作者等)、写入、分割、合并PDF文档,它还可以对pdf文档进行添加水印、加密解密等操作。

安装PyPDF2

使用pip包管理器安装PyPDF2最新版本:
pip install PyPDF2

编辑器推荐使用VSCode,启动VSCode,可以直接选择打开“终端”菜单,进行库的安装和程序的运行;非常的方便

使用PyPDF2

PyPdf2中有两个模块,分别是:

  • 读取库 PDFFileReader
  • 操作库 PdfFileWriter

1、使用PDFFileReader可以获取pdf文件的基本信息,还可以获取到每一页pdf并加载为PageObject对象;

from PyPDF2 import PdfFileReader #引入reader
pdf = PdfFileReader(input_path) #初始化一个reader对象,传入文件路径
infomation = pdf.getDocumentInfo() #获取文档信息
number_of_pages = pdf.getNumPages() #获取总页数

完整实例代码如下:

def read():
    '''读取pdf数据'''
    from PyPDF2 import PdfFileReader #引入reader
    pdf = PdfFileReader(input_path) #初始化一个reader对象,传入文件路径
    #pdf = pdf.decrypt('password') #对加密的文件机密
    infomation = pdf.getDocumentInfo() #获取文档信息
    number_of_pages = pdf.getNumPages() #获取总页数

    txt = f'''{input_path} information:
    Author : {infomation.author},
    Creator : {infomation.creator},
    Producer : {infomation.producer},
    Subject : {infomation.subject},
    Title : {infomation.title},
    Number of pages : {number_of_pages}
    '''    
    print(txt)  #以上信息,除了页数,对于一下文件可能不存在
    #这个库不适合读取文档内容
    for i in range(0,number_of_pages):
        pageObject = pdf.getPage(i)
        #print(pageObject.extractText())

2、使用PdfFileWriter需要配合PdfFileReader

from PyPDF2 import PdfFileWriter,PdfFileReader
pdfReader = PdfFileReader(input_path)
pdfWriter = PdfFileWriter()
addPage 向此 PDF 文件添加页面 该页面通常是从一个PdfFileReader实例中获取的
pdfWriter.addPage(pdfReader.getPage(0))

具体可以参考下面代码的注释:

def write():
    '''写入'''
    from PyPDF2 import PdfFileWriter,PdfFileReader
    pdfReader = PdfFileReader(input_path)
    pdfWriter = PdfFileWriter()
    # addPage 向此 PDF 文件添加页面 该页面通常是从一个PdfFileReader实例中获取的
    pdfWriter.addPage(pdfReader.getPage(0))
    # insertBlankPage 将空白页插入此 PDF 文件并返回此页面的PageObject对象
    # insertBlankPage(width=None, height=None, index=0) 默认在最开始添加
    pdfWriter.insertBlankPage(width=100,height=100)
    # addBlankPage(width=None, height=None) 追加一个空白页,如果没有指定width|height,则使用上一页的width|height
    # 如果没有指定width|height并且也没有上一页 raise PageSizeNotDefinedError
    pdfWriter.addBlankPage()
    # 在此 PDF 文件中插入一个pageObject对象。该页面通常是从一个 PdfFileReader实例中获取的
    # index指定插入位置 默认再最开始插入
    pdfWriter.insertPage(pdfReader.getPage(2))
    # addAttachment(fname, fdata) 在 PDF 中嵌入文件
    # pdfWriter.addAttachment(fname="附件一.txt", fdata=b'Hello world!')
    print(pdfWriter.getNumPages())
    #加密
    #pdfWriter.encrypt(user_pwd='password', owner_pwd='password')
    pdfWriter.write(open('H:/test_w.pdf','wb'))

3、重要的概念PageObject:

在PdfFileReader加载pdf文件后,获取的每一页都会被转换为PageObject对象,对于Pdf的操作,实际就是在操作PageObject对象;

下面是PageObject对象中常用的方法:

PageObject的方法:
mergePage(page2) 将两个页面的内容合并为一个,可以实现水印效果
mergeRotatedPage(page2, rotation, expand=False) 类似mergePage方法,可以对page2页面进行旋转操作
mergeScaledPage(page2, scale, expand=False) 类似mergePage方法,可以对page2页面进行缩放操作
mergeTranslatedPage(page2, tx, ty, expand=False) 类似mergePage方法,可以对page2页面进行平移操作
mergeRotatedScaledPage(page2, rotation, scale, expand=False) 类似mergePage方法,可以对page2页面进行旋转以及缩放操作
mergeRotatedScaledTranslatedPage(page2, rotation, scale, tx, ty, expand=False) 类似mergePage方法,可以对page2页面进行旋转、缩放以及平移操作
mergeRotatedTranslatedPage(page2, rotation, tx, ty, expand=False) 类似mergePage方法,可以对page2页面进行旋转以及平移操作
mergeScaledTranslatedPage(page2, scale, tx, ty, expand=False) 类似mergePage方法,可以对page2页面进行缩放以及平移操作
mergeTransformedPage(page2, ctm, expand=False) 类似mergePage方法,可以对page2页面进行矩阵转换操作
rotateClockwise(angle) 顺时针旋转页面,angle必须是 90 度的增量
rotateCounterClockwise(angle) 逆时针旋转页面,angle必须是 90 度的增量
scale(sx, sy) 缩放页面
scaleBy(factor) 按固定XY轴比例缩放页面
scaleTo(width, height) 页面缩放到指定尺寸

实现一个合并pdf文件的功能:

可参考代码注释理解:

image.png

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
办公利器!用Python快速将任意文件转为PDF
**痛点:** 相信大家都会遇到一种**场景**。老师/上司要求你把**某个文件转为pdf**,并且是一批(不止一个,一个的话手动就可以搞定),并且这种是枯燥无聊的工作,既没有什么技术含量又累。
106 0
Python游戏工具包---Pygame最常用的15个模块详解(附pdf版本)
最近很多读者想学习使用python来制作游戏,其中最经典的工具包就是Pygame ,如果单纯只看之前分享的是个游戏代码案例,直接来制作一款游戏有些难度
650 0
通过Python的JIRA库操作JIRA
[本文出自天外归云的博客园] 前提 需要安装jira库: pip install jira 编写脚本 例如,我想统计一下某一jira的备注里是否有如下信息,没有则给予提示: [产品需求文档地址]:http://xxx/xx.
1869 0
【Python入门】 使用 pip 安装 pySerial 串口通讯模块
pySerial封装了对串口的访问。 特性在支持的平台上有统一的接口。通过python属性访问串口设置。支持不同的字节大小、停止位、校验位和流控设置。可以有或者没有接收超时。类似文件的API,例如read和write,也支持readline等。
1190 0
终于看完《A Byte of Python》,转入下一本书《Python基础教程(第2版)》
踏实的作完了所有的样例,希望再看完一本基础的书之后,能进入比较实用的领域。 用来处理文件,备份,系统自动管理等日常任务。
964 0
+关注
技能实验室
python java vue css typescript
83
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载