python自动化系列之操作pdf的库PyPDF2

简介: 在python中有多个对应的库可以操作Pdf文件,其中最常用的是Pypdf2

PDF是Portable Document Format的简称,意为“可携带文档格式”,是由Adobe Systems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。

在python中有多个对应的库可以操作Pdf文件,其中最常用的是Pypdf2

PyPDF是一个操作pdf的模块,现在最常用的版本是PyPDF2;
需要注意的是,这个库不能操作pdf获取文字信息

PyPDF2介绍

PyPDF2 是一个纯 Python PDF 库,可以读取文档信息(标题,作者等)、写入、分割、合并PDF文档,它还可以对pdf文档进行添加水印、加密解密等操作。

安装PyPDF2

使用pip包管理器安装PyPDF2最新版本:
pip install PyPDF2

编辑器推荐使用VSCode,启动VSCode,可以直接选择打开“终端”菜单,进行库的安装和程序的运行;非常的方便

使用PyPDF2

PyPdf2中有两个模块,分别是:

  • 读取库 PDFFileReader
  • 操作库 PdfFileWriter

1、使用PDFFileReader可以获取pdf文件的基本信息,还可以获取到每一页pdf并加载为PageObject对象;

from PyPDF2 import PdfFileReader #引入reader
pdf = PdfFileReader(input_path) #初始化一个reader对象,传入文件路径
infomation = pdf.getDocumentInfo() #获取文档信息
number_of_pages = pdf.getNumPages() #获取总页数

完整实例代码如下:

def read():
    '''读取pdf数据'''
    from PyPDF2 import PdfFileReader #引入reader
    pdf = PdfFileReader(input_path) #初始化一个reader对象,传入文件路径
    #pdf = pdf.decrypt('password') #对加密的文件机密
    infomation = pdf.getDocumentInfo() #获取文档信息
    number_of_pages = pdf.getNumPages() #获取总页数

    txt = f'''{input_path} information:
    Author : {infomation.author},
    Creator : {infomation.creator},
    Producer : {infomation.producer},
    Subject : {infomation.subject},
    Title : {infomation.title},
    Number of pages : {number_of_pages}
    '''    
    print(txt)  #以上信息,除了页数,对于一下文件可能不存在
    #这个库不适合读取文档内容
    for i in range(0,number_of_pages):
        pageObject = pdf.getPage(i)
        #print(pageObject.extractText())

2、使用PdfFileWriter需要配合PdfFileReader

from PyPDF2 import PdfFileWriter,PdfFileReader
pdfReader = PdfFileReader(input_path)
pdfWriter = PdfFileWriter()
addPage 向此 PDF 文件添加页面 该页面通常是从一个PdfFileReader实例中获取的
pdfWriter.addPage(pdfReader.getPage(0))

具体可以参考下面代码的注释:

def write():
    '''写入'''
    from PyPDF2 import PdfFileWriter,PdfFileReader
    pdfReader = PdfFileReader(input_path)
    pdfWriter = PdfFileWriter()
    # addPage 向此 PDF 文件添加页面 该页面通常是从一个PdfFileReader实例中获取的
    pdfWriter.addPage(pdfReader.getPage(0))
    # insertBlankPage 将空白页插入此 PDF 文件并返回此页面的PageObject对象
    # insertBlankPage(width=None, height=None, index=0) 默认在最开始添加
    pdfWriter.insertBlankPage(width=100,height=100)
    # addBlankPage(width=None, height=None) 追加一个空白页,如果没有指定width|height,则使用上一页的width|height
    # 如果没有指定width|height并且也没有上一页 raise PageSizeNotDefinedError
    pdfWriter.addBlankPage()
    # 在此 PDF 文件中插入一个pageObject对象。该页面通常是从一个 PdfFileReader实例中获取的
    # index指定插入位置 默认再最开始插入
    pdfWriter.insertPage(pdfReader.getPage(2))
    # addAttachment(fname, fdata) 在 PDF 中嵌入文件
    # pdfWriter.addAttachment(fname="附件一.txt", fdata=b'Hello world!')
    print(pdfWriter.getNumPages())
    #加密
    #pdfWriter.encrypt(user_pwd='password', owner_pwd='password')
    pdfWriter.write(open('H:/test_w.pdf','wb'))

3、重要的概念PageObject:

在PdfFileReader加载pdf文件后,获取的每一页都会被转换为PageObject对象,对于Pdf的操作,实际就是在操作PageObject对象;

下面是PageObject对象中常用的方法:

PageObject的方法:
mergePage(page2) 将两个页面的内容合并为一个,可以实现水印效果
mergeRotatedPage(page2, rotation, expand=False) 类似mergePage方法,可以对page2页面进行旋转操作
mergeScaledPage(page2, scale, expand=False) 类似mergePage方法,可以对page2页面进行缩放操作
mergeTranslatedPage(page2, tx, ty, expand=False) 类似mergePage方法,可以对page2页面进行平移操作
mergeRotatedScaledPage(page2, rotation, scale, expand=False) 类似mergePage方法,可以对page2页面进行旋转以及缩放操作
mergeRotatedScaledTranslatedPage(page2, rotation, scale, tx, ty, expand=False) 类似mergePage方法,可以对page2页面进行旋转、缩放以及平移操作
mergeRotatedTranslatedPage(page2, rotation, tx, ty, expand=False) 类似mergePage方法,可以对page2页面进行旋转以及平移操作
mergeScaledTranslatedPage(page2, scale, tx, ty, expand=False) 类似mergePage方法,可以对page2页面进行缩放以及平移操作
mergeTransformedPage(page2, ctm, expand=False) 类似mergePage方法,可以对page2页面进行矩阵转换操作
rotateClockwise(angle) 顺时针旋转页面,angle必须是 90 度的增量
rotateCounterClockwise(angle) 逆时针旋转页面,angle必须是 90 度的增量
scale(sx, sy) 缩放页面
scaleBy(factor) 按固定XY轴比例缩放页面
scaleTo(width, height) 页面缩放到指定尺寸

实现一个合并pdf文件的功能:

可参考代码注释理解:

image.png

相关文章
|
12天前
|
数据采集 存储 API
网络爬虫与数据采集:使用Python自动化获取网页数据
【4月更文挑战第12天】本文介绍了Python网络爬虫的基础知识,包括网络爬虫概念(请求网页、解析、存储数据和处理异常)和Python常用的爬虫库requests(发送HTTP请求)与BeautifulSoup(解析HTML)。通过基本流程示例展示了如何导入库、发送请求、解析网页、提取数据、存储数据及处理异常。还提到了Python爬虫的实际应用,如获取新闻数据和商品信息。
|
17天前
|
人工智能 机器人 C++
【C++/Python】Windows用Swig实现C++调用Python(史上最简单详细,80岁看了都会操作)
【C++/Python】Windows用Swig实现C++调用Python(史上最简单详细,80岁看了都会操作)
|
1天前
|
人工智能 Python
【Python实用技能】建议收藏:自动化实现网页内容转PDF并保存的方法探索(含代码,亲测可用)
【Python实用技能】建议收藏:自动化实现网页内容转PDF并保存的方法探索(含代码,亲测可用)
14 0
|
1天前
|
JSON 数据格式 索引
python 又一个点运算符操作的字典库:Munch
python 又一个点运算符操作的字典库:Munch
9 0
|
1天前
|
测试技术 持续交付 API
Python的UI自动化测试
【4月更文挑战第17天】Python UI自动化测试涉及Selenium(Web)、Appium(移动应用)和PyQt(桌面应用)等框架。基本步骤包括确定测试目标、选择合适框架、安装配置、编写测试脚本、运行调试以及集成到CI/CD流程。注意自动化测试不能完全取代人工测试,应根据需求平衡使用。
8 1
|
2天前
|
前端开发 测试技术 C++
Python自动化测试面试:unittest、pytest与Selenium详解
【4月更文挑战第19天】本文聚焦Python自动化测试面试,重点讨论unittest、pytest和Selenium三大框架。unittest涉及断言、TestSuite和覆盖率报告;易错点包括测试代码冗余和异常处理。pytest涵盖fixtures、参数化测试和插件系统,要注意避免过度依赖unittest特性。Selenium的核心是WebDriver操作、等待策略和测试报告生成,强调智能等待和元素定位策略。掌握这些关键点将有助于提升面试表现。
14 0
|
2天前
|
XML Web App开发 测试技术
python的Web自动化测试
【4月更文挑战第16天】Python在Web自动化测试中广泛应用,借助Selenium(支持多浏览器交互)、BeautifulSoup(解析HTML/XML)、Requests(发送HTTP请求)和Unittest(测试框架)等工具。测试步骤包括环境搭建、编写测试用例、初始化浏览器、访问页面、操作元素、验证结果、关闭浏览器及运行报告。注意浏览器兼容性、动态内容处理和错误处理。这些组合能提升测试效率和质量。
11 6
|
5天前
|
索引 Python
如何使用Python的Pandas库进行数据透视表(pivot table)操作?
使用Pandas在Python中创建数据透视表的步骤包括:安装Pandas库,导入它,创建或读取数据(如DataFrame),使用`pd.pivot_table()`指定数据框、行索引、列索引和值,计算聚合函数(如平均分),并可打印或保存结果到文件。这允许对数据进行高效汇总和分析。
10 2
|
12天前
|
数据采集 JSON 网络协议
「Python系列」Python urllib库(操作网页URL对网页的内容进行抓取处理)
`urllib` 是 Python 的一个标准库,用于打开和读取 URLs。它提供了一组模块,允许你以编程方式从网络获取数据,如网页内容、文件等。
35 0
|
15天前
|
JSON 测试技术 持续交付
自动化测试与脚本编写:Python实践指南
【4月更文挑战第9天】本文探讨了Python在自动化测试中的应用,强调其作为热门选择的原因。Python拥有丰富的测试框架(如unittest、pytest、nose)以支持自动化测试,简化测试用例的编写与维护。示例展示了使用unittest进行单元测试的基本步骤。此外,Python还适用于集成测试、系统测试等,提供模拟外部系统行为的工具。在脚本编写实践中,Python的灵活语法和强大库(如os、shutil、sqlite3、json)助力执行复杂测试任务。同时,Python支持并发、分布式执行及与Jenkins、Travis CI等持续集成工具的集成,提升测试效率和质量。

热门文章

最新文章